宣布成立 Checkpoint/Restore 工作组

Kubernetes 社区包含多个特别兴趣小组(SIG)和工作组(WG), 旨在促进感兴趣的贡献者之间就重要议题展开讨论。 今天,我们宣布成立新的 Kubernetes Checkpoint Restore WG, 专注于将 Checkpoint/Restore 功能集成到 Kubernetes 中。

动机和应用场景

工作组讨论了以下几个高层次的应用场景:

  • 优化交互式工作负载(例如 Jupyter Notebook 和 AI 聊天机器人)的资源利用率
  • 加速初始化时间较长的应用程序启动,包括 Java 应用程序和 LLM 推理服务
  • 使用周期性 Checkpoint 机制,为长时间运行的工作负载(例如分布式模型训练)提供容错能力
  • 提供具有透明 Checkpoint/Restore 功能的中断感知调度, 允许抢占低优先级 Pod,同时保持应用程序的运行时状态
  • 促进 Pod 跨节点迁移,以实现负载均衡和维护,而不会中断工作负载
  • 启用 Checkpoint 取证功能,用于调查和分析安全事件,例如网络攻击、数据泄露和未经授权的访问。

在这些场景中,目标是促进 Kubernetes 社区与日益壮大的用户空间 Checkpoint/Restore(CRIU)生态系统之间的思想交流。CRIU 社区包含多个支持这些用例的项目,其中包括:

  • CRIU - 用于对运行中的应用程序和容器进行 Checkpoint 维护和 Restore 的工具
  • checkpointctl - 用于深入分析容器 Checkpoint 的工具
  • criu-coordinator - 用于与 CRIU 协同执行分布式应用程序 Checkpoint/Restore 的工具
  • checkpoint-restore-operator - 用于管理 Checkpoint 的 Kubernetes Operator

有关 Kubernetes 的 Checkpoint/Restore 集成的更多信息,请参阅此处

相关活动

继我们在 KubeCon EU 2025 上就透明 Checkpoint 发表演讲之后,我们非常高兴地邀请你参加我们在 KubeCon + CloudNativeCon Europe 2026 上的小组讨论人工智能 + 机器学习专题研讨会

联系我们

如果你有兴趣为 Kubernetes 或 CRIU 做贡献,可以通过以下几种方式参与: