宣布成立 Checkpoint/Restore 工作组
Kubernetes 社区包含多个特别兴趣小组(SIG)和工作组(WG), 旨在促进感兴趣的贡献者之间就重要议题展开讨论。 今天,我们宣布成立新的 Kubernetes Checkpoint Restore WG, 专注于将 Checkpoint/Restore 功能集成到 Kubernetes 中。
动机和应用场景
工作组讨论了以下几个高层次的应用场景:
- 优化交互式工作负载(例如 Jupyter Notebook 和 AI 聊天机器人)的资源利用率
- 加速初始化时间较长的应用程序启动,包括 Java 应用程序和 LLM 推理服务
- 使用周期性 Checkpoint 机制,为长时间运行的工作负载(例如分布式模型训练)提供容错能力
- 提供具有透明 Checkpoint/Restore 功能的中断感知调度, 允许抢占低优先级 Pod,同时保持应用程序的运行时状态
- 促进 Pod 跨节点迁移,以实现负载均衡和维护,而不会中断工作负载
- 启用 Checkpoint 取证功能,用于调查和分析安全事件,例如网络攻击、数据泄露和未经授权的访问。
在这些场景中,目标是促进 Kubernetes 社区与日益壮大的用户空间 Checkpoint/Restore(CRIU)生态系统之间的思想交流。CRIU 社区包含多个支持这些用例的项目,其中包括:
- CRIU - 用于对运行中的应用程序和容器进行 Checkpoint 维护和 Restore 的工具
- checkpointctl - 用于深入分析容器 Checkpoint 的工具
- criu-coordinator - 用于与 CRIU 协同执行分布式应用程序 Checkpoint/Restore 的工具
- checkpoint-restore-operator - 用于管理 Checkpoint 的 Kubernetes Operator
有关 Kubernetes 的 Checkpoint/Restore 集成的更多信息,请参阅此处。
相关活动
继我们在 KubeCon EU 2025 上就透明 Checkpoint 发表演讲之后,我们非常高兴地邀请你参加我们在 KubeCon + CloudNativeCon Europe 2026 上的小组讨论和人工智能 + 机器学习专题研讨会。
联系我们
如果你有兴趣为 Kubernetes 或 CRIU 做贡献,可以通过以下几种方式参与:
- 请于每隔一周的周四 17:00 UTC 通过会议记录中的 Zoom 链接加入我们的会议;之前的会议录像可在此处观看。
- 在 Kubernetes Slack 上与我们交流:#wg-checkpoint-restore
- 发送邮件至 wg-checkpoint-restore 邮件列表