Kubernetes 博客

宣布成立 Checkpoint/Restore 工作组

借由 Radostin Stoyanov, Viktória Spišaková, Adrian Reber, Peter Hunt | 译者 Xin Li | 2026.01.21

Kubernetes 社区包含多个特别兴趣小组（SIG）和工作组（WG），旨在促进感兴趣的贡献者之间就重要议题展开讨论。今天，我们宣布成立新的 Kubernetes Checkpoint Restore WG，专注于将 Checkpoint/Restore 功能集成到 Kubernetes 中。

动机和应用场景

工作组讨论了以下几个高层次的应用场景：

优化交互式工作负载（例如 Jupyter Notebook 和 AI 聊天机器人）的资源利用率
加速初始化时间较长的应用程序启动，包括 Java 应用程序和 LLM 推理服务
使用周期性 Checkpoint 机制，为长时间运行的工作负载（例如分布式模型训练）提供容错能力
提供具有透明 Checkpoint/Restore 功能的中断感知调度，允许抢占低优先级 Pod，同时保持应用程序的运行时状态
促进 Pod 跨节点迁移，以实现负载均衡和维护，而不会中断工作负载
启用 Checkpoint 取证功能，用于调查和分析安全事件，例如网络攻击、数据泄露和未经授权的访问。

在这些场景中，目标是促进 Kubernetes 社区与日益壮大的用户空间 Checkpoint/Restore（CRIU）生态系统之间的思想交流。CRIU 社区包含多个支持这些用例的项目，其中包括：

CRIU - 用于对运行中的应用程序和容器进行 Checkpoint 维护和 Restore 的工具
checkpointctl - 用于深入分析容器 Checkpoint 的工具
criu-coordinator - 用于与 CRIU 协同执行分布式应用程序 Checkpoint/Restore 的工具
checkpoint-restore-operator - 用于管理 Checkpoint 的 Kubernetes Operator

有关 Kubernetes 的 Checkpoint/Restore 集成的更多信息，请参阅此处。

相关活动

继我们在 KubeCon EU 2025 上就透明 Checkpoint 发表演讲之后，我们非常高兴地邀请你参加我们在 KubeCon + CloudNativeCon Europe 2026 上的小组讨论和人工智能 + 机器学习专题研讨会。

联系我们

如果你有兴趣为 Kubernetes 或 CRIU 做贡献，可以通过以下几种方式参与：

请于每隔一周的周四 17:00 UTC 通过会议记录中的 Zoom 链接加入我们的会议；之前的会议录像可在此处观看。
在 Kubernetes Slack 上与我们交流：#wg-checkpoint-restore
发送邮件至 wg-checkpoint-restore 邮件列表