张贴在 2025

  • 云原生环境中的镜像兼容性

    作者 Chaoyi Huang(华为), Marcin Franczyk(华为), Vanessa Sochat(劳伦斯利物浦国家实验室) | 2025.06.25 在 博客

    在电信、高性能或 AI 计算等必须高度可靠且满足严格性能标准的行业中,容器化应用通常需要特定的操作系统配置或硬件支持。 通常的做法是要求使用特定版本的内核、其配置、设备驱动程序或系统组件。 尽管存在开放容器倡议 (OCI) 这样一个定义容器镜像标准和规范的治理社区, 但在表达这种兼容性需求方面仍存在空白。为了解决这一问题,业界提出了多个提案,并最终在 Kubernetes 的节点特性发现 (NFD) 项目中实现了相关功能。 NFD 是一个开源的 Kubernetes 项目,能够自动检测并报告集 …

    更多

  • Kubernetes Slack 变更公告

    作者 Josh Berkus | 2025.06.16 在 博客

    更新:我们已收到 Salesforce 的通知,我们的 Slack 工作区在 6 月 20 日不会被降级。 请等待更多细节更新,目前无需紧急备份私有频道或私信。 Kubernetes Slack 将在 6 月 20 日失去原有的专属支持,并转变为标准免费版 Slack~。 今年晚些时候,我们的社区可能会迁移到新平台。 如果你是频道或私有频道的负责人,又或是用户组的成员,你需要尽快采取一些行动。 在过去十年中,Slack 一直通过免费定制企业账户支持我们的项目。 他们已告知我们无法继续提供这种支 …

    更多

  • 通过自定义聚合增强 Kubernetes Event 管理

    作者 Rez Moss | 2025.06.10 在 博客

    Kubernetes Event 提供了集群操作的关键洞察信息,但随着集群的增长,管理和分析这些 Event 变得越来越具有挑战性。 这篇博客文章探讨了如何构建自定义 Event 聚合系统,以帮助工程团队更好地理解集群行为并更有效地解决问题。 Kubernetes Event 的挑战 在 Kubernetes 集群中,从 Pod 调度、容器启动到卷挂载和网络配置, 各种操作都会生成 Event。虽然这些 Event 对于调试和监控非常有价值, 但在生产环境中出现了几个挑战: 量:大型集群每分钟 …

    更多

  • 介绍 Gateway API 推理扩展

    作者 Daneyon Hansen (Solo.io), Kaushik Mitra (Google), Jiaxin Shan (Bytedance), Kellen Swain (Google) | 2025.06.05 在 博客

    现代生成式 AI 和大语言模型(LLM)服务在 Kubernetes 上带来独特的流量路由挑战。 与典型的短生命期的无状态 Web 请求不同,LLM 推理会话通常是长时间运行的、资源密集型的,并且具有一定的状态性。 例如,单个由 GPU 支撑的模型服务器可能会保持多个推理会话处于活跃状态,并保留内存中的令牌缓存。 传统的负载均衡器注重 HTTP 路径或轮询,缺乏处理这类工作负载所需的专业能力。 传统的负载均衡器通常无法识别模型身份或请求重要性(例如交互式聊天与批处理任务的区别)。 各个组织往往 …

    更多

  • 先启动边车:如何避免障碍

    作者 Agata Skorupka (The Scale Factory) | 2025.06.03 在 博客

    从 "Kubernetes 多容器 Pod:概述"博客中, 你了解了 Pod 的工作方式,Pod 的主要架构模式,以及 Pod 在 Kubernetes 中是如何实现的。 本文主要介绍的是如何确保你的边车容器在主应用之前启动。这比你想象的要复杂得多! 简要回顾 我想提醒读者的是,Kubernetes v1.29.0 版本增加了对 边车容器的原生支持, 现在可以在 .spec.initContainers 字段中定义,但带有 restartPolicy: Always。 你可 …

    更多

  • Gateway API v1.3.0:流量复制、CORS、Gateway 合并和重试预算的改进

    作者 Candace Holman (Red Hat) | 2025.06.02 在 博客

    加入 Kubernetes SIG Network 社区,共同庆祝 Gateway API v1.3.0 正式发布! 我们很高兴地宣布,通过推迟这篇博客的发布,现在已经有了多个符合规范的实现可供试用。 API 1.3.0 版本已于 2025 年 4 月 24 日发布。 Gateway API v1.3.0 为 Standard 渠道(Gateway API 的正式发布渠道)带来了一个新功能:基于百分比的流量复制, 并引入了三个新的实验性功能: 跨源资源共享(CORS)过滤器 Listener …

    更多

  • Kubernetes v1.33:原地调整 Pod 资源特性升级为 Beta

    作者 Tim Allclair (Google) | 2025.05.16 在 博客

    代表 Kubernetes 项目,我很高兴地宣布,原地 Pod 调整大小特性(也称为原地 Pod 垂直缩放), 在 Kubernetes v1.27 中首次引入为 Alpha 版本,现在已升级为 Beta 版本, 并将在 Kubernetes v1.33 发行版中默认启用! 这标志着 Kubernetes 工作负载的资源管理变得更加灵活和不那么具有干扰性的一个重要里程碑。 什么是原地 Pod 调整大小? 传统上,更改分配给容器的 CPU 或内存资源需要重启 Pod。 虽然这对于许多无状态应用来 …

    更多

  • Kubernetes 1.33:Job 的 SuccessPolicy 进阶至 GA

    2025.05.15 在 博客

    我代表 Kubernetes 项目组,很高兴地宣布在 v1.33 版本中,Job 的成功策略已进阶至 GA(正式发布)。 关于 Job 的成功策略 在批处理工作负载中,你可能希望使用类似 MPI(消息传递接口) 的领导者跟随者(leader-follower)模式,其中领导者控制执行过程,包括跟随者的生命周期。 在这种情况下,即使某些索引失败了,你也可能希望将 Job 标记为成功。 然而,在没有使用成功策略的情况下,Kubernetes 中的领导者跟随者 Job 通常必须要求所有 Pod 成功 …

    更多

  • Kubernetes v1.33:容器生命周期更新

    作者 Sreeram Venkitesh (DigitalOcean) | 2025.05.14 在 博客

    Kubernetes v1.33 引入了对容器生命周期的一些更新。 容器生命周期回调的 Sleep 动作现在支持零睡眠时长(特性默认启用)。 同时还为定制发送给终止中的容器的停止信号提供了 Alpha 级别支持。 这篇博客文章深入介绍了容器生命周期的这些新内容,以及如何使用它们。 Sleep 动作的零值 Kubernetes v1.29 引入了容器 PreStop 和 PostStart 生命周期回调的 Sleep 动作。 Sleep 动作允许你的容器在启动后或终止前暂停指定的时长。这为管理优 …

    更多

  • Kubernetes v1.33:Job 逐索引的回退限制进阶至 GA

    作者 Michał Woźniak (Google) | 2025.05.13 在 博客

    在 Kubernetes v1.33 中,逐索引的回退限制特性进阶至 GA(正式发布)。本文介绍此特性及其优势。 关于逐索引的回退限制 当你在 Kubernetes 上运行工作负载时,必须考虑 Pod 失效可能影响工作负载完成的场景。 理想情况下,你的工作负载应该能够容忍短暂的失效并继续运行。 为了在 Kubernetes Job 中容忍失效,你可以设置 spec.backoffLimit 字段。 此字段指定容忍的失效总数。 但是,对于每个索引都被视为独立单元的工作负载, 比如过易并行的工作负 …

    更多