这是本节的多页打印视图。点击此处打印.

容器

打包应用及其运行依赖环境的技术。

1: 镜像
2: 容器环境
3: 容器运行时类（Runtime Class）
4: 容器生命周期回调
5: 容器运行时接口（CRI）

本页将讨论容器和容器镜像，以及它们在运维和解决方案开发中的应用。

容器是一个多义词。每当你使用这个词时，请确认你的受众是否使用相同的定义。

每个运行的容器都是可重复的；包含依赖环境在内的标准，意味着无论你在哪里运行它都会得到相同的行为。

容器将应用程序从底层的主机设施中解耦。这使得在不同的云或 OS 环境中部署更加容易。

Kubernetes 集群中的每个节点都会运行容器，这些容器构成分配给该节点的 Pod。单个 Pod 中的容器会在共同调度下，于同一位置运行在相同的节点上。

容器镜像

容器镜像是一个随时可以运行的软件包，包含运行应用程序所需的一切：代码和它需要的所有运行时、应用程序和系统库，以及一些基本设置的默认值。

容器旨在设计成无状态且不可变的：你不应更改已经运行的容器的代码。如果有一个容器化的应用程序需要修改，正确的流程是：先构建包含更改的新镜像，再基于新构建的镜像重新运行容器。

容器运行时

这个基础组件使 Kubernetes 能够有效运行容器。它负责管理 Kubernetes 环境中容器的执行和生命周期。

Kubernetes 支持许多容器运行环境，例如 containerd、 CRI-O 以及 Kubernetes CRI (容器运行环境接口) 的其他任何实现。

通常，你可以允许集群为一个 Pod 选择其默认的容器运行时。如果你需要在集群中使用多个容器运行时，你可以为一个 Pod 指定 RuntimeClass，以确保 Kubernetes 会使用特定的容器运行时来运行这些容器。

你还可以通过 RuntimeClass，使用相同的容器运行时，但使用不同设定的配置来运行不同的 Pod。

1 - 镜像

容器镜像（Image）所承载的是封装了应用程序及其所有软件依赖的二进制数据。容器镜像是可执行的软件包，可以单独运行；该软件包对所处的运行时环境具有明确定义的运行时环境假定。

你通常会创建应用的容器镜像并将其推送到某仓库（Registry），然后在 Pod 中引用它。

本页概要介绍容器镜像的概念。

说明：

如果你正在寻找 Kubernetes 某个发行版本（如最新次要版本 v1.36）的容器镜像，请访问下载 Kubernetes。

镜像名称

容器镜像通常会被赋予 pause、example/mycontainer 或者 kube-apiserver 这类的名称。镜像名称也可以包含所在仓库的主机名。例如：fictional.registry.example/imagename。还可以包含仓库的端口号，例如：fictional.registry.example:10443/imagename。

如果你不指定仓库的主机名，Kubernetes 认为你在使用 Docker 公共仓库。你可以通过在容器运行时配置中设置默认镜像仓库来更改此行为。

在镜像名称之后，你可以添加一个标签（Tag） 或 摘要（digest） （与使用 docker 或 podman 等命令时的方式相同）。使用标签能让你辨识同一镜像序列中的不同版本。摘要是特定版本镜像的唯一标识符，是镜像内容的哈希值，不可变。

镜像标签可以包含小写字母、大写字母、数字、下划线（_）、句点（.）和连字符（-）。标签的长度最多为 128 个字符，并且必须遵循正则表达式模式：[a-zA-Z0-9_][a-zA-Z0-9._-]{0,127}。你可以在 OCI 分发规范中阅读有关并找到验证正则表达式的更多信息。如果你不指定标签，Kubernetes 认为你想使用标签 latest。

镜像摘要由哈希算法（例如 sha256）和哈希值组成，例如： sha256:1ff6c18fbef2045af6b9c16bf034cc421a29027b800e4f9b68ae9b1cb3e9ae07。你可以在 OCI 镜像规范中找到有关摘要格式的更多信息。

Kubernetes 可以使用的一些镜像名称示例包括：

busybox - 仅包含镜像名称，没有标签或摘要，Kubernetes 将使用 Docker 公共镜像仓库和 latest 标签。（例如 docker.io/library/busybox:latest）
busybox:1.32.0 - 带标签的镜像名称，Kubernetes 将使用 Docker 公共镜像仓库。（例如 docker.io/library/busybox:1.32.0）
registry.k8s.io/pause:latest - 带有自定义镜像仓库和 latest 标签的镜像名称。
registry.k8s.io/pause:3.5 - 带有自定义镜像仓库和非 latest 标签的镜像名称。
registry.k8s.io/pause@sha256:1ff6c18fbef2045af6b9c16bf034cc421a29027b800e4f9b68ae9b1cb3e9ae07 - 带摘要的镜像名称。
registry.k8s.io/pause:3.5@sha256:1ff6c18fbef2045af6b9c16bf034cc421a29027b800e4f9b68ae9b1cb3e9ae07 - 带有标签和摘要的镜像名称，镜像拉取仅参考摘要。

更新镜像

当你最初创建一个 Deployment、 StatefulSet、Pod 或者其他包含 PodTemplate 的对象，且没有显式指定拉取策略时， Pod 中所有容器的默认镜像拉取策略将被设置为 IfNotPresent。这一策略会使得 kubelet 在镜像已经存在的情况下直接略过拉取镜像的操作。

镜像拉取策略

容器的 imagePullPolicy 和镜像的标签会影响 kubelet 尝试拉取（下载）指定的镜像。

以下列表包含了 imagePullPolicy 可以设置的值，以及这些值的效果：

IfNotPresent: 只有当镜像在本地不存在时才会拉取。
Always: 每当 kubelet 启动一个容器时，kubelet 会请求容器运行时拉取镜像。容器运行时查询镜像仓库，将镜像标签或名称解析为
摘要，
并下载任何未在本地缓存的层。如果所有层都已存在，容器运行时将使用缓存的镜像而不再次下载。
kubelet 自身不检查镜像是否已在本地缓存；它总是委托给容器运行时。
Never: kubelet 不会尝试获取镜像。如果镜像已经以某种方式存在本地， kubelet 会尝试启动容器；否则，会启动失败。更多细节见提前拉取镜像。

只要能够可靠地访问镜像仓库，容器运行时的缓存机制使得即使设置了 imagePullPolicy: Always，也能保持高效。容器运行时可以注意到节点上已经存在的镜像层，这样就不需要再次下载。

说明：

在生产环境中部署容器时，你应该避免使用 :latest 标签，因为这使得正在运行的镜像的版本难以追踪，并且难以正确地回滚。

相反，应指定一个有意义的标签，如 v1.42.0，和/或者一个摘要。

为了确保 Pod 总是使用相同版本的容器镜像，你可以指定镜像的摘要；将 <image-name>:<tag> 替换为 <image-name>@<digest>，例如 image@sha256:45b23dee08af5e43a7fea6c4cf9c25ccf269ee113168c19722f87876677c5cb2。

当使用镜像标签时，如果镜像仓库修改了代码所对应的镜像标签，可能会出现新旧代码混杂在 Pod 中运行的情况。镜像摘要唯一标识了镜像的特定版本，因此 Kubernetes 每次启动具有指定镜像名称和摘要的容器时，都会运行相同的代码。通过摘要指定镜像可固定你运行的代码，这样镜像仓库的变化就不会导致版本的混杂。

有一些第三方的准入控制器在创建 Pod（和 PodTemplate）时产生变更，这样运行的工作负载就是根据镜像摘要，而不是标签来定义的。无论镜像仓库上的标签发生什么变化，你都想确保你的整个工作负载都运行相同的代码，那么指定镜像摘要会很有用。

默认镜像拉取策略

当你（或控制器）向 API 服务器提交一个新的 Pod 时，你的集群会在满足特定条件时设置 imagePullPolicy 字段：

如果你省略了 imagePullPolicy 字段，并且你为容器镜像指定了摘要，那么 imagePullPolicy 会自动设置为 IfNotPresent。
如果你省略了 imagePullPolicy 字段，并且容器镜像的标签是 :latest， imagePullPolicy 会自动设置为 Always。
如果你省略了 imagePullPolicy 字段，并且没有指定容器镜像的标签， imagePullPolicy 会自动设置为 Always。
如果你省略了 imagePullPolicy 字段，并且为容器镜像指定了非 :latest 的标签， imagePullPolicy 就会自动设置为 IfNotPresent。

说明：

容器的 imagePullPolicy 的值总是在对象初次创建时设置的，如果后来镜像的标签或摘要发生变化，则不会更新。

例如，如果你用一个非 :latest 的镜像标签创建一个 Deployment，并在随后更新该 Deployment 的镜像标签为 :latest，则 imagePullPolicy 字段不会变成 Always。你必须手动更改已经创建的资源的拉取策略。

必要的镜像拉取

如果你想总是强制执行拉取，你可以使用下述的一种方式：

设置容器的 imagePullPolicy 为 Always。
省略 imagePullPolicy，并使用 :latest 作为镜像标签；当你提交 Pod 时，Kubernetes 会将策略设置为 Always。
省略 imagePullPolicy 和镜像的标签；当你提交 Pod 时，Kubernetes 会将策略设置为 Always。
启用准入控制器 AlwaysPullImages。

ImagePullBackOff

当 kubelet 使用容器运行时创建 Pod 时，容器可能因为 ImagePullBackOff 导致状态为 Waiting。

ImagePullBackOff 状态意味着容器无法启动，因为 Kubernetes 无法拉取容器镜像（原因包括无效的镜像名称，或从私有仓库拉取而没有 imagePullSecret）。 BackOff 部分表示 Kubernetes 将继续尝试拉取镜像，并增加回退延迟。

Kubernetes 会增加每次尝试之间的延迟，直到达到编译限制，即 300 秒（5 分钟）。

基于运行时类的镜像拉取

特性状态： Kubernetes v1.29 [alpha]（默认禁用）

Kubernetes 包含了根据 Pod 的 RuntimeClass 来执行镜像拉取的 Alpha 支持。

如果你启用了 RuntimeClassInImageCriApi 特性门控， kubelet 会通过一个由镜像名称和运行时处理程序构成的元组而不仅仅是镜像名称或镜像摘要来引用容器镜像。你的容器运行时可能会根据选定的运行时处理程序调整其行为。基于运行时类来拉取镜像对于 Windows Hyper-V 容器这类基于 VM 的容器会有帮助。

串行和并行镜像拉取

默认情况下，kubelet 以串行方式拉取镜像。也就是说，kubelet 一次只向镜像服务发送一个镜像拉取请求。其他镜像拉取请求必须等待，直到正在处理的那个请求完成。

节点独立地做出镜像拉取的决策。即使你使用串行的镜像拉取，两个不同的节点也可以并行拉取相同的镜像。

如果你想启用并行镜像拉取，可以在 kubelet 配置中将字段 serializeImagePulls 设置为 false。当 serializeImagePulls 设置为 false 时，kubelet 会立即向镜像服务发送镜像拉取请求，多个镜像将同时被拉动。

启用并行镜像拉取时，确保你的容器运行时的镜像服务可以处理并行镜像拉取。

kubelet 从不代表一个 Pod 并行地拉取多个镜像。例如，如果你有一个 Pod，它有一个初始容器和一个应用容器，那么这两个容器的镜像拉取将不会并行。但是，如果你有两个使用不同镜像的 Pod，且启用并行镜像拉取特性时， kubelet 会代表两个不同的 Pod 并行拉取镜像。

最大并行镜像拉取数量

特性状态： Kubernetes v1.35 [stable]

当 serializeImagePulls 被设置为 false 时，kubelet 默认对同时拉取的最大镜像数量没有限制。如果你想限制并行镜像拉取的数量，可以在 kubelet 配置中设置字段 maxParallelImagePulls。当 maxParallelImagePulls 设置为 n 时，只能同时拉取 n 个镜像，超过 n 的任何镜像都必须等到至少一个正在进行拉取的镜像拉取完成后，才能拉取。

当启用并行镜像拉取时，限制并行镜像拉取的数量来防止镜像拉取消耗过多的网络带宽或磁盘 I/O。

你可以将 maxParallelImagePulls 设置为大于或等于 1 的正数。如果将 maxParallelImagePulls 设置为大于等于 2，则必须将 serializeImagePulls 设置为 false。 kubelet 在无效的 maxParallelImagePulls 设置下会启动失败。

带镜像索引的多架构镜像

除了提供二进制的镜像之外，容器仓库也可以提供容器镜像索引。镜像索引可以指向镜像的多个镜像清单，提供特定于体系结构版本的容器。这背后的理念是让你可以为镜像命名（例如：pause、example/mycontainer、kube-apiserver）的同时，允许不同的系统基于它们所使用的机器体系结构获取正确的二进制镜像。

Kubernetes 项目通常在命名容器镜像时添加后缀 -$(ARCH)。为了向前兼容，在生成较老的镜像时也提供后缀。例如，名为 pause 的镜像是一个多架构镜像，包含所有受支持架构的镜像清单；而 pause-amd64 是一个向后兼容的版本，用于旧的配置，或用于 YAML 文件中硬编码了带后缀镜像名称的情况。

使用私有仓库

从私有仓库读取镜像时可能需要发现和/或拉取镜像的身份认证。凭据可以用以下方式提供:

当你定义 Pod 时指定 imagePullSecrets
只有提供自己密钥的 Pod 才能访问私有仓库。
配置节点向私有仓库进行身份验证
- 所有 Pod 均可读取任何已配置的私有仓库。
- 需要集群管理员配置节点。

使用 kubelet 凭据提供程序动态获取私有仓库的凭据
kubelet 可以被配置为使用凭据提供程序 exec 插件来访问对应的私有镜像库。

预拉镜像
- 所有 Pod 都可以使用节点上缓存的所有镜像。
- 需要所有节点的 root 访问权限才能进行设置。
特定于厂商的扩展或者本地扩展
如果你在使用定制的节点配置，你（或者云平台提供商）可以实现让节点向容器仓库认证的机制。

下面将详细描述每一项。

在 Pod 上指定 `imagePullSecrets`

说明：

运行使用私有仓库中镜像的容器时，建议使用这种方法。

Kubernetes 支持在 Pod 中设置容器镜像仓库的密钥。所有 imagePullSecrets 必须全部与 Pod 位于同一个名字空间中。这些 Secret 必须是 kubernetes.io/dockercfg 或 kubernetes.io/dockerconfigjson 类型。

配置 Node 对私有仓库认证

设置凭据的具体说明取决于你选择使用的容器运行时和仓库。你应该参考解决方案的文档来获取最准确的信息。

有关配置私有容器镜像仓库的示例，请参阅任务从私有镜像库中拉取镜像。该示例使用 Docker Hub 中的私有镜像仓库。

用于认证镜像拉取的 kubelet 凭据提供程序

你可以配置 kubelet，以调用插件可执行文件的方式来动态获取容器镜像的仓库凭据。这是为私有仓库获取凭据最稳健和最通用的方法，但也需要 kubelet 级别的配置才能启用。

这种技术在运行依赖私有仓库中容器镜像的静态 Pod 时尤其有用。在静态 Pod 的规约中，不能使用 ServiceAccount 或 Secret 来提供私有镜像仓库的凭据，因为它不能在规约中引用其他 API 资源。

有关更多细节请参见配置 kubelet 镜像凭据提供程序。

config.json 说明

对于 config.json 的解释在原始 Docker 实现和 Kubernetes 的解释之间有所不同。在 Docker 中，auths 键只能指定根 URL，而 Kubernetes 允许 glob URL 以及前缀匹配的路径。唯一的限制是 glob 模式（*）必须为每个子域名包括点（.）。匹配的子域名数量必须等于 glob 模式（*.）的数量，例如：

*.kubernetes.io 不会匹配 kubernetes.io，但会匹配 abc.kubernetes.io。
*.*.kubernetes.io 不会匹配 abc.kubernetes.io，但会匹配 abc.def.kubernetes.io。
prefix.*.io 将匹配 prefix.kubernetes.io。
*-good.kubernetes.io 将匹配 prefix-good.kubernetes.io。

这意味着，像这样的 config.json 是有效的：

{
    "auths": {
        "my-registry.example/images": { "auth": "…" },
        "*.my-registry.example/images": { "auth": "…" }
    }
}

镜像拉取操作将每种有效模式的凭据都传递给 CRI 容器运行时。例如下面的容器镜像名称会匹配成功：

my-registry.example/images
my-registry.example/images/my-image
my-registry.example/images/another-image
sub.my-registry.example/images/my-image

但这些容器镜像名称不会匹配成功：

a.sub.my-registry.example/images/my-image
a.b.sub.my-registry.example/images/my-image

kubelet 为每个找到的凭据的镜像按顺序拉取。这意味着对于不同的路径在 config.json 中也可能有多项：

{
    "auths": {
        "my-registry.example/images": {
            "auth": "…"
        },
        "my-registry.example/images/subpath": {
            "auth": "…"
        }
    }
}

如果一个容器指定了要拉取的镜像 my-registry.io/images/subpath/my-image，并且其中一个失败，kubelet 将尝试同时使用两个身份验证源下载镜像。

提前拉取镜像

说明：

该方法适用于你能够控制节点配置的场合。如果你的云供应商负责管理节点并自动置换节点，这一方案无法可靠地工作。

默认情况下，kubelet 会尝试从指定的仓库拉取每个镜像。但是，如果容器属性 imagePullPolicy 设置为 IfNotPresent 或者 Never，则会优先使用（对应 IfNotPresent）或者一定使用（对应 Never）本地镜像。

如果你希望使用提前拉取镜像的方法代替仓库认证，就必须保证集群中所有节点提前拉取的镜像是相同的。

这一方案可以用来提前载入指定的镜像以提高速度，或者作为向私有仓库执行身份认证的一种替代方案。

与使用 kubelet 凭据提供程序类似，预拉取镜像也适用于启动依赖私有仓库中镜像的静态 Pod。

说明：

特性状态： Kubernetes v1.35 [beta]（默认启用）

对预拉取镜像的访问可能需要根据镜像拉取凭据验证进行授权。

镜像拉取凭据验证

特性状态： Kubernetes v1.35 [beta]（默认启用）

如果为你的集群启用了 KubeletEnsureSecretPulledImages 特性门控，Kubernetes 将验证每个需要凭据才能拉取的镜像的凭据，即使该镜像已经存在于节点上。此验证确保了在 Pod 请求中未成功使用提供的凭据拉取的镜像必须从镜像仓库重新拉取。此外，若之前使用相同的凭据已成功拉取过镜像，则再次使用这些凭据的镜像拉取操作将不需要从镜像仓库重新拉取，而是通过本地验证（前提是镜像在本地可用）而无需访问镜像仓库。这由 kubelet 配置中的 imagePullCredentialsVerificationPolicy 字段控制。

此配置控制在镜像已经存在于节点上时，何时必须验证镜像拉取凭据：

NeverVerify：模仿关闭此特性门控的行为。如果镜像本地存在，则不会验证镜像拉取凭据。
NeverVerifyPreloadedImages：在 kubelet 外部拉取的镜像不会被验证，但所有其他镜像都将验证其凭据。这是默认行为。
NeverVerifyAllowListedImages：在 kubelet 外部拉取且列在 kubelet 配置中的 preloadedImagesVerificationAllowlist 里的镜像不会被验证。
AlwaysVerify：所有镜像在使用前都必须验证其凭据。

这种验证适用于预拉取镜像、使用节点范围的密钥拉取的镜像以及使用 Pod 级别密钥拉取的镜像。

说明：

在凭据轮换的情况下，之前用于拉取镜像的凭据将继续验证，而无需访问镜像仓库新的或已轮换的凭据将要求从镜像仓库重新拉取镜像。

首次启用 `KubeletEnsureSecretPulledImages`

当 KubeletEnsureSecretPulledImages 首次启用时（无论是通过 kubelet 升级还是显式启用此特性），如果 kubelet 当时能够访问任何镜像，则这些镜像都将被视为已预先拉取。这种情况发生是因为 kubelet 没有镜像被拉取的记录。只有当镜像首次被拉取时，kubelet 才能开始记录镜像拉取的信息。

如果担心这个问题，建议在启用此特性之前，清理节点上所有不应被视为预拉取的镜像。

请注意，删除包含镜像拉取记录的目录会对 kubelet 重启产生相同的影响，特别是容器运行时当前缓存在节点上的镜像将全部被视为预拉取的镜像。

使用 Docker Config 创建 Secret

你需要知道用于向仓库进行身份验证的用户名、密码和客户端电子邮件地址，以及它的主机名。运行以下命令，注意用合适的值替换占位符：

kubectl create secret docker-registry <name> \
  --docker-server=<docker-registry-server> \
  --docker-username=<docker-user> \
  --docker-password=<docker-password> \
  --docker-email=<docker-email>

如果你已经有 Docker 凭据文件，则可以将凭据文件导入为 Kubernetes Secret，而不是执行上面的命令。基于已有的 Docker 凭据创建 Secret 解释了如何完成这一操作。

如果你在使用多个私有容器仓库，这种技术将特别有用。原因是 kubectl create secret docker-registry 创建的是仅适用于某个私有仓库的 Secret。

说明：

Pod 只能引用位于自身所在名字空间中的 Secret，因此需要针对每个名字空间重复执行上述过程。

在 Pod 中引用 `ImagePullSecrets`

现在，在创建 Pod 时，可以在 Pod 定义中增加 imagePullSecrets 部分来引用该 Secret。 imagePullSecrets 数组中的每一项只能引用同一名字空间中的一个 Secret。

例如：

cat <<EOF > pod.yaml
apiVersion: v1
kind: Pod
metadata:
  name: foo
  namespace: awesomeapps
spec:
  containers:
    - name: foo
      image: janedoe/awesomeapp:v1
  imagePullSecrets:
    - name: myregistrykey
EOF

cat <<EOF >> ./kustomization.yaml
resources:
- pod.yaml
EOF

你需要对使用私有仓库的每个 Pod 执行以上操作。

不过，设置该字段的过程也可以通过为服务账号资源设置 imagePullSecrets 来自动完成。有关详细指令，可参见将 ImagePullSecrets 添加到服务账号。

你也可以将此方法与节点级别的 .docker/config.json 配置结合使用。来自不同来源的凭据会被合并。

使用案例

配置私有仓库有多种方案，以下是一些常用场景和建议的解决方案。

集群运行非专有镜像（例如，开源镜像）。镜像不需要隐藏。
- 使用来自公共仓库的公共镜像
  - 无需配置
  - 某些云厂商会自动为公开镜像提供高速缓存，以便提升可用性并缩短拉取镜像所需时间

集群运行一些专有镜像，这些镜像需要对公司外部隐藏，对所有集群用户可见
- 使用托管的私有仓库
  - 在需要访问私有仓库的节点上可能需要手动配置
- 或者，在防火墙内运行一个组织内部的私有仓库，并开放读取权限
  - 不需要配置 Kubernetes
- 使用控制镜像访问的托管容器镜像仓库服务
  - 与手动配置节点相比，这种方案能更好地处理节点自动扩缩容
- 或者，在不方便更改节点配置的集群中，使用 imagePullSecrets

集群使用专有镜像，且有些镜像需要更严格的访问控制
- 确保 AlwaysPullImages 准入控制器被启用。否则，所有 Pod 都可以使用所有镜像。
- 确保将敏感数据存储在 Secret 资源中，而不是将其打包在镜像里。

集群是多租户的并且每个租户需要自己的私有仓库
- 确保 AlwaysPullImages 准入控制器。否则，所有租户的所有的 Pod 都可以使用所有镜像。
- 为私有仓库启用鉴权。
- 为每个租户生成访问仓库的凭据，存放在 Secret 中，并将 Secret 发布到各租户的名字空间下。
- 租户将 Secret 添加到每个名字空间中的 imagePullSecrets。

如果你需要访问多个仓库，可以为每个仓库创建一个 Secret。

旧版的内置 kubelet 凭据提供程序

在旧版本的 Kubernetes 中，kubelet 与云提供商凭据直接集成。这使它能够动态获取镜像仓库的凭据。

kubelet 凭据提供程序集成存在三个内置实现： ACR（Azure 容器仓库）、ECR（Elastic 容器仓库）和 GCR（Google 容器仓库）。

从 Kubernetes v1.26 开始，旧版机制已被移除，因此你需要：

在每个节点上配置一个 kubelet 镜像凭据提供程序；或
使用 imagePullSecrets 和至少一个 Secret 指定镜像拉取凭据。

接下来

2 - 容器环境

本页描述了在容器环境里容器可用的资源。

容器环境

Kubernetes 的容器环境给容器提供了几个重要的资源：

文件系统，其中包含一个镜像和一个或多个的卷
容器自身的信息
集群中其他对象的信息

容器信息

一个容器的 hostname 是该容器运行所在的 Pod 的名称。通过 hostname 命令或者调用 libc 中的 gethostname 函数可以获取该名称。

Pod 名称和命名空间可以通过下行 API 转换为环境变量。

Pod 定义中的用户所定义的环境变量也可在容器中使用，就像在 container 镜像中静态指定的任何环境变量一样。

集群信息

创建容器时正在运行的所有服务都可用作该容器的环境变量。这里的服务仅限于新容器的 Pod 所在的名字空间中的服务，以及 Kubernetes 控制面的服务。

对于名为 foo 的服务，它公开一组 Pod，每个 Pod 运行一个名为 bar 的容器，定义了以下变量：

FOO_SERVICE_HOST=<其上服务正运行的主机>
FOO_SERVICE_PORT=<其上服务正运行的端口>

服务具有专用的 IP 地址。如果启用了 DNS 插件，可以在容器中通过 DNS 来访问服务。

接下来

学习更多有关容器生命周期回调的知识。
动手为容器的生命周期事件设置处理函数。

3 - 容器运行时类（Runtime Class）

特性状态： Kubernetes v1.20 [stable]

本页面描述了 RuntimeClass 资源和运行时的选择机制。

RuntimeClass 是一个用于选择容器运行时配置的特性，容器运行时配置用于运行 Pod 中的容器。

动机

你可以在不同的 Pod 设置不同的 RuntimeClass，以提供性能与安全性之间的平衡。例如，如果你的部分工作负载需要高级别的信息安全保证，你可以决定在调度这些 Pod 时尽量使它们在使用硬件虚拟化的容器运行时中运行。这样，你将从这些不同运行时所提供的额外隔离中获益，代价是一些额外的开销。

你还可以使用 RuntimeClass 运行具有相同容器运行时但具有不同设置的 Pod。

设置

在节点上配置 CRI 的实现（取决于所选用的运行时）
创建相应的 RuntimeClass 资源

1. 在节点上配置 CRI 实现

RuntimeClass 的配置依赖于运行时接口（CRI）的实现。根据你使用的 CRI 实现，查阅相关的文档（下方）来了解如何配置。

说明：

RuntimeClass 假设集群中的节点配置是同构的（换言之，所有的节点在容器运行时方面的配置是相同的）。如果需要支持异构节点，配置方法请参阅下面的调度。

所有这些配置都具有相应的 handler 名，并被 RuntimeClass 引用。 handler 必须是有效的 DNS 标签名。

2. 创建相应的 RuntimeClass 资源

在上面步骤 1 中，每个配置都需要有一个用于标识配置的 handler。针对每个 handler 需要创建一个 RuntimeClass 对象。

RuntimeClass 资源当前只有两个重要的字段：RuntimeClass 名（metadata.name）和 handler（handler）。对象定义如下所示：

# RuntimeClass 定义于 node.k8s.io API 组
apiVersion: node.k8s.io/v1
kind: RuntimeClass
metadata:
  # 用来引用 RuntimeClass 的名字
  # RuntimeClass 是一个集群层面的资源
  name: myclass
# 对应的 CRI 配置的名称
handler: myconfiguration

RuntimeClass 对象的名称必须是有效的 DNS 子域名。

说明：

建议将 RuntimeClass 写操作（create、update、patch 和 delete）限定于集群管理员使用。通常这是默认配置。参阅授权概述了解更多信息。

使用说明

一旦完成集群中 RuntimeClasses 的配置，你可以在 Pod spec 中指定 runtimeClassName 来使用它。例如:

apiVersion: v1
kind: Pod
metadata:
  name: mypod
spec:
  runtimeClassName: myclass
  # ...

这一设置会告诉 kubelet 使用所指的 RuntimeClass 来运行该 Pod。如果所指的 RuntimeClass 不存在或者 CRI 无法运行相应的 handler，那么 Pod 将会进入 Failed 终止阶段。你可以查看相应的事件，获取执行过程中的错误信息。

如果未指定 runtimeClassName，则将使用默认的 RuntimeHandler，相当于禁用 RuntimeClass 功能特性。

CRI 配置

关于如何安装 CRI 运行时，请查阅 CRI 安装。

containerd

通过 containerd 的 /etc/containerd/config.toml 配置文件来配置运行时 handler。 handler 需要配置在 runtimes 块中：

[plugins."io.containerd.grpc.v1.cri".containerd.runtimes.${HANDLER_NAME}]

更详细信息，请查阅 containerd 的配置指南

CRI-O

通过 CRI-O 的 /etc/crio/crio.conf 配置文件来配置运行时 handler。 handler 需要配置在 crio.runtime 表之下：

[crio.runtime.runtimes.${HANDLER_NAME}]
  runtime_path = "${PATH_TO_BINARY}"

更详细信息，请查阅 CRI-O 配置文档。

调度

特性状态： Kubernetes v1.16 [beta]

通过为 RuntimeClass 指定 scheduling 字段，你可以通过设置约束，确保运行该 RuntimeClass 的 Pod 被调度到支持该 RuntimeClass 的节点上。如果未设置 scheduling，则假定所有节点均支持此 RuntimeClass。

为了确保 pod 会被调度到支持指定运行时的 node 上，每个 node 需要设置一个通用的 label 用于被 runtimeclass.scheduling.nodeSelector 挑选。在 admission 阶段，RuntimeClass 的 nodeSelector 将会与 Pod 的 nodeSelector 合并，取二者的交集。如果有冲突，Pod 将会被拒绝。

如果 node 需要阻止某些需要特定 RuntimeClass 的 Pod，可以在 tolerations 中指定。与 nodeSelector 一样，tolerations 也在 admission 阶段与 Pod 的 tolerations 合并，取二者的并集。

更多有关 node selector 和 tolerations 的配置信息，请查阅将 Pod 分派到节点。

Pod 开销

特性状态： Kubernetes v1.24 [stable]

你可以指定与运行 Pod 相关的开销资源。声明开销即允许集群（包括调度器）在决策 Pod 和资源时将其考虑在内。

Pod 开销通过 RuntimeClass 的 overhead 字段定义。通过使用这个字段，你可以指定使用该 RuntimeClass 运行 Pod 时的开销并确保 Kubernetes 将这些开销计算在内。

接下来

4 - 容器生命周期回调

这个页面描述了 kubelet 管理的容器如何使用容器生命周期回调框架，藉由其管理生命周期中的事件触发，运行指定代码。

概述

类似于许多具有生命周期回调组件的编程语言框架，例如 Angular、Kubernetes 为容器提供了生命周期回调。回调使容器能够了解其管理生命周期中的事件，并在执行相应的生命周期回调时运行在处理程序中实现的代码。

容器回调

有两个回调暴露给容器：

PostStart

这个回调在容器被创建之后立即被执行。它与容器的 ENTRYPOINT（主进程）并发运行，
这意味着此回调程序可能在主进程启动之前、期间或之后运行。

没有参数传递给处理程序。

说明：

当回调程序与容器进程并发运行时，此回调程序可以延迟容器状态的更新；在回调完成之前，容器可能不会进入 Running 状态。

PreStop

在容器因 API 请求或者管理事件（诸如存活态探针、启动探针失败、资源抢占、资源竞争等）而被终止之前，此回调会被调用。如果容器已经处于已终止或者已完成状态，则对 preStop 回调的调用将失败。在用来停止容器的 TERM 信号被发出之前，回调必须执行结束。 Pod 的终止宽限周期在 PreStop 回调被执行之前即开始计数，所以无论回调函数的执行结果如何，容器最终都会在 Pod 的终止宽限期内被终止。没有参数会被传递给处理程序。

有关终止行为的更详细描述，请参见终止 Pod。

StopSignal

StopSignal 生命周期可用于定义停止信号，该信号将在容器停止时发送给容器。如果设置了该字段，将会覆盖容器镜像中定义的 STOPSIGNAL 指令。

关于自定义停止信号的终止行为的更为详细的描述，请参阅停止信号。

回调处理程序的实现

容器可以通过实现和注册该回调的处理程序来访问该回调。针对容器，有三种类型的回调处理程序可供实现：

Exec - 在容器的 cgroups 和名字空间中执行特定的命令（例如 pre-stop.sh）。命令所消耗的资源计入容器的资源消耗。
HTTP - 对容器上的特定端点执行 HTTP 请求。
Sleep - 将容器暂停一段指定的时间。

回调处理程序执行

当调用容器生命周期管理回调时，Kubernetes 管理系统根据回调动作执行其处理程序， httpGet、tcpSocket（已弃用）和 sleep 由 kubelet 进程执行，而 exec 在容器内执行。

当容器创建时，会调用 PostStart 回调程序，意味着容器的 ENTRYPOINT 和 PostStart 回调程序会同时触发。（这意味着通常不适合在 PostStart 中使用 HTTP 回调，因为在回调程序运行时，无法保证容器的进程已经完全启动。）如果 PostStart 回调程序执行时间过长或挂起，它可能会阻止容器进入 running 状态。

PreStop 回调并不会与停止容器的信号处理程序异步执行；回调必须在可以发送信号之前完成执行。如果 PreStop 回调在执行期间停滞不前，Pod 的阶段会变成 Terminating并且一直处于该状态，直到其 terminationGracePeriodSeconds 耗尽为止，这时 Pod 会被杀死。这一宽限期是针对 PreStop 回调的执行时间及容器正常停止时间的总和而言的。例如，如果 terminationGracePeriodSeconds 是 60，回调函数花了 55 秒钟完成执行，而容器在收到信号之后花了 10 秒钟来正常结束，那么容器会在其能够正常结束之前即被杀死，因为 terminationGracePeriodSeconds 的值小于后面两件事情所花费的总时间（55+10）。

如果 PostStart 或 PreStop 回调失败，它会杀死容器。

用户应该使他们的回调处理程序尽可能的轻量级。但也需要考虑长时间运行的命令也很有用的情况，比如在停止容器之前保存状态。

回调递送保证

回调的递送应该是至少一次，这意味着对于任何给定的事件，例如 PostStart 或 PreStop，回调可以被调用多次。如何正确处理被多次调用的情况，是回调实现所要考虑的问题。

通常情况下，只会进行单次递送。例如，如果 HTTP 回调接收器宕机，无法接收流量，则不会尝试重新发送。然而，偶尔也会发生重复递送的可能。例如，如果 kubelet 在发送回调的过程中重新启动，回调可能会在 kubelet 恢复后重新发送。

调试回调处理程序

回调处理程序的日志不会在 Pod 事件中公开。如果处理程序由于某种原因失败，它将播放一个事件。对于 PostStart，这是 FailedPostStartHook 事件，对于 PreStop，这是 FailedPreStopHook 事件。要自己生成失败的 FailedPostStartHook 事件，请修改 lifecycle-events.yaml 文件将 postStart 命令更改为 “badcommand” 并应用它。以下是通过运行 kubectl describe pod lifecycle-demo 后你看到的一些结果事件的示例输出：

Events:
  Type     Reason               Age              From               Message
  ----     ------               ----             ----               -------
  Normal   Scheduled            7s               default-scheduler  Successfully assigned default/lifecycle-demo to ip-XXX-XXX-XX-XX.us-east-2...
  Normal   Pulled               6s               kubelet            Successfully pulled image "nginx" in 229.604315ms
  Normal   Pulling              4s (x2 over 6s)  kubelet            Pulling image "nginx"
  Normal   Created              4s (x2 over 5s)  kubelet            Created container lifecycle-demo-container
  Normal   Started              4s (x2 over 5s)  kubelet            Started container lifecycle-demo-container
  Warning  FailedPostStartHook  4s (x2 over 5s)  kubelet            Exec lifecycle hook ([badcommand]) for Container "lifecycle-demo-container" in Pod "lifecycle-demo_default(30229739-9651-4e5a-9a32-a8f1688862db)" failed - error: command 'badcommand' exited with 126: , message: "OCI runtime exec failed: exec failed: container_linux.go:380: starting container process caused: exec: \"badcommand\": executable file not found in $PATH: unknown\r\n"
  Normal   Killing              4s (x2 over 5s)  kubelet            FailedPostStartHook
  Normal   Pulled               4s               kubelet            Successfully pulled image "nginx" in 215.66395ms
  Warning  BackOff              2s (x2 over 3s)  kubelet            Back-off restarting failed container

接下来

进一步了解容器环境。
动手为容器的生命周期事件设置处理函数。

5 - 容器运行时接口（CRI）

CRI 是一个插件接口，它使 kubelet 能够使用各种容器运行时，无需重新编译集群组件。

你需要在集群中的每个节点上都有一个可以正常工作的容器运行时，这样 kubelet 能启动 Pod 及其容器。

容器运行时接口（CRI）是在 kubelet 与容器运行时之间通信的主要协议。

Kubernetes 容器运行时接口（CRI）定义了在节点组件 kubelet 和容器运行时之间通信的主要 gRPC 协议。

API

特性状态： Kubernetes v1.23 [stable]

当通过 gRPC 连接到容器运行时，kubelet 将充当客户端。运行时和镜像服务端点必须在容器运行时中可用，可以使用 --container-runtime-endpoint 命令行标志在 kubelet 中单独配置。

对于 Kubernetes v1.26 及更高版本， kubelet 要求容器运行时必须支持 v1 版本的 CRI API。如果容器运行时不支持 v1 API，kubelet 将不会注册该节点。

升级

在节点上升级 Kubernetes 版本时，kubelet 会重新启动。如果容器运行时不支持 v1 版本的 CRI API，kubelet 将无法注册节点并报告错误。如果由于容器运行时已升级而需要重新建立 gRPC 连接，则该容器运行时必须支持 v1 版本的 CRI API，连接才能成功。在容器运行时正确配置后，可能需要重新启动 kubelet 才能建立连接。

List 流

特性状态： Kubernetes v1.36 [alpha]（默认禁用）

标准的 CRI list RPC（ListContainers、ListPodSandbox、ListImages）会将所有结果返回在一个单一的单元响应中。在容器数量庞大的节点上（例如，包括运行中的和已停止的容器在内，总数超过约 10,000 个），这些响应可能会超过 gRPC 默认的 16 MiB 消息大小限制，导致 kubelet 在与容器运行时同步状态时失败。

启用 CRIListStreaming 特性后，kubelet 使用服务器端流式 RPC（例如 StreamContainers、StreamPodSandboxes、StreamImages），允许容器运行时将结果拆分到多个响应消息中，从而绕过单个消息的大小限制。这对于以下情况尤其有用：

容器频繁变更的环境（CI/CD 系统）
大规模批处理工作负载

如果容器运行时不支持流式 RPC，kubelet 会自动回退到标准一元 RPC 以实现向后兼容。

接下来

了解更多有关 CRI 协议定义