这是本节的多页打印视图。点击此处打印.

配置

Kubernetes 为配置 Pod 所提供的资源。

1: ConfigMap
2: Secret
3: 存活、就绪和启动探针
4: 为 Pod 和容器管理资源
5: 使用 kubeconfig 文件组织集群访问
6: Windows 节点的资源管理

1 - ConfigMap

ConfigMap 是一种 API 对象，用来将非机密性的数据保存到键值对中。使用时， Pod 可以将其用作环境变量、命令行参数或者存储卷中的配置文件。

ConfigMap 将你的环境配置信息和容器镜像解耦，便于应用配置的修改。

注意：

ConfigMap 并不提供保密或者加密功能。如果你想存储的数据是机密的，请使用 Secret，或者使用其他第三方工具来保证你的数据的私密性，而不是用 ConfigMap。

动机

使用 ConfigMap 来将你的配置数据和应用程序代码分开。

比如，假设你正在开发一个应用，它可以在你自己的电脑上（用于开发）和在云上（用于实际流量）运行。你的代码里有一段是用于查看环境变量 DATABASE_HOST，在本地运行时，你将这个变量设置为 localhost，在云上，你将其设置为引用 Kubernetes 集群中的公开数据库组件的服务。

这让你可以获取在云中运行的容器镜像，并且如果有需要的话，在本地调试完全相同的代码。

说明：

ConfigMap 在设计上不是用来保存大量数据的。在 ConfigMap 中保存的数据不可超过 1 MiB。如果你需要保存超出此尺寸限制的数据，你可能希望考虑挂载存储卷或者使用独立的数据库或者文件服务。

ConfigMap 对象

ConfigMap 是一个让你可以存储其他对象所需要使用的配置的 API 对象。和其他 Kubernetes 对象都有一个 spec 不同的是，ConfigMap 使用 data 和 binaryData 字段。这些字段能够接收键-值对作为其取值。data 和 binaryData 字段都是可选的。data 字段设计用来保存 UTF-8 字符串，而 binaryData 则被设计用来保存二进制数据作为 base64 编码的字串。

ConfigMap 的名字必须是一个合法的 DNS 子域名。

data 或 binaryData 字段下面的每个键的名称都必须由字母数字字符或者 -、_ 或 . 组成。在 data 下保存的键名不可以与在 binaryData 下出现的键名有重叠。

从 v1.19 开始，你可以添加一个 immutable 字段到 ConfigMap 定义中，创建不可变更的 ConfigMap。

ConfigMap 和 Pod

你可以写一个引用 ConfigMap 的 Pod 的 spec，并根据 ConfigMap 中的数据在该 Pod 中配置容器。这个 Pod 和 ConfigMap 必须要在同一个名字空间中。

说明：

静态 Pod 中的 spec 字段不能引用 ConfigMap 或任何其他 API 对象。

这是一个 ConfigMap 的示例，它的一些键只有一个值，其他键的值看起来像是配置的片段格式。

apiVersion: v1
kind: ConfigMap
metadata:
  name: game-demo
data:
  # 类属性键；每一个键都映射到一个简单的值
  player_initial_lives: "3"
  ui_properties_file_name: "user-interface.properties"

  # 类文件键
  game.properties: |
    enemy.types=aliens,monsters
    player.maximum-lives=5
  user-interface.properties: |
    color.good=purple
    color.bad=yellow
    allow.textmode=true

你可以使用四种方式来使用 ConfigMap 配置 Pod 中的容器：

在容器命令和参数内
容器的环境变量
在只读卷里面添加一个文件，让应用来读取
编写代码在 Pod 中运行，使用 Kubernetes API 来读取 ConfigMap

这些不同的方法适用于不同的数据使用方式。对前三个方法，kubelet 使用 ConfigMap 中的数据在 Pod 中启动容器。

第四种方法意味着你必须编写代码才能读取 ConfigMap 和它的数据。然而，由于你是直接使用 Kubernetes API，因此只要 ConfigMap 发生更改，你的应用就能够通过订阅来获取更新，并且在这样的情况发生的时候做出反应。通过直接进入 Kubernetes API，这个技术也可以让你能够获取到不同的名字空间里的 ConfigMap。

下面是一个 Pod 的示例，它通过使用 game-demo 中的值来配置一个 Pod：

configmap/configure-pod.yaml
apiVersion: v1
kind: Pod
metadata:
  name: configmap-demo-pod
spec:
  containers:
    - name: demo
      image: alpine
      command: ["sleep", "3600"]
      env:
        # 定义环境变量
        - name: PLAYER_INITIAL_LIVES # 请注意这里和 ConfigMap 中的键名是不一样的
          valueFrom:
            configMapKeyRef:
              name: game-demo           # 这个值来自 ConfigMap
              key: player_initial_lives # 需要取值的键
        - name: UI_PROPERTIES_FILE_NAME
          valueFrom:
            configMapKeyRef:
              name: game-demo
              key: ui_properties_file_name
      volumeMounts:
      - name: config
        mountPath: "/config"
        readOnly: true
  volumes:
  # 你可以在 Pod 级别设置卷，然后将其挂载到 Pod 内的容器中
  - name: config
    configMap:
      # 提供你想要挂载的 ConfigMap 的名字
      name: game-demo
      # 来自 ConfigMap 的一组键，将被创建为文件
      items:
      - key: "game.properties"
        path: "game.properties"
      - key: "user-interface.properties"
        path: "user-interface.properties"

ConfigMap 不会区分单行属性值和多行类似文件的值，重要的是 Pods 和其他对象如何使用这些值。

上面的例子定义了一个卷并将它作为 /config 文件夹挂载到 demo 容器内，创建两个文件，/config/game.properties 和 /config/user-interface.properties，尽管 ConfigMap 中包含了四个键。这是因为 Pod 定义中在 volumes 节指定了一个 items 数组。如果你完全忽略 items 数组，则 ConfigMap 中的每个键都会变成一个与该键同名的文件，因此你会得到四个文件。

使用 ConfigMap

ConfigMap 可以作为数据卷挂载。ConfigMap 也可被系统的其他组件使用，而不一定直接暴露给 Pod。例如，ConfigMap 可以保存系统中其他组件要使用的配置数据。

ConfigMap 最常见的用法是为同一命名空间里某 Pod 中运行的容器执行配置。你也可以单独使用 ConfigMap。

比如，你可能会遇到基于 ConfigMap 来调整其行为的插件或者 operator。

在 Pod 中将 ConfigMap 当做文件使用

要在一个 Pod 的存储卷中使用 ConfigMap:

创建一个 ConfigMap 对象或者使用现有的 ConfigMap 对象。多个 Pod 可以引用同一个 ConfigMap。
修改 Pod 定义，在 spec.volumes[] 下添加一个卷。为该卷设置任意名称，之后将 spec.volumes[].configMap.name 字段设置为对你的 ConfigMap 对象的引用。
为每个需要该 ConfigMap 的容器添加一个 .spec.containers[].volumeMounts[]。设置 .spec.containers[].volumeMounts[].readOnly=true 并将 .spec.containers[].volumeMounts[].mountPath 设置为一个未使用的目录名， ConfigMap 的内容将出现在该目录中。
更改你的镜像或者命令行，以便程序能够从该目录中查找文件。ConfigMap 中的每个 data 键会变成 mountPath 下面的一个文件名。

下面是一个将 ConfigMap 以卷的形式进行挂载的 Pod 示例：

apiVersion: v1
kind: Pod
metadata:
  name: mypod
spec:
  containers:
  - name: mypod
    image: redis
    volumeMounts:
    - name: foo
      mountPath: "/etc/foo"
      readOnly: true
  volumes:
  - name: foo
    configMap:
      name: myconfigmap

你希望使用的每个 ConfigMap 都需要在 spec.volumes 中被引用到。

如果 Pod 中有多个容器，则每个容器都需要自己的 volumeMounts 块，但针对每个 ConfigMap，你只需要设置一个 spec.volumes 块。

被挂载的 ConfigMap 内容会被自动更新

当卷中使用的 ConfigMap 被更新时，所投射的键最终也会被更新。 kubelet 组件会在每次周期性同步时检查所挂载的 ConfigMap 是否为最新。不过，kubelet 使用的是其本地的高速缓存来获得 ConfigMap 的当前值。高速缓存的类型可以通过 KubeletConfiguration 结构. 的 configMapAndSecretChangeDetectionStrategy 字段来配置。

ConfigMap 既可以通过 watch 操作实现内容传播（默认形式），也可实现基于 TTL 的缓存，还可以直接经过所有请求重定向到 API 服务器。因此，从 ConfigMap 被更新的那一刻算起，到新的主键被投射到 Pod 中去，这一时间跨度可能与 kubelet 的同步周期加上高速缓存的传播延迟相等。这里的传播延迟取决于所选的高速缓存类型（分别对应 watch 操作的传播延迟、高速缓存的 TTL 时长或者 0）。

以环境变量方式使用的 ConfigMap 数据不会被自动更新。更新这些数据需要重新启动 Pod。

说明：

使用 ConfigMap 作为 subPath 卷挂载的容器将不会收到 ConfigMap 的更新。

使用 Configmap 作为环境变量

使用 Configmap 在 Pod 中设置环境变量：

对于 Pod 规约中的每个容器，为要使用的每个 ConfigMap 键添加一个环境变量到 env[].valueFrom.configMapKeyRef 字段。
修改你的镜像和/或命令行，以便程序查找指定环境变量中的值。

下面是一个将 ConfigMap 定义为 Pod 环境变量的示例：

以下 ConfigMap (myconfigmap.yaml) 存储两个属性：username 和 access_level：

apiVersion: v1
kind: ConfigMap
metadata:
  name: myconfigmap
data:
  username: k8s-admin
  access_level: "1"

以下命令将创建 ConfigMap 对象：

kubectl apply -f myconfigmap.yaml

以下 Pod 将 ConfigMap 的内容用作环境变量：

configmap/env-configmap.yaml
apiVersion: v1
kind: Pod
metadata:
  name: env-configmap
spec:
  containers:
    - name: app
      command: ["/bin/sh", "-c", "printenv"]
      image: busybox:latest
      envFrom:
        - configMapRef:
            name: myconfigmap

envFrom 字段指示 Kubernetes 使用其中嵌套的源创建环境变量。内部的 configMapRef 通过 ConfigMap 的名称引用之，并选择其所有键值对。将 Pod 添加到你的集群中，然后检索其日志以查看 printenv 命令的输出。此操作可确认来自 ConfigMap 的两个键值对已被设置为环境变量：

kubectl apply -f env-configmap.yaml

kubectl logs pod/env-configmap

输出类似于：

...
username: "k8s-admin"
access_level: "1"
...

有时 Pod 不需要访问 ConfigMap 中的所有值。例如，你可以有另一个 Pod 只使用 ConfigMap 中的 username 值。在这种使用场景中，你可以转为使用 env.valueFrom 语法，这样可以让你选择 ConfigMap 中的单个键。环境变量的名称也可以不同于 ConfigMap 中的键。例如：

apiVersion: v1
kind: Pod
metadata:
  name: env-configmap
spec:
  containers:
  - name: envars-test-container
    image: nginx
    env:
    - name: CONFIGMAP_USERNAME
      valueFrom:
        configMapKeyRef:
          name: myconfigmap
          key: username

在从此清单创建的 Pod 中，你将看到环境变量 CONFIGMAP_USERNAME 被设置为 ConfigMap 中 username 的取值。来自 ConfigMap 数据中的其他键不会被复制到环境中。

需要注意的是，Pod 中环境变量名称允许的字符范围是有限的。如果某些变量名称不满足这些规则，则即使 Pod 可以被启动，你的容器也无法访问这些环境变量。

不可变更的 ConfigMap

特性状态： Kubernetes v1.21 [stable]

Kubernetes 特性 Immutable Secret 和 ConfigMap 提供了一种将各个 Secret 和 ConfigMap 设置为不可变更的选项。对于大量使用 ConfigMap 的集群（至少有数万个各不相同的 ConfigMap 给 Pod 挂载）而言，禁止更改 ConfigMap 的数据有以下好处：

保护应用，使之免受意外（不想要的）更新所带来的负面影响。
通过大幅降低对 kube-apiserver 的压力提升集群性能，这是因为系统会关闭对已标记为不可变更的 ConfigMap 的监视操作。

你可以通过将 immutable 字段设置为 true 创建不可变更的 ConfigMap。例如：

apiVersion: v1
kind: ConfigMap
metadata:
  ...
data:
  ...
immutable: true

一旦某 ConfigMap 被标记为不可变更，则无法逆转这一变化，也无法更改 data 或 binaryData 字段的内容。你只能删除并重建 ConfigMap。因为现有的 Pod 会维护一个已被删除的 ConfigMap 的挂载点，建议重新创建这些 Pods。

接下来

阅读 Secret。
阅读配置 Pod 使用 ConfigMap。
阅读修改 ConfigMap（或任何其他 Kubernetes 对象）。
阅读 Twelve-Factor 应用来了解将代码和配置分开的动机。

2 - Secret

Secret 是一种包含少量敏感信息例如密码、令牌或密钥的对象。这样的信息可能会被放在 Pod 规约中或者镜像中。使用 Secret 意味着你不需要在应用程序代码中包含机密数据。

由于创建 Secret 可以独立于使用它们的 Pod，因此在创建、查看和编辑 Pod 的工作流程中暴露 Secret（及其数据）的风险较小。 Kubernetes 和在集群中运行的应用程序也可以对 Secret 采取额外的预防措施，例如避免将敏感数据写入非易失性存储。

Secret 类似于 ConfigMap 但专门用于保存机密数据。

注意：

默认情况下，Kubernetes Secret 未加密地存储在 API 服务器的底层数据存储（etcd）中。任何拥有 API 访问权限的人都可以检索或修改 Secret，任何有权访问 etcd 的人也可以。此外，任何有权限在命名空间中创建 Pod 的人都可以使用该访问权限读取该命名空间中的任何 Secret；这包括间接访问，例如创建 Deployment 的能力。

为了安全地使用 Secret，请至少执行以下步骤：

为 Secret 启用静态加密。
以最小特权访问 Secret 并启用或配置 RBAC 规则。
限制 Secret 对特定容器的访问。
考虑使用外部 Secret 存储驱动。

有关管理和提升 Secret 安全性的指南，请参阅 Kubernetes Secret 良好实践。

参见 Secret 的信息安全了解详情。

Secret 的使用

你可以将 Secret 用于以下场景：

Kubernetes 控制面也使用 Secret；例如，引导令牌 Secret 是一种帮助自动化节点注册的机制。

使用场景：在 Secret 卷中带句点的文件

通过定义以句点（.）开头的主键，你可以“隐藏”你的数据。这些主键代表的是以句点开头的文件或“隐藏”文件。例如，当以下 Secret 被挂载到 secret-volume 卷上时，该卷中会包含一个名为 .secret-file 的文件，并且容器 dotfile-test-container 中此文件位于路径 /etc/secret-volume/.secret-file 处。

说明：

以句点开头的文件会在 ls -l 的输出中被隐藏起来；列举目录内容时你必须使用 ls -la 才能看到它们。

secret/dotfile-secret.yaml
apiVersion: v1
kind: Secret
metadata:
  name: dotfile-secret
data:
  .secret-file: dmFsdWUtMg0KDQo=
---
apiVersion: v1
kind: Pod
metadata:
  name: secret-dotfiles-pod
spec:
  volumes:
    - name: secret-volume
      secret:
        secretName: dotfile-secret
  containers:
    - name: dotfile-test-container
      image: registry.k8s.io/busybox
      command:
        - ls
        - "-l"
        - "/etc/secret-volume"
      volumeMounts:
        - name: secret-volume
          readOnly: true
          mountPath: "/etc/secret-volume"

使用场景：仅对 Pod 中一个容器可见的 Secret

考虑一个需要处理 HTTP 请求，执行某些复杂的业务逻辑，之后使用 HMAC 来对某些消息进行签名的程序。因为这一程序的应用逻辑很复杂，其中可能包含未被注意到的远程服务器文件读取漏洞，这种漏洞可能会把私钥暴露给攻击者。

这一程序可以分隔成两个容器中的两个进程：前端容器要处理用户交互和业务逻辑，但无法看到私钥；签名容器可以看到私钥，并对来自前端的简单签名请求作出响应（例如，通过本地主机网络）。

采用这种划分的方法，攻击者现在必须欺骗应用服务器来做一些其他操作，而这些操作可能要比读取一个文件要复杂很多。

Secret 的替代方案

除了使用 Secret 来保护机密数据，你也可以选择一些替代方案。

下面是一些选项：

如果你的云原生组件需要执行身份认证来访问你所知道的、在同一 Kubernetes 集群中运行的另一个应用，你可以使用 ServiceAccount 及其令牌来标识你的客户端身份。
你可以运行的第三方工具也有很多，这些工具可以运行在集群内或集群外，提供机密数据管理。例如，这一工具可能是 Pod 通过 HTTPS 访问的一个服务，该服务在客户端能够正确地通过身份认证（例如，通过 ServiceAccount 令牌）时，提供机密数据内容。

就身份认证而言，你可以为 X.509 证书实现一个定制的签名者，并使用 CertificateSigningRequest 来让该签名者为需要证书的 Pod 发放证书。
你可以使用一个设备插件来将节点本地的加密硬件暴露给特定的 Pod。例如，你可以将可信任的 Pod 调度到提供可信平台模块（Trusted Platform Module，TPM）的节点上。这类节点是另行配置的。

你还可以将如上选项的两种或多种进行组合，包括直接使用 Secret 对象本身也是一种选项。

例如：实现（或部署）一个 Operator，从外部服务取回生命期很短的会话令牌，之后基于这些生命期很短的会话令牌来创建 Secret。运行在集群中的 Pod 可以使用这些会话令牌，而 Operator 则确保这些令牌是合法的。这种责权分离意味着你可以运行那些不了解会话令牌如何发放与刷新的确切机制的 Pod。

Secret 的类型

创建 Secret 时，你可以使用 Secret 资源的 type 字段，或者与其等价的 kubectl 命令行参数（如果有的话）为其设置类型。 Secret 类型有助于对 Secret 数据进行编程处理。

Kubernetes 提供若干种内置的类型，用于一些常见的使用场景。针对这些类型，Kubernetes 所执行的合法性检查操作以及对其所实施的限制各不相同。

内置类型	用法
`Opaque`	用户定义的任意数据
`kubernetes.io/service-account-token`	服务账号令牌
`kubernetes.io/dockercfg`	`~/.dockercfg` 文件的序列化形式
`kubernetes.io/dockerconfigjson`	`~/.docker/config.json` 文件的序列化形式
`kubernetes.io/basic-auth`	用于基本身份认证的凭据
`kubernetes.io/ssh-auth`	用于 SSH 身份认证的凭据
`kubernetes.io/tls`	用于 TLS 客户端或者服务器端的数据
`bootstrap.kubernetes.io/token`	启动引导令牌数据

通过为 Secret 对象的 type 字段设置一个非空的字符串值，你也可以定义并使用自己 Secret 类型（如果 type 值为空字符串，则被视为 Opaque 类型）。

Kubernetes 并不对类型的名称作任何限制。不过，如果你要使用内置类型之一，则你必须满足为该类型所定义的所有要求。

如果你要定义一种公开使用的 Secret 类型，请遵守 Secret 类型的约定和结构，在类型名前面添加域名，并用 / 隔开。例如：cloud-hosting.example.net/cloud-api-credentials。

Opaque Secret

当你未在 Secret 清单中显式指定类型时，默认的 Secret 类型是 Opaque。当你使用 kubectl 来创建一个 Secret 时，你必须使用 generic 子命令来标明要创建的是一个 Opaque 类型的 Secret。例如，下面的命令会创建一个空的 Opaque 类型的 Secret：

kubectl create secret generic empty-secret
kubectl get secret empty-secret

输出类似于：

NAME           TYPE     DATA   AGE
empty-secret   Opaque   0      2m6s

DATA 列显示 Secret 中保存的数据条目个数。在这个例子中，0 意味着你刚刚创建了一个空的 Secret。

ServiceAccount 令牌 Secret

类型为 kubernetes.io/service-account-token 的 Secret 用来存放标识某 ServiceAccount 的令牌凭据。这是为 Pod 提供长期有效 ServiceAccount 凭据的传统机制。

在 Kubernetes v1.22 及更高版本中，推荐的方法是通过使用 TokenRequest API 来获取短期自动轮换的 ServiceAccount 令牌。你可以使用以下方法获取这些短期令牌：

直接调用 TokenRequest API，或者使用像 kubectl 这样的 API 客户端。例如，你可以使用 kubectl create token 命令。
在 Pod 清单中请求使用投射卷挂载的令牌。 Kubernetes 会创建令牌并将其挂载到 Pod 中。当挂载令牌的 Pod 被删除时，此令牌会自动失效。更多细节参阅启动使用服务账号令牌投射的 Pod。

说明：

只有在你无法使用 TokenRequest API 来获取令牌，并且你能够接受因为将永不过期的令牌凭据写入到可读取的 API 对象而带来的安全风险时，才应该创建 ServiceAccount 令牌 Secret。更多细节参阅为 ServiceAccount 手动创建长期有效的 API 令牌。

使用这种 Secret 类型时，你需要确保对象的注解 kubernetes.io/service-account-name 被设置为某个已有的 ServiceAccount 名称。如果你同时创建 ServiceAccount 和 Secret 对象，应该先创建 ServiceAccount 对象。

当 Secret 对象被创建之后，某个 Kubernetes 控制器会填写 Secret 的其它字段，例如 kubernetes.io/service-account.uid 注解和 data 字段中的 token 键值（该键包含一个身份认证令牌）。

下面的配置实例声明了一个 ServiceAccount 令牌 Secret：

secret/serviceaccount-token-secret.yaml
apiVersion: v1
kind: Secret
metadata:
  name: secret-sa-sample
  annotations:
    kubernetes.io/service-account.name: "sa-name"
type: kubernetes.io/service-account-token
data:
  extra: YmFyCg==

创建了 Secret 之后，等待 Kubernetes 在 data 字段中填充 token 主键。

参考 ServiceAccount 文档了解 ServiceAccount 的工作原理。你也可以查看 Pod 资源中的 automountServiceAccountToken 和 serviceAccountName 字段文档，进一步了解从 Pod 中引用 ServiceAccount 凭据。

Docker 配置 Secret

如果你要创建 Secret 用来存放用于访问容器镜像仓库的凭据，则必须选用以下 type 值之一来创建 Secret：

kubernetes.io/dockercfg：存放 ~/.dockercfg 文件的序列化形式，它是配置 Docker 命令行的一种老旧形式。Secret 的 data 字段包含名为 .dockercfg 的主键，其值是用 base64 编码的某 ~/.dockercfg 文件的内容。
kubernetes.io/dockerconfigjson：存放 JSON 数据的序列化形式，该 JSON 也遵从 ~/.docker/config.json 文件的格式规则，而后者是 ~/.dockercfg 的新版本格式。使用此 Secret 类型时，Secret 对象的 data 字段必须包含 .dockerconfigjson 键，其键值为 base64 编码的字符串包含 ~/.docker/config.json 文件的内容。

下面是一个 kubernetes.io/dockercfg 类型 Secret 的示例：

secret/dockercfg-secret.yaml
apiVersion: v1
kind: Secret
metadata:
  name: secret-dockercfg
type: kubernetes.io/dockercfg
data:
  .dockercfg: |
    eyJhdXRocyI6eyJodHRwczovL2V4YW1wbGUvdjEvIjp7ImF1dGgiOiJvcGVuc2VzYW1lIn19fQo=

说明：

如果你不希望执行 base64 编码转换，可以使用 stringData 字段代替。

当你使用清单文件通过 Docker 配置来创建 Secret 时，API 服务器会检查 data 字段中是否存在所期望的主键，并且验证其中所提供的键值是否是合法的 JSON 数据。不过，API 服务器不会检查 JSON 数据本身是否是一个合法的 Docker 配置文件内容。

你还可以使用 kubectl 创建一个 Secret 来访问容器仓库时，当你没有 Docker 配置文件时你可以这样做：

kubectl create secret docker-registry secret-tiger-docker \
  --docker-email=tiger@acme.example \
  --docker-username=tiger \
  --docker-password=pass1234 \
  --docker-server=my-registry.example:5000

此命令创建一个类型为 kubernetes.io/dockerconfigjson 的 Secret。

从这个新的 Secret 中获取 .data.dockerconfigjson 字段并执行数据解码：

kubectl get secret secret-tiger-docker -o jsonpath='{.data.*}' | base64 -d

输出等价于以下 JSON 文档（这也是一个有效的 Docker 配置文件）：

{
  "auths": {
    "my-registry.example:5000": {
      "username": "tiger",
      "password": "pass1234",
      "email": "tiger@acme.example",
      "auth": "dGlnZXI6cGFzczEyMzQ="
    }
  }
}

注意：

auths 值是 base64 编码的，其内容被屏蔽但未被加密。任何能够读取该 Secret 的人都可以了解镜像库的访问令牌。

建议使用凭据提供程序来动态、安全地按需提供拉取 Secret。

基本身份认证 Secret

kubernetes.io/basic-auth 类型用来存放用于基本身份认证所需的凭据信息。使用这种 Secret 类型时，Secret 的 data 字段必须包含以下两个键之一：

username：用于身份认证的用户名；
password：用于身份认证的密码或令牌。

以上两个键的键值都是 base64 编码的字符串。当然你也可以在 Secret 清单中的使用 stringData 字段来提供明文形式的内容。

以下清单是基本身份验证 Secret 的示例：

secret/basicauth-secret.yaml
apiVersion: v1
kind: Secret
metadata:
  name: secret-basic-auth
type: kubernetes.io/basic-auth
stringData:
  username: admin      # kubernetes.io/basic-auth 类型的必需字段
  password: t0p-Secret # kubernetes.io/basic-auth 类型的必需字段

说明：

Secret 的 stringData 字段不能很好地与服务器端应用配合使用。

提供基本身份认证类型的 Secret 仅仅是出于方便性考虑。你也可以使用 Opaque 类型来保存用于基本身份认证的凭据。不过，使用预定义的、公开的 Secret 类型（kubernetes.io/basic-auth）有助于帮助其他用户理解 Secret 的目的，并且对其中存在的主键形成一种约定。

SSH 身份认证 Secret

Kubernetes 所提供的内置类型 kubernetes.io/ssh-auth 用来存放 SSH 身份认证中所需要的凭据。使用这种 Secret 类型时，你就必须在其 data （或 stringData）字段中提供一个 ssh-privatekey 键值对，作为要使用的 SSH 凭据。

下面的清单是一个 SSH 公钥/私钥身份认证的 Secret 示例：

secret/ssh-auth-secret.yaml
apiVersion: v1
kind: Secret
metadata:
  name: secret-ssh-auth
type: kubernetes.io/ssh-auth
data:
  # 此例中的实际数据被截断
  ssh-privatekey: |
     MIIEpQIBAAKCAQEAulqb/Y ...

提供 SSH 身份认证类型的 Secret 仅仅是出于方便性考虑。你可以使用 Opaque 类型来保存用于 SSH 身份认证的凭据。不过，使用预定义的、公开的 Secret 类型（kubernetes.io/tls）有助于其他人理解你的 Secret 的用途，也可以就其中包含的主键名形成约定。 Kubernetes API 会验证这种类型的 Secret 中是否设定了所需的主键。

注意：

SSH 私钥自身无法建立 SSH 客户端与服务器端之间的可信连接。需要其它方式来建立这种信任关系，以缓解“中间人（Man In The Middle）” 攻击，例如向 ConfigMap 中添加一个 known_hosts 文件。

TLS Secret

kubernetes.io/tls Secret 类型用来存放 TLS 场合通常要使用的证书及其相关密钥。

TLS Secret 的一种典型用法是为 Ingress 资源配置传输过程中的数据加密，不过也可以用于其他资源或者直接在负载中使用。当使用此类型的 Secret 时，Secret 配置中的 data （或 stringData）字段必须包含 tls.key 和 tls.crt 主键，尽管 API 服务器实际上并不会对每个键的取值作进一步的合法性检查。

作为使用 stringData 的替代方法，你可以使用 data 字段来指定 base64 编码的证书和私钥。有关详细信息，请参阅 Secret 名称和数据的限制。

下面的 YAML 包含一个 TLS Secret 的配置示例：

secret/tls-auth-secret.yaml
apiVersion: v1
kind: Secret
metadata:
  name: secret-tls
type: kubernetes.io/tls
data:
  # 值为 base64 编码，这样会掩盖它们，但不会提供任何有用的机密性级别
  # 注意：将以下值替换为你自己的base64编码的证书和密钥。
  tls.crt: "REPLACE_WITH_BASE64_CERT" 
  tls.key: "REPLACE_WITH_BASE64_KEY"

提供 TLS 类型的 Secret 仅仅是出于方便性考虑。你可以创建 Opaque 类型的 Secret 来保存用于 TLS 身份认证的凭据。不过，使用已定义和公开的 Secret 类型（kubernetes.io/tls）有助于确保你自己项目中的 Secret 格式的一致性。 API 服务器会验证这种类型的 Secret 是否设定了所需的主键。

要使用 kubectl 创建 TLS Secret，你可以使用 tls 子命令：

kubectl create secret tls my-tls-secret \
  --cert=path/to/cert/file \
  --key=path/to/key/file

公钥/私钥对必须事先存在，--cert 的公钥证书必须采用 .PEM 编码，并且必须与 --key 的给定私钥匹配。

启动引导令牌 Secret

bootstrap.kubernetes.io/token Secret 类型针对的是节点启动引导过程所用的令牌。其中包含用来为周知的 ConfigMap 签名的令牌。

启动引导令牌 Secret 通常创建于 kube-system 名字空间内，并以 bootstrap-token-<令牌 ID> 的形式命名；其中 <令牌 ID> 是一个由 6 个字符组成的字符串，用作令牌的标识。

以 Kubernetes 清单文件的形式，某启动引导令牌 Secret 可能看起来像下面这样：

secret/bootstrap-token-secret-base64.yaml
apiVersion: v1
kind: Secret
metadata:
  name: bootstrap-token-5emitj
  namespace: kube-system
type: bootstrap.kubernetes.io/token
data:
  auth-extra-groups: c3lzdGVtOmJvb3RzdHJhcHBlcnM6a3ViZWFkbTpkZWZhdWx0LW5vZGUtdG9rZW4=
  expiration: MjAyMC0wOS0xM1QwNDozOToxMFo=
  token-id: NWVtaXRq
  token-secret: a3E0Z2lodnN6emduMXAwcg==
  usage-bootstrap-authentication: dHJ1ZQ==
  usage-bootstrap-signing: dHJ1ZQ==

启动引导令牌类型的 Secret 会在 data 字段中包含如下主键：

token-id：由 6 个随机字符组成的字符串，作为令牌的标识符。必需。
token-secret：由 16 个随机字符组成的字符串，包含实际的令牌机密。必需。
description：供用户阅读的字符串，描述令牌的用途。可选。
expiration：一个使用 RFC3339 来编码的 UTC 绝对时间，给出令牌要过期的时间。可选。
usage-bootstrap-<usage>：布尔类型的标志，用来标明启动引导令牌的其他用途。
auth-extra-groups：用逗号分隔的组名列表，身份认证时除被认证为 system:bootstrappers 组之外，还会被添加到所列的用户组中。

你也可以在 Secret 的 stringData 字段中提供值，而无需对其进行 base64 编码：

secret/bootstrap-token-secret-literal.yaml
apiVersion: v1
kind: Secret
metadata:
  # 注意 Secret 的命名方式
  name: bootstrap-token-5emitj
  # 启动引导令牌 Secret 通常位于 kube-system 名字空间
  namespace: kube-system
type: bootstrap.kubernetes.io/token
stringData:
  auth-extra-groups: "system:bootstrappers:kubeadm:default-node-token"
  expiration: "2020-09-13T04:39:10Z"
  # 此令牌 ID 被用于生成 Secret 名称
  token-id: "5emitj"
  token-secret: "kq4gihvszzgn1p0r"
  # 此令牌还可用于 authentication （身份认证）
  usage-bootstrap-authentication: "true"
  # 且可用于 signing （证书签名）
  usage-bootstrap-signing: "true"

说明：

Secret 的 stringData 字段不能很好地与服务器端应用配合使用。

使用 Secret

创建 Secret

创建 Secret 有以下几种可选方式：

对 Secret 名称与数据的约束

Secret 对象的名称必须是合法的 DNS 子域名。

在为创建 Secret 编写配置文件时，你可以设置 data 与/或 stringData 字段。 data 和 stringData 字段都是可选的。data 字段中所有键值都必须是 base64 编码的字符串。如果不希望执行这种 base64 字符串的转换操作，你可以选择设置 stringData 字段，其中可以使用任何字符串作为其取值。

data 和 stringData 中的键名只能包含字母、数字、-、_ 或 . 字符。 stringData 字段中的所有键值对都会在内部被合并到 data 字段中。如果某个主键同时出现在 data 和 stringData 字段中，stringData 所指定的键值具有高优先级。

尺寸限制

每个 Secret 的尺寸最多为 1MiB。施加这一限制是为了避免用户创建非常大的 Secret，进而导致 API 服务器和 kubelet 内存耗尽。不过创建很多小的 Secret 也可能耗尽内存。你可以使用资源配额来约束每个名字空间中 Secret（或其他资源）的个数。

编辑 Secret

你可以编辑一个已有的 Secret，除非它是不可变更的。要编辑一个 Secret，可使用以下方法之一：

你也可以使用 Kustomize 工具编辑数据。然而这种方法会用编辑过的数据创建新的 Secret 对象。

根据你创建 Secret 的方式以及该 Secret 在 Pod 中被使用的方式，对已有 Secret 对象的更新将自动扩散到使用此数据的 Pod。有关更多信息，请参阅在 Pod 以文件形式使用 Secret。

使用 Secret

Secret 可以以数据卷的形式挂载，也可以作为环境变量暴露给 Pod 中的容器使用。Secret 也可用于系统中的其他部分，而不是一定要直接暴露给 Pod。例如，Secret 也可以包含系统中其他部分在替你与外部系统交互时要使用的凭证数据。

Kubernetes 会检查 Secret 的卷数据源，确保所指定的对象引用确实指向类型为 Secret 的对象。因此，如果 Pod 依赖于某 Secret，该 Secret 必须先于 Pod 被创建。

如果 Secret 内容无法取回（可能因为 Secret 尚不存在或者临时性地出现 API 服务器网络连接问题），kubelet 会周期性地重试 Pod 运行操作。kubelet 也会为该 Pod 报告 Event 事件，给出读取 Secret 时遇到的问题细节。

可选的 Secret

当你在 Pod 中引用 Secret 时，你可以将该 Secret 标记为可选，就像下面例子中所展示的那样。如果可选的 Secret 不存在，Kubernetes 将忽略它。

secret/optional-secret.yaml
apiVersion: v1
kind: Pod
metadata:
  name: mypod
spec:
  containers:
  - name: mypod
    image: redis
    volumeMounts:
    - name: foo
      mountPath: "/etc/foo"
      readOnly: true
  volumes:
  - name: foo
    secret:
      secretName: mysecret
      optional: true

默认情况下，Secret 是必需的。在所有非可选的 Secret 都可用之前，Pod 的所有容器都不会启动。

如果 Pod 引用了非可选 Secret 中的特定键，并且该 Secret 确实存在，但缺少所指定的键，则 Pod 在启动期间会失败。

在 Pod 以文件形式使用 Secret

如果你要在 Pod 中访问来自 Secret 的数据，一种方式是让 Kubernetes 将该 Secret 的值以文件的形式呈现，该文件存在于 Pod 中一个或多个容器内的文件系统内。

相关的指示说明，可以参阅创建一个可以通过卷访问 Secret 数据的 Pod。

当卷中包含来自 Secret 的数据，而对应的 Secret 被更新，Kubernetes 会跟踪到这一操作并更新卷中的数据。更新的方式是保证最终一致性。

说明：

对于以 subPath 形式挂载 Secret 卷的容器而言，它们无法收到自动的 Secret 更新。

Kubelet 组件会维护一个缓存，在其中保存节点上 Pod 卷中使用的 Secret 的当前主键和取值。你可以配置 kubelet 如何检测所缓存数值的变化。 kubelet 配置中的 configMapAndSecretChangeDetectionStrategy 字段控制 kubelet 所采用的策略。默认的策略是 Watch。

对 Secret 的更新操作既可以通过 API 的 watch 机制（默认）来传播，基于设置了生命期的缓存获取，也可以通过 kubelet 的同步回路来从集群的 API 服务器上轮询获取。

因此，从 Secret 被更新到新的主键被投射到 Pod 中，中间存在一个延迟。这一延迟的上限是 kubelet 的同步周期加上缓存的传播延迟，其中缓存的传播延迟取决于所选择的缓存类型。对应上一段中提到的几种传播机制，延迟时长为 watch 的传播延迟、所配置的缓存 TTL 或者对于直接轮询而言是零。

以环境变量的方式使用 Secret

如果需要在 Pod 中以环境变量的形式使用 Secret：

对于 Pod 规约中的每个容器，针对你要使用的每个 Secret 键，将对应的环境变量添加到 env[].valueFrom.secretKeyRef 中。
更改你的镜像或命令行，以便程序能够从指定的环境变量找到所需要的值。

相关的指示说明，可以参阅使用 Secret 数据定义容器变量。

需要注意的是，Pod 中环境变量名称允许的字符范围是有限的。如果某些变量名称不满足这些规则，则即使 Pod 是可以启动的，你的容器也无法访问这些变量。

容器镜像拉取 Secret

如果你尝试从私有仓库拉取容器镜像，你需要一种方式让每个节点上的 kubelet 能够完成与镜像库的身份认证。你可以配置镜像拉取 Secret 来实现这点。 Secret 是在 Pod 层面来配置的。

使用 imagePullSecrets

imagePullSecrets 字段是一个列表，包含对同一名字空间中 Secret 的引用。你可以使用 imagePullSecrets 将包含 Docker（或其他）镜像仓库密码的 Secret 传递给 kubelet。kubelet 使用此信息来替 Pod 拉取私有镜像。参阅 PodSpec API 进一步了解 imagePullSecrets 字段。

手动设定 imagePullSecret

你可以通过阅读容器镜像文档了解如何设置 imagePullSecrets。

设置 imagePullSecrets 为自动挂载

你可以手动创建 imagePullSecret，并在一个 ServiceAccount 中引用它。对使用该 ServiceAccount 创建的所有 Pod，或者默认使用该 ServiceAccount 创建的 Pod 而言，其 imagePullSecrets 字段都会设置为该服务账号。请阅读向服务账号添加 ImagePullSecret 来详细了解这一过程。

在静态 Pod 中使用 Secret

你不可以在静态 Pod 中使用 ConfigMap 或 Secret。

使用场景

使用场景：作为容器环境变量

你可以创建 Secret 并使用它为容器设置环境变量。

使用场景：带 SSH 密钥的 Pod

创建包含一些 SSH 密钥的 Secret：

kubectl create secret generic ssh-key-secret --from-file=ssh-privatekey=/path/to/.ssh/id_rsa --from-file=ssh-publickey=/path/to/.ssh/id_rsa.pub

输出类似于：

secret "ssh-key-secret" created

你也可以创建一个 kustomization.yaml 文件，在其 secretGenerator 字段中包含 SSH 密钥。

注意：

在提供你自己的 SSH 密钥之前要仔细思考：集群的其他用户可能有权访问该 Secret。

你也可以创建一个 SSH 私钥，代表一个你希望与你共享 Kubernetes 集群的其他用户分享的服务标识。当凭据信息被泄露时，你可以收回该访问权限。

现在你可以创建一个 Pod，在其中访问包含 SSH 密钥的 Secret，并通过卷的方式来使用它：

apiVersion: v1
kind: Pod
metadata:
  name: secret-test-pod
  labels:
    name: secret-test
spec:
  volumes:
  - name: secret-volume
    secret:
      secretName: ssh-key-secret
  containers:
  - name: ssh-test-container
    image: mySshImage
    volumeMounts:
    - name: secret-volume
      readOnly: true
      mountPath: "/etc/secret-volume"

容器命令执行时，秘钥的数据可以在下面的位置访问到：

/etc/secret-volume/ssh-publickey
/etc/secret-volume/ssh-privatekey

容器就可以随便使用 Secret 数据来建立 SSH 连接。

使用场景：带有生产、测试环境凭据的 Pod

这一示例所展示的一个 Pod 会使用包含生产环境凭据的 Secret，另一个 Pod 使用包含测试环境凭据的 Secret。

你可以创建一个带有 secretGenerator 字段的 kustomization.yaml 文件或者运行 kubectl create secret 来创建 Secret。

kubectl create secret generic prod-db-secret --from-literal=username=produser --from-literal=password=Y4nys7f11

输出类似于：

secret "prod-db-secret" created

你也可以创建一个包含测试环境凭据的 Secret：

kubectl create secret generic test-db-secret --from-literal=username=testuser --from-literal=password=iluvtests

输出类似于：

secret "test-db-secret" created

说明：

特殊字符（例如 $、\、*、= 和 !）会被你的 Shell 解释，因此需要转义。

在大多数 Shell 中，对密码进行转义的最简单方式是用单引号（'）将其括起来。例如，如果你的实际密码是 S!B\*d$zDsb，则应通过以下方式执行命令：

kubectl create secret generic dev-db-secret --from-literal=username=devuser --from-literal=password='S!B\*d$zDsb='

你无需对文件中的密码（--from-file）中的特殊字符进行转义。

现在生成 Pod：

cat <<EOF > pod.yaml
apiVersion: v1
kind: List
items:
- kind: Pod
  apiVersion: v1
  metadata:
    name: prod-db-client-pod
    labels:
      name: prod-db-client
  spec:
    volumes:
    - name: secret-volume
      secret:
        secretName: prod-db-secret
    containers:
    - name: db-client-container
      image: myClientImage
      volumeMounts:
      - name: secret-volume
        readOnly: true
        mountPath: "/etc/secret-volume"
- kind: Pod
  apiVersion: v1
  metadata:
    name: test-db-client-pod
    labels:
      name: test-db-client
  spec:
    volumes:
    - name: secret-volume
      secret:
        secretName: test-db-secret
    containers:
    - name: db-client-container
      image: myClientImage
      volumeMounts:
      - name: secret-volume
        readOnly: true
        mountPath: "/etc/secret-volume"
EOF

将 Pod 添加到同一 kustomization.yaml 文件中：

cat <<EOF >> kustomization.yaml
resources:
- pod.yaml
EOF

通过下面的命令在 API 服务器上应用所有这些对象：

kubectl apply -k .

两个文件都会在其文件系统中出现下面的文件，文件中内容是各个容器的环境值：

/etc/secret-volume/username
/etc/secret-volume/password

注意这两个 Pod 的规约中只有一个字段不同。这便于基于相同的 Pod 模板生成具有不同能力的 Pod。

你可以通过使用两个服务账号来进一步简化这一基本的 Pod 规约：

prod-user 服务账号使用 prod-db-secret
test-user 服务账号使用 test-db-secret

Pod 规约简化为：

apiVersion: v1
kind: Pod
metadata:
  name: prod-db-client-pod
  labels:
    name: prod-db-client
spec:
  serviceAccount: prod-db-client
  containers:
  - name: db-client-container
    image: myClientImage

不可更改的 Secret

特性状态： Kubernetes v1.21 [stable]

Kubernetes 允许你将特定的 Secret（和 ConfigMap）标记为 不可更改（Immutable）。禁止更改现有 Secret 的数据有下列好处：

防止意外（或非预期的）更新导致应用程序中断
（对于大量使用 Secret 的集群而言，至少数万个不同的 Secret 供 Pod 挂载），通过将 Secret 标记为不可变，可以极大降低 kube-apiserver 的负载，提升集群性能。 kubelet 不需要监视那些被标记为不可更改的 Secret。

将 Secret 标记为不可更改

你可以通过将 Secret 的 immutable 字段设置为 true 创建不可更改的 Secret。例如：

apiVersion: v1
kind: Secret
metadata:
  ...
data:
  ...
immutable: true

你也可以更改现有的 Secret，令其不可更改。

说明：

一旦一个 Secret 或 ConfigMap 被标记为不可更改，撤销此操作或者更改 data 字段的内容都是不可能的。只能删除并重新创建这个 Secret。现有的 Pod 将维持对已删除 Secret 的挂载点 -- 建议重新创建这些 Pod。

Secret 的信息安全问题

尽管 ConfigMap 和 Secret 的工作方式类似，但 Kubernetes 对 Secret 有一些额外的保护。

Secret 通常保存重要性各异的数值，其中很多都可能会导致 Kubernetes 中（例如，服务账号令牌）或对外部系统的特权提升。即使某些个别应用能够推导它期望使用的 Secret 的能力，同一名字空间中的其他应用可能会让这种假定不成立。

授权配置会影响命名空间内 Secret 数据的访问方式。例如，授予 Secret 的 list 或 watch 权限，将允许主体读取该命名空间中的所有 Secret 数据，而不仅仅是其 Pod 显式引用的 Secret。你应将访问权限限制在工作负载运行所需的最小权限集，并避免授予诸如 cluster-admin 之类的宽泛角色，除非出于管理目的需要。

另请参阅授权文档

只有当某个节点上的 Pod 需要某 Secret 时，对应的 Secret 才会被发送到该节点上。如果将 Secret 挂载到 Pod 中，kubelet 会将数据的副本保存在在 tmpfs 中，这样机密的数据不会被写入到持久性存储中。一旦依赖于该 Secret 的 Pod 被删除，kubelet 会删除来自于该 Secret 的机密数据的本地副本。

同一个 Pod 中可能包含多个容器。默认情况下，你所定义的容器只能访问默认 ServiceAccount 及其相关 Secret。你必须显式地定义环境变量或者将卷映射到容器中，才能为容器提供对其他 Secret 的访问。

针对同一节点上的多个 Pod 可能有多个 Secret。不过，只有某个 Pod 所请求的 Secret 才有可能对 Pod 中的容器可见。因此，一个 Pod 不会获得访问其他 Pod 的 Secret 的权限。

配置 Secret 资源的最小特权访问

为了增强 Secrets 的安全措施，使用单独的命名空间来隔离对挂载 Secret 的访问。

警告：

在一个节点上以 privileged: true 运行的所有容器可以访问该节点上使用的所有 Secret。

接下来

有关管理和提升 Secret 安全性的指南，请参阅 Kubernetes Secret 良好实践
学习如何使用 kubectl 管理 Secret
学习如何使用配置文件管理 Secret
学习如何使用 kustomize 管理 Secret
阅读 API 参考了解 Secret

3 - 存活、就绪和启动探针

Kubernetes 允许你定义**探针（Probe）**来持续监控 Pod 中容器的健康状况。探针是由 kubelet 对容器周期性执行的诊断。为执行诊断，kubelet 或是在容器内执行代码，或是发起一个网络请求。

根据探针的结果，Kubernetes 可以重启不健康的容器，或者停止向尚未就绪的容器发送流量。

探针的类型

kubelet 可以选择对运行中的容器执行三种探针，并对探针的结果作出响应；每种探针有不同的用途：

启动探针
存活探针
就绪探针

启动探针

启动探针（Startup Probe）用于检查容器内的应用是否已经启动。如果配置了启动探针，Kubernetes 将在启动探针成功之前不执行存活探针或就绪探针，从而为应用留出足够的时间完成初始化。

启动探针仅在启动时执行，不像存活探针和就绪探针那样周期性地运行。如果启动探针失败，kubelet 将杀死容器，容器随后将依据其重启策略进行处理。

存活探针

存活探针（Liveness Probe）决定何时重启容器。例如，存活探针可以捕获死锁——即应用在运行但无法取得进展。在此类情况下重启容器，有助于提高应用的可用性，即使应用本身存在缺陷。

如果某容器的存活探针失败次数超过配置的容忍次数，kubelet 将重启该容器。存活探针不会等待就绪探针成功。如果你希望在执行存活探针之前先等待，可以定义 initialDelaySeconds，或者使用启动探针。

注意：

存活探针是从应用故障中恢复的有效手段，但应谨慎使用。存活探针必须经过仔细配置，确保其真正能够指示不可恢复的应用故障，例如死锁。

错误地实现存活探针可能导致级联故障。这会引发容器在高负载下被重启、客户端请求因应用可伸缩性下降而失败，以及由于某些 Pod 失败导致剩余 Pod 工作负载增加等问题。请理解存活探针和就绪探针之间的区别，并明确何时为你的应用使用它们。

就绪探针

就绪探针（Readiness Probe）决定容器何时准备好接受流量。这种探针在等待应用执行耗时的初始任务时非常有用，例如建立网络连接、加载文件和预热缓存等。就绪探针在容器生命周期的后期也很有用，例如从临时故障或过载中恢复时。

如果就绪探针返回失败状态， EndpointSlice 控制器会将 Pod 的 IP 地址从与该 Pod 匹配的所有 Service 的 EndpointSlice 中移除。

就绪探针在容器的整个生命周期内持续运行。

说明：

如果你希望在 Pod 被删除时能够腾空请求，并不一定需要就绪探针；当 Pod 被删除时，EndpointSlice 中对应的端点会更新其状况：端点的 ready 状况会被设为 false，从而负载均衡器不会将常规流量发送给该 Pod。关于 kubelet 如何处理 Pod 删除的更多信息，参阅 Pod 终止。

何时使用各类探针

何时使用启动探针？

对于包含启动时间较长的容器的 Pod，启动探针非常有用。你不必设置较长的存活探针时间间隔，而是为容器启动阶段单独配置探针参数，允许使用比存活探针时间间隔更长的时间。

如果你的容器通常需要超过 $ initialDelaySeconds + failureThreshold \times periodSeconds $ 的时间启动，你应该指定一个启动探针，对存活探针所使用的同一端点执行检查。 periodSeconds 的默认值是 10 秒。你应将其 failureThreshold 设置得足够高，以便容器能够启动，同时不必更改存活探针的默认值。这种设置有助于防范死锁状况。

何时使用存活探针？

如果你的容器中的进程在遇到问题或变得不健康时能够自行崩溃，那么你不一定需要存活探针；kubelet 将根据 Pod 的 restartPolicy 自动执行正确的操作。

如果你希望容器在探针失败时被杀死并重新启动，那么请指定一个存活探针，并将 restartPolicy 设置为 Always 或 OnFailure。

存活探针的一种常见模式是使用与就绪探针相同的低成本 HTTP 端点，但设置较高的 failureThreshold。这样可以确保在容器被强制杀死之前，Pod 会有一段时间被观察为未就绪状态。

何时使用就绪探针？

如果你希望仅在探针成功时才开始向 Pod 发送流量，请指定就绪探针。就绪探针可以与存活探针相同，但规约中存在就绪探针意味着 Pod 启动时不接收任何流量，只有在探针开始成功后才开始接收流量。

你也可以使用就绪探针让容器在维护期间将自身下线，方法是检查一个专用于就绪检查的端点，与存活探针所使用的端点不同。

当你的应用对后端服务有强依赖时，你可以同时实现存活探针和就绪探针。当应用自身健康时存活探针通过，但就绪探针还会检查所需的每个后端服务是否可用。这有助于避免将流量导向只能以错误信息响应的 Pod。

对于在启动期间需要加载大量数据、配置文件或执行迁移操作的容器，请考虑使用启动探针。不过，如果你希望区分应用已经失败和应用仍在处理启动数据这两种情况，可能更适合使用就绪探针。

检查机制

使用探针检查容器有四种不同的方法。每个探针必须恰好定义这四种机制中的一种：

exec: 在容器内执行指定的命令。如果命令以状态码 0 退出，则认为诊断成功。

grpc: 使用 gRPC 执行远程过程调用。目标应实现 gRPC 健康检查。如果响应的 status 为 SERVING，则认为诊断成功。更多细节参阅 gRPC 探针。

httpGet: 针对 Pod IP 地址上指定端口和路径执行 HTTP GET 请求。如果响应的状态码大于等于 200 且小于 400，则认为诊断成功。更多细节参阅 HTTP 探针。

tcpSocket: 针对 Pod IP 地址上指定端口执行 TCP 检查。如果该端口是开放的，则认为诊断成功。如果远程系统（容器）在打开连接后立即将其关闭，这也算作健康。更多细节参阅 TCP 探针。

注意：

与其他机制不同，exec 探针的实现涉及每次执行时创建/派生多个进程。因此，在 Pod 密度较高、initialDelaySeconds 和 periodSeconds 间隔较短的集群中，为任何探针配置 exec 机制都可能给节点的 CPU 使用带来额外开销。在这种场景下，请考虑使用替代的探针机制来避免这种开销。

探针结果

kubelet 评估每次探针执行的结果，并据此采取相应措施。每个探针的结果有以下三种之一：

Success: 容器通过了诊断。

Failure: 容器未通过诊断。对于存活探针和启动探针， kubelet 会杀死容器，容器随后依据其重启策略进行处理。对于就绪探针，kubelet 会将容器标记为未就绪， Pod 将停止从与之匹配的 Service 接收流量。

Unknown: 诊断失败（不应采取任何行动，kubelet 将继续执行进一步的检查）。

如果容器未提供某种特定探针，kubelet 始终将其结果视为 Success。对于就绪探针，在初始延迟之前，结果被视为 Failure。

配置字段

探针有若干字段，可用来更精确地控制启动、存活和就绪检查的行为。例如：

apiVersion: v1
kind: Pod
metadata:
  name: probe-example
spec:
  containers:
  - name: app
    image: registry.k8s.io/e2e-test-images/agnhost:2.40
    ports:
    - containerPort: 8080
    startupProbe:
      httpGet:
        path: /healthz
        port: 8080
      failureThreshold: 30
      periodSeconds: 10
    livenessProbe:
      httpGet:
        path: /healthz
        port: 8080
      initialDelaySeconds: 10
      periodSeconds: 5
      timeoutSeconds: 3
      failureThreshold: 3
    readinessProbe:
      httpGet:
        path: /ready
        port: 8080
      periodSeconds: 5

initialDelaySeconds: 容器启动后到启动、存活或就绪探针开始执行之间的秒数。如果定义了启动探针，则存活探针和就绪探针的延迟在启动探针成功之前不会开始计时。在某些较早的 Kubernetes 版本中，如果 periodSeconds 被设置为高于 initialDelaySeconds 的值， initialDelaySeconds 可能会被忽略。然而在当前版本中，initialDelaySeconds 始终被遵守，探针只有在初始延迟之后才会启动。默认为 0 秒。最小值为 0。

periodSeconds: 执行探针的频率（以秒为单位）。默认为 10 秒。最小值为 1。当容器未就绪时，就绪探针可能在 periodSeconds 配置的间隔之外的时刻执行。这是为了让 Pod 更快地变为就绪状态。

timeoutSeconds: 探针超时时间（以秒为单位）。默认为 1 秒。最小值为 1。

successThreshold: 探针在失败之后被视为成功所需的最小连续成功次数。默认值为 1。对于存活探针和启动探针，该值必须为 1。最小值为 1。

failureThreshold: 探针连续失败 failureThreshold 次之后，Kubernetes 认为整体检查已失败：容器未就绪/未健康/不存活。默认为 3。最小值为 1。对于启动探针或存活探针的情形，如果至少有 failureThreshold 个探针失败， Kubernetes 会将容器视为不健康，并触发该特定容器的重启。 kubelet 会遵从该容器的 terminationGracePeriodSeconds 设置。对于失败的就绪探针，kubelet 会继续运行检查失败的容器并继续运行更多探针；由于检查失败，kubelet 会将 Pod 的 Ready 状况设置为 false。

terminationGracePeriodSeconds: 为 kubelet 配置一个宽限期，用于在触发关闭失败容器与强制容器运行时停止该容器之间等待。默认值为继承 Pod 层面的 terminationGracePeriodSeconds 值（如果未指定则为 30 秒），最小值为 1。更多细节参阅探针层面的 terminationGracePeriodSeconds。

注意：

错误地实现就绪探针可能导致容器内的进程数不断增长，若不加以控制，可能造成资源耗尽。

探针层面的 `terminationGracePeriodSeconds`

特性状态： Kubernetes v1.28 [stable]

在 1.25 及以上版本中，用户可以将探针层面的 terminationGracePeriodSeconds 作为探针规约的一部分来设置。当 Pod 层面和探针层面的 terminationGracePeriodSeconds 都被设置时， kubelet 将使用探针层面的值。

在设置 terminationGracePeriodSeconds 时，请注意以下几点：

如果 Pod 上存在探针层面的 terminationGracePeriodSeconds 字段， kubelet 始终会遵守该字段。
如果你的现有 Pod 设置了 terminationGracePeriodSeconds 字段，并且你不再希望使用按探针配置的终止宽限期，你必须删除这些现有的 Pod。

例如：

spec:
  terminationGracePeriodSeconds: 3600  # pod-level
  containers:
  - name: test
    image: ...

    ports:
    - name: liveness-port
      containerPort: 8080

    livenessProbe:
      httpGet:
        path: /healthz
        port: liveness-port
      failureThreshold: 1
      periodSeconds: 60
      # Override pod-level terminationGracePeriodSeconds
      terminationGracePeriodSeconds: 60

探针层面的 terminationGracePeriodSeconds 不能为就绪探针设置。 API 服务器将拒绝这种设置。

探针机制详解

HTTP 探针

HTTP 探针可以在 httpGet 上设置以下额外字段：

host：要连接的主机名，默认为 Pod IP。你可能更希望在 httpHeaders 中设置 Host。
scheme：用于连接主机的协议（HTTP 或 HTTPS）。默认为 "HTTP"。
path：HTTP 服务器上要访问的路径。默认为 "/"。
httpHeaders：请求中要设置的自定义标头。HTTP 允许重复的标头。
port：要在容器上访问的端口的名称或编号。编号必须在 1 到 65535 之间。

对于 HTTP 探针，kubelet 向指定的端口和路径发送 HTTP 请求来执行检查。 kubelet 会将探针发送到 Pod 的 IP 地址，除非地址被 httpGet 中的可选 host 字段覆盖。如果 scheme 字段被设置为 HTTPS，kubelet 会发送 HTTPS 请求并跳过证书验证。在大多数场景下，你不需要设置 host 字段。下面是一个需要设置的场景：假设容器监听 127.0.0.1，且 Pod 的 hostNetwork 字段为 true。此时 httpGet 下的 host 应被设置为 127.0.0.1。如果你的 Pod 依赖虚拟主机（这可能是更常见的情况），你不应使用 host，而是应该在 httpHeaders 中设置 Host 标头。

对于 HTTP 探针，除了必需的 Host 标头之外，kubelet 还会发送两个请求标头：

User-Agent，默认值为 kube-probe/1.36，其中 1.36 是 kubelet 的版本。
Accept，默认值为 */*。

你可以通过为探针定义 httpHeaders 来覆盖这些标头。例如：

livenessProbe:
  httpGet:
    httpHeaders:
      - name: Accept
        value: application/json

startupProbe:
  httpGet:
    httpHeaders:
      - name: User-Agent
        value: MyUserAgent

你也可以通过将其设置为空值来移除这两个标头。

livenessProbe:
  httpGet:
    httpHeaders:
      - name: Accept
        value: ""

startupProbe:
  httpGet:
    httpHeaders:
      - name: User-Agent
        value: ""

重定向处理

当 kubelet 使用 HTTP 探测容器时，只有当重定向目标是同一主机时才会跟随重定向。这包括将协议从 HTTP 更改为 HTTPS 的重定向，即使探针被配置为 scheme: HTTP。

如果重定向到不同的主机名，kubelet 不会跟随该重定向。此时，kubelet 会将探针视为成功，并记录一个 ProbeWarning 事件。

如果 kubelet 跟随重定向并累计收到 11 次或以上的重定向，探针被视为成功并记录一个 ProbeWarning 事件。例如：

Events:
  Type     Reason        Age                     From               Message
  ----     ------        ----                    ----               -------
  Normal   Scheduled     29m                     default-scheduler  Successfully assigned default/httpbin-7b8bc9cb85-bjzwn to daocloud
  Normal   Pulling       29m                     kubelet            Pulling image "docker.io/kennethreitz/httpbin"
  Normal   Pulled        24m                     kubelet            Successfully pulled image "docker.io/kennethreitz/httpbin" in 5m12.402735213s
  Normal   Created       24m                     kubelet            Created container httpbin
  Normal   Started       24m                     kubelet            Started container httpbin
 Warning  ProbeWarning  4m11s (x1197 over 24m)  kubelet            Readiness probe warning: Probe terminated redirects

注意：

处理 httpGet 探针时，kubelet 在读取响应主体超过 10KiB 后会停止读取。探针的成功与否仅由响应状态码决定，状态码可以在响应标头中找到。

如果你探测的端点返回的响应主体大于 10KiB， kubelet 仍会根据状态码将探针标记为成功，但在达到 10KiB 限制后会关闭连接。这种突然的关闭可能导致 connection reset by peer 或 broken pipe errors 等错误出现在你的应用日志中，而这些错误可能难以与真正的网络问题区分。

为了让 httpGet 探针更可靠，强烈建议使用专用的健康检查端点，让其返回较小的响应主体。如果你必须使用一个负载较大的现有端点，可以考虑改用 exec 探针执行一次 HEAD 请求。

TCP 探针

对于 TCP 探针，kubelet 在节点上而不是在 Pod 中建立探测连接，这意味着你不能在 host 参数中使用服务名称，因为 kubelet 无法解析它。

gRPC 探针

特性状态： Kubernetes v1.27 [stable]

如果你的应用实现了 gRPC 健康检查协议，你可以配置 Kubernetes 使用该协议来执行应用启动、存活或就绪检查。

下面是一个清单示例：

pods/probe/grpc-liveness.yaml
apiVersion: v1
kind: Pod
metadata:
  name: etcd-with-grpc
spec:
  containers:
  - name: etcd
    image: registry.k8s.io/etcd:3.5.1-0
    command: [ "/usr/local/bin/etcd", "--data-dir",  "/var/lib/etcd", "--listen-client-urls", "http://0.0.0.0:2379", "--advertise-client-urls", "http://127.0.0.1:2379", "--log-level", "debug"]
    ports:
    - containerPort: 2379
    livenessProbe:
      grpc:
        port: 2379
      initialDelaySeconds: 10

要使用 gRPC 探针，必须配置 port。如果你想区分不同类型的探针和针对不同特性的探针，可以使用 service 字段。你可以将 service 设置为 liveness，并让你的 gRPC 健康检查端点对此请求作出与设置 service 为 readiness 时不同的响应。这使你能够使用同一端点完成不同种类的容器健康检查，而不必监听两个不同的端口。如果你想指定自己的自定义服务名称并同时指定一种探针类型， Kubernetes 项目建议你使用将两者连接起来的名称。例如：myservice-liveness（使用 - 作为分隔符）。

说明：

与 HTTP 或 TCP 探针不同，你不能通过名称指定健康检查端口，也不能配置自定义主机名。

配置问题（例如：端口或服务不正确、未实现健康检查协议）被视为探针失败，类似于 HTTP 和 TCP 探针。

接下来

学习如何配置存活、就绪和启动探针。
关于探针相关字段的完整规约，参阅 API 参考： Pod、 Container、 Probe

4 - 为 Pod 和容器管理资源

当你定义 Pod 时可以选择性地为每个容器设定所需要的资源数量。最常见的可设定资源是 CPU 和内存（RAM）大小；此外还有其他类型的资源。

当你为 Pod 中的 Container 指定了资源 requests（请求） 时， kube-scheduler 会利用该信息决定将 Pod 调度到哪个节点上。当你为 Container 指定了资源 limits（限制） 时，kubelet 可以确保运行的容器不会使用超出所设限制的资源。 kubelet 还会为容器预留 requests（请求） 所指定数量的系统资源，供其使用。

请求和限制

如果 Pod 运行所在的节点具有足够的可用资源，容器可能（且可以）使用超出对应资源 requests 属性所设置的资源量。

例如，如果你将容器的 memory 的请求量设置为 256 MiB，而该容器所处的 Pod 被调度到一个具有 8 GiB 内存的节点上，并且该节点上没有其他 Pod 运行，那么该容器就可以尝试使用更多的内存。

限制是另一个话题。cpu 限制和 memory 限制都由 kubelet （以及容器运行时）来实施，最终由内核强制执行。在 Linux 节点上，Linux 内核通过 CGroup 来强制执行限制。 cpu 限制和 memory 限制的执行行为略有不同。

cpu 限制通过 CPU 节流机制（CPU Throttling）来强制执行。当某容器接近其 cpu 限制值时，内核会基于容器的限制值来限制其对 CPU 的访问。因此，cpu 限制是内核强制执行的一个硬性限制。容器不得使用超出其 cpu 限制所指定的 CPU 核数。

memory 限制由内核使用 OOM（内存不足）杀死机制来强制执行。当某容器使用的内存超过其 memory 限制时，内核可以终止此容器。然而，终止操作只会在内核检测到内存压力时才会发生。因此，内存分配过量的容器可能不会被立即终止。这意味着 memory 限制是被动执行的。某容器可以使用超过其 memory 限制的内存，但如果这样做了，它可能会被终止。

说明：

有一个 Alpha 特性 MemoryQoS，它在使用 cgroup v2 的 Linux 节点上添加内存节流以及可选的分层内存预留功能。详细信息参阅使用 cgroup v2 的内存 QoS。

说明：

如果你为某个资源指定了限制值，但不指定请求值，并且没有应用某种准入时机制为该资源设置默认请求值，那么 Kubernetes 会复制你所指定的限制值，将其用作资源的请求值。

资源类型

资源类型具有基本单位，并且可以被请求、被限制或两者兼具。 Kubernetes 内置了以下资源类型：

资源类型	描述	基本单位
`cpu`	计算处理	CPU（核心）
`memory`	RAM	字节
`ephemeral-storage`	本地临时存储	字节
`hugepages-<size>`	巨页（仅限 Linux）	字节

集群还可以提供扩展资源（具有自定义名称的资源，通常由设备插件暴露）。

内存巨页

对于 Linux 工作负载，你可以指定内存巨页资源。巨页是 Linux 特有的功能，其中节点内核分配的内存块远大于默认页面大小。

例如，在默认页面大小为 4KiB 的系统上，你可以指定限制 hugepages-2Mi: 80Mi。如果容器尝试分配 40 个 2MiB 大小的巨页（总共 80MiB ），则分配请求会失败。

说明：

你不能过量使用 hugepages- * 资源。这与 memory 和 cpu 资源不同。

CPU 和内存统称为计算资源，或简称为资源。计算资源的数量是可测量的，可以被请求、被分配、被消耗。它们与 API 资源不同。 API 资源（如 Pod 和 Service）是可通过 Kubernetes API 服务器读取和修改的对象。

Pod 和容器的资源请求和限制

针对每个容器，你都可以指定其资源限制和请求，包括如下选项：

spec.containers[].resources.limits.cpu
spec.containers[].resources.limits.memory
spec.containers[].resources.limits.ephemeral-storage
spec.containers[].resources.limits.hugepages-<size>
spec.containers[].resources.requests.cpu
spec.containers[].resources.requests.memory
spec.containers[].resources.requests.ephemeral-storage
spec.containers[].resources.requests.hugepages-<size>

尽管你只能逐个容器地指定请求和限制值，但考虑 Pod 的总体资源请求和限制也是有用的。对特定资源而言，Pod 的资源请求/限制值是 Pod 中各容器对该类型资源的请求/限制值的总和。

Pod 级资源规约

特性状态： Kubernetes v1.34 [beta]（默认启用）

如果你的集群启用了 PodLevelResources 特性门控，你可以在 Pod 级别指定资源请求和限制值。在 Pod 级别，Kubernetes 1.36 仅支持为特定资源类型设置资源请求或限制值，具体包括 cpu 和/或 memory 和/或 hugepages。启用此特性时，Kubernetes 允许你为 Pod 声明一个资源总预算，这在处理大量容器时特别有用，因为在这种情况下很难准确评估各个容器的资源需求。此外，这一特性还允许 Pod 内的容器之间共享空闲资源，从而提高资源利用率。

对于一个 Pod，你可以通过包含以下内容来指定 CPU 和内存的资源限制和请求：

spec.resources.limits.cpu
spec.resources.limits.memory
spec.resources.limits.hugepages-<size>
spec.resources.requests.cpu
spec.resources.requests.memory
spec.resources.requests.hugepages-<size>

Kubernetes 中的资源单位

CPU 资源单位

CPU 资源的限制和请求以 cpu 为单位。在 Kubernetes 中，一个 CPU 等于 1 个物理 CPU 核或者 1 个虚拟核，取决于节点是一台物理主机还是运行在某物理主机上的虚拟机。

你也可以表达带小数 CPU 的请求。当你定义一个容器，将其 spec.containers[].resources.requests.cpu 设置为 0.5 时，你所请求的 CPU 是你请求 1.0 CPU 时的一半。对于 CPU 资源单位，数量表达式 0.1 等价于表达式 100m，可以看作 “100 millicpu”。有些人说成是“一百毫核”，其实说的是同样的事情。

CPU 资源总是设置为资源的绝对数量而非相对数量值。例如，无论容器运行在单核、双核或者 48 核的机器上，500m CPU 表示的是大约相同的算力。

说明：

Kubernetes 不允许设置精度小于 1m 或 0.001 的 CPU 资源。为了避免意外使用无效的 CPU 数量，当使用少于 1 个 CPU 单元时，使用 milliCPU 形式而不是十进制形式指定 CPU 单元非常有用。

例如，你有一个使用 5m 或 0.005 核 CPU 的 Pod，并且希望减少其 CPU 资源。通过使用十进制形式，更难发现 0.0005 CPU 是无效值，而通过使用 milliCPU 形式，更容易发现 0.5m 是无效值。

内存资源单位

memory 的限制和请求以字节为单位。你可以使用普通的整数，或者带有以下数量后缀的定点数字来表示内存： E、P、T、G、M、k。你也可以使用对应的 2 的幂数：Ei、Pi、Ti、Gi、Mi、Ki。 Kubernetes API 也允许使用 m 作为后缀（表示毫字节：1/1000 字节），但这并不实用：你必须始终分配整数个字节，或者有时是更大的块，例如 1 GiB 的倍数。

以下是一些表示近似相同值的内存数量示例：

128974848, 129e6, 129M,  128974848000m, 123Mi

请注意后缀的大小写。如果你请求 400m 临时存储，实际上所请求的是 0.4 字节。 "M" 代表兆字节，"m" 代表毫字节。如果你请求 "400m" 的内存，则表示请求 0.4 字节。如果有人这样设定资源请求或限制，可能他的实际想法是申请 400Mi 字节（400Mi）或者 400M 字节。

容器资源示例

以下 Pod 有两个容器。每个容器的请求为 0.25 CPU 和 64MiB（2²⁶ 字节）内存，每个容器的资源限制为 0.5 CPU 和 128MiB 内存。你可以认为该 Pod 的资源请求为 0.5 CPU 和 128MiB 内存，资源限制为 1 CPU 和 256MiB 内存。

---
apiVersion: v1
kind: Pod
metadata:
  name: frontend
spec:
  containers:
  - name: app
    image: images.my-company.example/app:v4
    resources:
      requests:
        memory: "64Mi"
        cpu: "250m"
      limits:
        memory: "128Mi"
        cpu: "500m"
  - name: log-aggregator
    image: images.my-company.example/log-aggregator:v6
    resources:
      requests:
        memory: "64Mi"
        cpu: "250m"
      limits:
        memory: "128Mi"
        cpu: "500m"

Pod 资源示例

特性状态： Kubernetes v1.34 [beta]（默认启用）

此特性可以通过设置 PodLevelResources 特性门控来启用。以下 Pod 明确请求了 1 个 CPU 和 100 MiB 的内存，并设置了明确的限制值为 1 个 CPU 和 200 MiB 的内存。 pod-resources-demo-ctr-1 容器设置了明确的资源请求和限制值。不过 pod-resources-demo-ctr-2 容器没有设置明确的资源请求和限制，因此它将共享 Pod 资源边界内的可用资源。

pods/resource/pod-level-resources.yaml
apiVersion: v1
kind: Pod
metadata:
  name: pod-resources-demo
  namespace: pod-resources-example
spec:
  resources:
    limits:
      cpu: "1"
      memory: "200Mi"
    requests:
      cpu: "1"
      memory: "100Mi"
  containers:
  - name: pod-resources-demo-ctr-1
    image: nginx
    resources:
      limits:
        cpu: "0.5"
        memory: "100Mi"
      requests:
        cpu: "0.5"
        memory: "50Mi"
  - name: pod-resources-demo-ctr-2
    image: fedora
    command:
    - sleep
    - inf 

带资源请求的 Pod 如何调度

当你创建一个 Pod 时，Kubernetes 调度程序将为 Pod 选择一个节点。每个节点对每种资源类型都有一个容量上限：可为 Pod 提供的 CPU 和内存量。调度程序确保对于每种资源类型，所调度的容器的资源请求的总和小于节点的容量。请注意，尽管节点上的实际内存或 CPU 资源使用量非常低，如果容量检查失败，调度程序仍会拒绝将 Pod 放置在该节点上。当稍后节点上资源用量增加，例如到达请求率的每日峰值区间时，节点上也不会出现资源不足的问题。

Kubernetes 处理资源请求与限制的方式

当 kubelet 将容器作为 Pod 的一部分启动时，它会将容器的 CPU 和内存请求与限制值信息传递给容器运行时。

在 Linux 系统上，容器运行时通常会配置内核 CGroup，负责应用并实施所定义的请求。

CPU 限制定义的是容器可使用的 CPU 时间的硬性上限。在每个调度周期（时间片）期间，Linux 内核检查是否已经超出该限制；内核在允许该 CGroup 恢复执行之前会等待。

CPU 请求值定义的是一个权重值。如果若干不同的容器（CGroup）需要在一个共享的系统上竞争运行， CPU 请求值大的负载会获得比请求值小的负载更多的 CPU 时间。

内存请求值主要用于（Kubernetes）Pod 调度期间。在一个启用了 CGroup v2 的节点上，容器运行时可能会使用内存请求值作为设置 memory.min 和 memory.low 的提示值。

内存限制定义的是 CGroup 的内存限制。如果容器尝试分配的内存量超出限制，则 Linux 内核的 out-of-memory （内存不足）子系统会被激活，并停止尝试分配内存的容器中的某个进程。如果该进程在容器中 PID 为 1，而容器被标记为可重新启动，则 Kubernetes 会重新启动该容器。

Pod 或容器的内存限制也适用于以内存为介质的卷，例如 emptyDir 卷。 kubelet 会跟踪 tmpfs 形式的 emptyDir 卷用量，将其作为容器的内存用量，而不是临时存储用量。当使用内存作为介质的 emptyDir 时，请务必查看下面的注意事项。

如果某容器内存用量超过其内存请求值并且所在节点内存不足时，容器所处的 Pod 可能被逐出。

每个容器可能被允许也可能不被允许使用超过其 CPU 限制值的处理时间。但是，容器运行时不会由于 CPU 使用率过高而杀死 Pod 或容器。

要确定某容器是否会由于资源限制而无法调度或被杀死，请参阅问题诊断节。

调整容器资源

创建 Pod 后，你可能需要根据实际使用情况调整其 CPU 或内存资源。Kubernetes 提供了两种调整 Pod 资源大小的方法：

就地调整

特性状态： Kubernetes v1.35 [stable]（默认启用）

你无需重新创建 Pod 即可修改正在运行的 Pod 中容器的 CPU 和内存请求及限制。这称为 "Pod 就地垂直扩容"或 "Pod 就地调整大小"。要执行就地调整大小，请使用 Pod 的 /resize 子资源更新容器的资源规约。你可以通过设置容器规约中的 resizePolicy 字段来控制是否需要重启容器。

说明：

目前，就地调整大小仅适用于容器级别的资源。要调整 Pod 级别的资源大小，请参阅调整 Pod CPU 和内存资源。

通过启动替换 Pod 来调整 Pod 的资源

云原生方式更改 Pod 资源的方法是更新工作负载对象（例如 Deployment 或 StatefulSet）中的 Pod 模板，并让工作负载控制器将旧 Pod 替换为具有更新资源的新 Pod。此方法适用于任何 Kubernetes 版本，并且可以更改任何 Pod 规约。

有关 Pod 调整大小的更多详细信息，请参阅调整 Pod 大小。有关就地调整大小的详细说明，请参阅调整分配给容器的 CPU 和内存资源。你还可以使用垂直 Pod 自动扩缩器来自动管理 Pod 资源建议。

监控计算和内存资源用量

kubelet 会将 Pod 的资源使用情况作为 Pod status 的一部分来报告的。

如果为集群配置了可选的监控工具，则可以直接从指标 API 或者监控工具获得 Pod 的资源使用情况。

使用内存作为介质的 `emptyDir` 卷的注意事项

注意：

如果你没有为 emptyDir 卷指定 sizeLimit，该卷就会消耗 Pod 的内存，卷的用量上限为 Pod 的内存限制（Pod.spec.containers[].resources.limits.memory）。如果你没有设置内存限制，Pod 的内存消耗将没有上限，并且可能会用掉节点上的所有可用内存。 Kubernetes 基于资源请求（Pod.spec.containers[].resources.requests）调度 Pod，并且在决定另一个 Pod 是否适合调度到某个给定的节点上时，不会考虑超出请求的内存用量。这可能导致拒绝服务，并使得操作系统需要处理内存不足（OOM）的情况。用户可以创建任意数量的 emptyDir，可能会消耗节点上的所有可用内存，使得 OOM 更有可能发生。

从内存管理的角度来看，进程使用内存作为工作区与使用内存作为 emptyDir 的介质有一些相似之处。但当将内存用作存储卷（例如内存为介质的 emptyDir 卷）时，你需要额外注意以下几点：

存储在内存为介质的卷上的文件几乎完全由用户应用所管理。与用作进程工作区的用法不同，你无法依赖语言级别垃圾回收这类机制。
将文件写入某个卷的目的是保存数据或在应用之间传递数据。 Kubernetes 或操作系统都不会自动从卷中删除文件，因此当系统或 Pod 面临内存压力时，将无法回收这些文件所使用的内存。
以内存为介质的 emptyDir 因性能较好而很有用，但内存通常比其他存储介质（如磁盘或 SSD）小得多且成本更高。为 emptyDir 卷使用大量内存可能会影响 Pod 或整个节点的正常运行，因此你应谨慎使用。

如果你在管理集群或命名空间，还可以设置限制内存使用的 ResourceQuota；你可能还希望定义一个 LimitRange 以施加额外的限制。如果为每个 Pod 指定 spec.containers[].resources.limits.memory，那么 emptyDir 卷的最大尺寸将是 Pod 的内存限制。

作为一种替代方案，集群管理员可以使用诸如 ValidatingAdmissionPolicy 之类的策略机制来强制对新 Pod 的 emptyDir 卷进行大小限制。

本地临时存储

节点具有本地临时存储，由本地连接的可写设备支持，或者有时由 RAM 支持。 "临时"意味着不对持久性提供长期保证。

Pod 使用临时本地存储作为临时空间、缓存和日志。 kubelet 可以使用本地临时存储为 Pods 提供临时空间，通过将 emptyDir 卷挂载到容器中。

对于本地临时存储的一般概念以及为容器配置临时存储的请求和/或限制的提示，请参阅本地临时存储页面。

本地临时存储的资源监控

kubelet 可以测量本地临时存储的使用量。只要你启用了本地临时存储容量隔离， kubelet 就会进行该测量。

Kubernetes 会从以下几个方面跟踪 Pod 的临时存储使用量：

对容器的可写层（rootfs）、容器镜像，或两者的写入。
对本地 emptyDir 卷的写入。
Pod 自身的日志（通常存放在 /var/log/pods 下）。
由 Kubernetes 管理并映射进 Pod 的系统文件，例如 /etc/hosts。

扩展资源（Extended Resources）

扩展资源是 kubernetes.io 域名之外的标准资源名称。它们使得集群管理员能够颁布非 Kubernetes 内置资源，而用户可以使用他们。

使用扩展资源需要两个步骤。首先，集群管理员必须颁布扩展资源。其次，用户必须在 Pod 中请求扩展资源。

管理扩展资源

节点级扩展资源

节点级扩展资源绑定到节点。

设备插件管理的资源

有关如何颁布在各节点上由设备插件所管理的资源，请参阅设备插件。

其他资源

为了颁布新的节点级扩展资源，集群操作员可以向 API 服务器提交 PATCH HTTP 请求，以在集群中节点的 status.capacity 中为其配置可用数量。完成此操作后，节点的 status.capacity 字段中将包含新资源。 kubelet 会异步地对 status.allocatable 字段执行自动更新操作，使之包含新资源。

由于调度器在评估 Pod 是否适合在某节点上执行时会使用节点的 status.allocatable 值，调度器只会考虑异步更新之后的新值。在更新节点容量使之包含新资源之后和请求该资源的第一个 Pod 被调度到该节点之间，可能会有短暂的延迟。

示例：

这是一个示例，显示了如何使用 curl 构造 HTTP 请求，公告主节点为 k8s-master 的节点 k8s-node-1 上存在五个 example.com/foo 资源。

curl --header "Content-Type: application/json-patch+json" \
--request PATCH \
--data '[{"op": "add", "path": "/status/capacity/example.com~1foo", "value": "5"}]' \
http://k8s-master:8080/api/v1/nodes/k8s-node-1/status

说明：

在前面的请求中，~1 是在 patch 路径中对字符 / 的编码。 JSON-Patch 中的操作路径的值被视为 JSON-Pointer 类型。有关更多详细信息，请参见 IETF RFC 6901 第 3 节。

集群层面的扩展资源

集群层面的扩展资源并不绑定到具体节点。它们通常由调度器扩展程序（Scheduler Extender）管理，这些程序处理资源消耗和资源配额。

你可以在调度器配置中指定由调度器扩展程序处理的扩展资源。

示例：

下面的调度器策略配置标明集群层扩展资源 "example.com/foo" 由调度器扩展程序处理。

仅当 Pod 请求 "example.com/foo" 时，调度器才会将 Pod 发送到调度器扩展程序。
ignoredByScheduler 字段指定调度器不要在其 PodFitsResources 断言中检查 "example.com/foo" 资源。

{
  "kind": "Policy",
  "apiVersion": "v1",
  "extenders": [
    {
      "urlPrefix": "<extender-endpoint>",
      "bindVerb": "bind",
      "managedResources": [
        {
          "name": "example.com/foo",
          "ignoredByScheduler": true
        }
      ]
    }
  ]
}

DRA 扩展资源分配

DRA 扩展资源分配允许集群管理员在 DeviceClass 中指定一个 extendedResourceName，然后与所指定 DeviceClass 匹配的设备可以使用 Pod 的扩展资源请求来获取。进一步阅读关于使用 DRA 进行扩展资源分配的内容。

使用扩展资源

就像 CPU 和内存一样，用户可以在 Pod 的规约中使用扩展资源。调度器负责资源的核算，确保同时分配给 Pod 的资源总量不会超过可用数量。

API 服务器将扩展资源的数量限制为整数。有效数量的示例是 3、3000m 和 3Ki。无效数量的示例是 0.5 和 1500m（因为 1500m 结果等同于 1.5）。

说明：

扩展资源取代了非透明整数资源（Opaque Integer Resources，OIR）。用户可以使用 kubernetes.io（保留）以外的任何域名前缀。

要在 Pod 中使用扩展资源，请在容器规约的 spec.containers[].resources.limits 映射中包含资源名称作为键。

说明：

扩展资源不能过量使用，因此如果容器规约中同时存在请求和限制，则它们的取值必须相同。

仅当所有资源请求（包括 CPU、内存和任何扩展资源）都被满足时，Pod 才能被调度。在资源请求无法满足时，Pod 会保持在 PENDING 状态。

示例：

下面的 Pod 请求 2 个 CPU 和 1 个 "example.com/foo"（扩展资源）。

apiVersion: v1
kind: Pod
metadata:
  name: my-pod
spec:
  containers:
  - name: my-container
    image: myimage
    resources:
      requests:
        cpu: 2
        example.com/foo: 1
      limits:
        example.com/foo: 1

PID 限制

进程 ID（PID）限制允许对 kubelet 进行配置，以限制给定 Pod 可以消耗的 PID 数量。有关信息，请参见 PID 限制。

问题诊断

我的 Pod 处于悬决状态且事件信息显示 `FailedScheduling`

如果调度器找不到该 Pod 可以匹配的任何节点，则该 Pod 将保持未被调度状态，直到找到一个可以被调度到的位置。每当调度器找不到 Pod 可以调度的地方时，会产生一个 Event。你可以使用 kubectl 来查看 Pod 的事件；例如：

kubectl describe pod frontend | grep -A 9999999999 Events

Events:
  Type     Reason            Age   From               Message
  ----     ------            ----  ----               -------
  Warning  FailedScheduling  23s   default-scheduler  0/42 nodes available: insufficient cpu

在上述示例中，由于节点上的 CPU 资源不足，名为 “frontend” 的 Pod 无法被调度。由于内存不足（PodExceedsFreeMemory）而导致失败时，也有类似的错误消息。一般来说，如果 Pod 处于悬决状态且有这种类型的消息时，你可以尝试如下几件事情：

向集群添加更多节点。
终止不需要的 Pod，为悬决的 Pod 腾出空间。
检查 Pod 所需的资源是否超出所有节点的资源容量。例如，如果所有节点的容量都是 cpu: 1，那么一个请求为 cpu: 1.1 的 Pod 永远不会被调度。
检查节点上的污点设置。如果集群中节点上存在污点，而新的 Pod 不能容忍污点，调度器只会考虑将 Pod 调度到不带有该污点的节点上。

你可以使用 kubectl describe nodes 命令检查节点容量和已分配的资源数量。例如：

kubectl describe nodes e2e-test-node-pool-4lw4

Name:            e2e-test-node-pool-4lw4
[ ... 这里忽略了若干行以便阅读 ...]
Capacity:
 cpu:                               2
 memory:                            7679792Ki
 pods:                              110
Allocatable:
 cpu:                               1800m
 memory:                            7474992Ki
 pods:                              110
[ ... 这里忽略了若干行以便阅读 ...]
Non-terminated Pods:        (5 in total)
  Namespace    Name                                  CPU Requests  CPU Limits  Memory Requests  Memory Limits
  ---------    ----                                  ------------  ----------  ---------------  -------------
  kube-system  fluentd-gcp-v1.38-28bv1               100m (5%)     0 (0%)      200Mi (2%)       200Mi (2%)
  kube-system  kube-dns-3297075139-61lj3             260m (13%)    0 (0%)      100Mi (1%)       170Mi (2%)
  kube-system  kube-proxy-e2e-test-...               100m (5%)     0 (0%)      0 (0%)           0 (0%)
  kube-system  monitoring-influxdb-grafana-v4-z1m12  200m (10%)    200m (10%)  600Mi (8%)       600Mi (8%)
  kube-system  node-problem-detector-v0.1-fj7m3      20m (1%)      200m (10%)  20Mi (0%)        100Mi (1%)
Allocated resources:
  (Total limits may be over 100 percent, i.e., overcommitted.)
  CPU Requests    CPU Limits    Memory Requests    Memory Limits
  ------------    ----------    ---------------    -------------
  680m (34%)      400m (20%)    920Mi (11%)        1070Mi (13%)

在上面的输出中，你可以看到如果 Pod 请求超过 1.120 CPU 或者 6.23Gi 内存，节点将无法满足。

通过查看 "Pods" 部分，你将看到哪些 Pod 占用了节点上的资源。

Pod 可用的资源量低于节点的资源总量，因为系统守护进程也会使用一部分可用资源。在 Kubernetes API 中，每个 Node 都有一个 .status.allocatable 字段（详情参见 NodeStatus）。

字段 .status.allocatable 描述节点上可以用于 Pod 的资源总量（例如：15 个虚拟 CPU、7538 MiB 内存）。关于 Kubernetes 中节点可分配资源的信息，可参阅为系统守护进程预留计算资源。

你可以配置资源配额功能特性以限制每个名字空间可以使用的资源总量。当某名字空间中存在 ResourceQuota 时，Kubernetes 会在该名字空间中的对象强制实施配额。例如，如果你为不同的团队分配名字空间，你可以为这些名字空间添加 ResourceQuota。设置资源配额有助于防止一个团队占用太多资源，以至于这种占用会影响其他团队。

你还需要考虑为这些名字空间设置授权访问：为名字空间提供全部的写权限时，具有合适权限的人可能删除所有资源，包括所配置的 ResourceQuota。

我的容器被终止了

你的容器可能因为资源紧张而被终止。要查看容器是否因为遇到资源限制而被杀死，请针对相关的 Pod 执行 kubectl describe pod：

kubectl describe pod simmemleak-hra99

输出类似于：

Name:                           simmemleak-hra99
Namespace:                      default
Image(s):                       saadali/simmemleak
Node:                           kubernetes-node-tf0f/10.240.216.66
Labels:                         name=simmemleak
Status:                         Running
Reason:
Message:
IP:                             10.244.2.75
Containers:
  simmemleak:
    Image:  saadali/simmemleak:latest
    Limits:
      cpu:          100m
      memory:       50Mi
    State:          Running
      Started:      Tue, 07 Jul 2019 12:54:41 -0700
    Last State:     Terminated
      Reason:       OOMKilled
      Exit Code:    137
      Started:      Fri, 07 Jul 2019 12:54:30 -0700
      Finished:     Fri, 07 Jul 2019 12:54:33 -0700
    Ready:          False
    Restart Count:  5
Conditions:
  Type      Status
  Ready     False
Events:
  Type    Reason     Age   From               Message
  ----    ------     ----  ----               -------
  Normal  Scheduled  42s   default-scheduler  Successfully assigned simmemleak-hra99 to kubernetes-node-tf0f
  Normal  Pulled     41s   kubelet            Container image "saadali/simmemleak:latest" already present on machine
  Normal  Created    41s   kubelet            Created container simmemleak
  Normal  Started    40s   kubelet            Started container simmemleak
  Normal  Killing    32s   kubelet            Killing container with id ead3fb35-5cf5-44ed-9ae1-488115be66c6: Need to kill Pod

在上面的例子中，Restart Count: 5 意味着 Pod 中的 simmemleak 容器被终止并且（到目前为止）重启了五次。原因 OOMKilled 显示容器尝试使用超出其限制的内存量。

你接下来要做的或许是检查应用代码，看看是否存在内存泄露。如果你发现应用的行为与你所预期的相同，则可以考虑为该容器设置一个更高的内存限制（也可能需要设置请求值）。

接下来

获取分配内存资源给容器和 Pod 的实践经验
获取分配 CPU 资源给容器和 Pod 的实践经验
阅读 API 参考如何定义容器及其资源请求。
阅读更多关于本地临时存储的内容。
进一步阅读 kube-scheduler 配置参考（v1）
进一步阅读 Pod 的服务质量等级
进一步阅读使用 DRA 进行扩展资源分配

5 - 使用 kubeconfig 文件组织集群访问

使用 kubeconfig 文件来组织有关集群、用户、命名空间和身份认证机制的信息。 kubectl 命令行工具使用 kubeconfig 文件来查找选择集群所需的信息，并与集群的 API 服务器进行通信。

说明：

用于配置集群访问的文件称为 kubeconfig 文件。这是引用到配置文件的通用方法，并不意味着有一个名为 kubeconfig 的文件。

警告：

请务必仅使用来源可靠的 kubeconfig 文件。使用特制的 kubeconfig 文件可能会导致恶意代码执行或文件暴露。如果必须使用不受信任的 kubeconfig 文件，请首先像检查 Shell 脚本一样仔细检查此文件。

默认情况下，kubectl 在 $HOME/.kube 目录下查找名为 config 的文件。你可以通过设置 KUBECONFIG 环境变量或者设置 --kubeconfig参数来指定其他 kubeconfig 文件。

有关创建和指定 kubeconfig 文件的分步说明，请参阅配置对多集群的访问。

支持多集群、用户和身份认证机制

假设你有多个集群，并且你的用户和组件以多种方式进行身份认证。比如：

正在运行的 kubelet 可能使用证书在进行认证。
用户可能通过令牌进行认证。
管理员可能拥有多个证书集合提供给各用户。

使用 kubeconfig 文件，你可以组织集群、用户和命名空间。你还可以定义上下文，以便在集群和命名空间之间快速轻松地切换。

上下文（Context）

通过 kubeconfig 文件中的 context 元素，使用简便的名称来对访问参数进行分组。每个 context 都有三个参数：cluster、namespace 和 user。默认情况下，kubectl 命令行工具使用 当前上下文 中的参数与集群进行通信。

选择当前上下文：

kubectl config use-context

KUBECONFIG 环境变量

KUBECONFIG 环境变量包含一个 kubeconfig 文件列表。对于 Linux 和 Mac，此列表以英文冒号分隔。对于 Windows，此列表以英文分号分隔。 KUBECONFIG 环境变量不是必需的。如果 KUBECONFIG 环境变量不存在，kubectl 将使用默认的 kubeconfig 文件：$HOME/.kube/config。

如果 KUBECONFIG 环境变量存在，kubectl 将使用 KUBECONFIG 环境变量中列举的文件合并后的有效配置。

合并 kubeconfig 文件

要查看配置，输入以下命令：

kubectl config view

如前所述，输出可能来自单个 kubeconfig 文件，也可能是合并多个 kubeconfig 文件的结果。

以下是 kubectl 在合并 kubeconfig 文件时使用的规则。

如果设置了 --kubeconfig 参数，则仅使用指定的文件。不进行合并。此参数只能使用一次。
否则，如果设置了 KUBECONFIG 环境变量，将它用作应合并的文件列表。根据以下规则合并 KUBECONFIG 环境变量中列出的文件：
- 忽略空文件名。
- 对于内容无法反序列化的文件，产生错误信息。
- 第一个设置特定值或者映射键的文件将生效。
- 永远不会更改值或者映射键。示例：保留第一个文件的上下文以设置 current-context。示例：如果两个文件都指定了 red-user，则仅使用第一个文件的 red-user 中的值。即使第二个文件在 red-user 下有非冲突条目，也要丢弃它们。
有关设置 KUBECONFIG 环境变量的示例，请参阅设置 KUBECONFIG 环境变量。
否则，使用默认的 kubeconfig 文件（$HOME/.kube/config），不进行合并。

根据此链中的第一个匹配确定要使用的上下文。
1. 如果存在上下文，则使用 --context 命令行参数。
2. 使用合并的 kubeconfig 文件中的 current-context。
这种场景下允许空上下文。

确定集群和用户。此时，可能有也可能没有上下文。根据此链中的第一个匹配确定集群和用户，这将运行两次：一次用于用户，一次用于集群。
1. 如果存在用户或集群，则使用命令行参数：--user 或者 --cluster。
2. 如果上下文非空，则从上下文中获取用户或集群。
这种场景下用户和集群可以为空。

确定要使用的实际集群信息。此时，可能有也可能没有集群信息。基于此链构建每个集群信息；第一个匹配项会被采用：
1. 如果存在集群信息，则使用命令行参数：--server、--certificate-authority 和 --insecure-skip-tls-verify。
2. 如果合并的 kubeconfig 文件中存在集群信息属性，则使用这些属性。
3. 如果没有 server 配置，则配置无效。

确定要使用的实际用户信息。使用与集群信息相同的规则构建用户信息，但对于每个用户只允许使用一种身份认证技术：
1. 如果存在用户信息，则使用命令行参数：--client-certificate、--client-key、--username、--password 和 --token。
2. 使用合并的 kubeconfig 文件中的 user 字段。
3. 如果存在两种冲突技术，则配置无效。

对于仍然缺失的任何信息，使用其对应的默认值，并可能提示输入身份认证信息。

文件引用

kubeconfig 文件中的文件和路径引用是相对于 kubeconfig 文件的位置。命令行上的文件引用是相对于当前工作目录的。在 $HOME/.kube/config 中，相对路径按相对路径存储，而绝对路径按绝对路径存储。

代理

你可以在 kubeconfig 文件中，为每个集群配置 proxy-url 来让 kubectl 使用代理，例如：

apiVersion: v1
kind: Config

clusters:
- cluster:
    proxy-url: http://proxy.example.org:3128
    server: https://k8s.example.org/k8s/clusters/c-xxyyzz
  name: development

users:
- name: developer

contexts:
- context:
  name: development

接下来

6 - Windows 节点的资源管理

本页概述了 Linux 和 Windows 在资源管理方式上的区别。

在 Linux 节点上，cgroup 用作资源控制的 Pod 边界。在这个边界内创建容器以便于隔离网络、进程和文件系统。 Linux cgroup API 可用于收集 CPU、I/O 和内存使用统计数据。

与此相反，Windows 中每个容器对应一个作业对象，与系统命名空间过滤器一起使用，将所有进程包含在一个容器中，提供与主机的逻辑隔离。（作业对象是一种 Windows 进程隔离机制，不同于 Kubernetes 提及的 Job)。

如果没有命名空间过滤，就无法运行 Windows 容器。这意味着在主机环境中无法让系统特权生效，因此特权容器在 Windows 上不可用。容器不能使用来自主机的标识，因为安全帐户管理器（Security Account Manager，SAM）是独立的。

内存管理

Windows 不像 Linux 一样提供杀手（killer）机制，杀死内存不足的进程。 Windows 始终将所有用户态内存分配视为虚拟内存，并强制使用页面文件（pagefile）。

Windows 节点不会为进程过量使用内存。最终结果是 Windows 不会像 Linux 那样达到内存不足的情况，Windows 将进程页面放到磁盘，不会因为内存不足（OOM）而终止进程。如果内存配置过量且所有物理内存都已耗尽，则换页性能就会降低。

CPU 管理

Windows 可以限制为不同进程分配的 CPU 时间长度，但无法保证最小的 CPU 时间长度。

在 Windows 上，kubelet 支持使用命令行标志来设置 kubelet 进程的调度优先级： --windows-priorityclass。与 Windows 主机上运行的其他进程相比，此标志允许 kubelet 进程获取更多的 CPU 时间片。有关允许值及其含义的更多信息，请访问 Windows 优先级类。为了确保运行的 Pod 不会耗尽 kubelet 的 CPU 时钟周期，要将此标志设置为 ABOVE_NORMAL_PRIORITY_CLASS 或更高。

资源预留

为了满足操作系统、容器运行时和 kubelet 等 Kubernetes 主机进程使用的内存和 CPU，你可以（且应该）用 --kube-reserved 和/或 --system-reserved kubelet 标志来预留内存和 CPU 资源。在 Windows 上，这些值仅用于计算节点的可分配资源。

注意：

在你部署工作负载时，需对容器设置内存和 CPU 资源的限制。这也会从 NodeAllocatable 中减去，帮助集群范围的调度器决定哪些 Pod 放到哪些节点上。

若调度 Pod 时未设置限制值，可能对 Windows 节点过量配置资源。在极端情况下，这会让节点变得不健康。

在 Windows 上，一种好的做法是预留至少 2GiB 的内存。

要决定预留多少 CPU，需明确每个节点的最大 Pod 密度，并监控节点上运行的系统服务的 CPU 使用率，然后选择一个满足工作负载需求的值。