이 섹션의 다중 페이지 출력 화면임. 여기를 클릭하여 프린트.

워크로드

쿠버네티스에서 배포할 수 있는 가장 작은 컴퓨트 오브젝트인 파드와, 이를 실행하는 데 도움이 되는 하이-레벨(higher-level) 추상화 이해

1: 파드

1.1: 파드 라이프사이클
1.2: 초기화 컨테이너
1.3: 사이드카(sidecar) 컨테이너
1.4: 중단(disruption)
1.5: 임시(Ephemeral) 컨테이너
1.6: 파드 서비스 품질(QoS) 클래스
1.7: 파드 호스트네임
1.8: 사용자 네임스페이스
1.9: 다운워드(Downward) API

2: 워크로드 관리

2.1: 디플로이먼트
2.2: 레플리카셋
2.3: 스테이트풀셋
2.4: 데몬셋
2.5: 잡
2.6: 완료된 잡 자동 정리
2.7: 크론잡(CronJob)
2.8: 레플리케이션 컨트롤러

3: 오토스케일링 워크로드
4: 워크로드 관리

워크로드는 쿠버네티스에서 구동되는 애플리케이션이다. 워크로드가 단일 컴포넌트이거나 함께 작동하는 여러 컴포넌트이든 관계없이, 쿠버네티스에서는 워크로드를 일련의 파드 집합 내에서 실행한다. 쿠버네티스에서 파드는 클러스터에서 실행 중인 컨테이너 집합을 나타낸다.

쿠버네티스 파드에는 정의된 라이프사이클이 있다. 예를 들어, 일단 파드가 클러스터에서 실행되고 나서 해당 파드가 동작 중인 노드에 심각한 오류가 발생하면 해당 노드의 모든 파드가 실패한다. 쿠버네티스는 이 수준의 실패를 최종(final)으로 취급한다. 사용자는 향후 노드가 복구되는 것과 상관 없이 파드를 새로 생성해야 한다.

그러나, 작업이 훨씬 쉽도록 각 파드를 직접 관리할 필요는 없다. 대신, 사용자를 대신하여 파드 집합을 관리하는 워크로드 리소스 를 사용할 수 있다. 이러한 리소스는 지정한 상태와 일치하도록 올바른 수의 올바른 파드 유형이 실행되고 있는지 확인하는 컨트롤러를 구성한다.

쿠버네티스는 다음과 같이 여러 가지 빌트인(built-in) 워크로드 리소스를 제공한다.

디플로이먼트(Deployment) 및 레플리카셋(ReplicaSet) (레거시 리소스 레플리케이션컨트롤러(ReplicationController)를 대체). 디플로이먼트는 디플로이먼트의 모든 파드가 필요 시 교체 또는 상호 교체 가능한 경우, 클러스터의 스테이트리스 애플리케이션 워크로드를 관리하기에 적합하다.
스테이트풀셋(StatefulSet)은 어떻게든 스테이트(state)를 추적하는 하나 이상의 파드를 동작하게 해준다. 예를 들면, 워크로드가 데이터를 지속적으로 기록하는 경우, 사용자는 파드와 퍼시스턴트 볼륨(PersistentVolume)을 연계하는 스테이트풀셋을 실행할 수 있다. 전체적인 회복력 향상을 위해서, 스테이트풀셋의 파드에서 동작 중인 코드는 동일한 스테이트풀셋의 다른 파드로 데이터를 복제할 수 있다.
데몬셋(DaemonSet)은 노드에 국한된 기능을 제공하는 파드를 정의한다. 데몬셋의 명세에 맞는 노드를 클러스터에 추가할 때마다, 컨트롤 플레인은 해당 신규 노드에 데몬셋을 위한 파드를 스케줄링한다. 데몬셋의 각 파드는 기존 Unix / POSIX 서버의 시스템 데몬과 유사한 작업을 수행한다. 데몬셋은 클러스터 운영에 필수적인 구성 요소일 수도 있고(예: 클러스터 네트워킹(cluster networking)을 실행하는 플러그인), 노드 관리를 도와줄 수도 있으며, 실행 중인 컨테이너 플랫폼을 향상시키는 선택적 동작을 제공할 수도 있다.
잡(Job) 및 크론잡(CronJob)은 실행 완료 후 종료되는 태스크를 정의하는 서로 다른 방법을 제공한다. 잡을 사용해 단 한 번 실행되어 완료되는 태스크를 정의할 수 있다. 크론잡을 사용하면 동일한 잡을 일정에 따라 여러 번 실행할 수 있다.

더 넓은 쿠버네티스 에코시스템 내에서는 추가적인 동작을 제공하는 제 3자의 워크로드 리소스도 찾을 수 있다. 커스텀 리소스 데피니션을 사용하면, 쿠버네티스 코어에서 제공하지 않는 특별한 동작을 원하는 경우 제 3자의 워크로드 리소스를 추가할 수 있다. 예를 들어, 사용자 애플리케이션을 위한 파드의 그룹을 실행하되 모든 파드가 가용하지 않으면 작업을 멈추고 싶다면(아마도 높은 처리량의 분산 처리를 하는 상황 같은), 사용자는 해당 기능을 제공하는 확장을 구현하거나 설치할 수 있다.

워크로드 배치

기능 상태: Kubernetes v1.35 [alpha](disabled by default)

디플로이먼트(Deployment)나 잡(Job)과 같은 표준 워크로드 리소스가 파드의 라이프사이클을 관리하지만, 파드 그룹을 하나의 단위로 취급해야 하는 복잡한 스케줄링 요구사항이 있을 수 있다.

워크로드 API를 사용하면 파드 그룹을 정의하고 갱 스케줄링(gang scheduling)과 같은 고급 스케줄링 정책을 적용할 수 있다. 이는 "전부 아니면 전무(all-or-nothing)" 배치가 필요한 배치 처리 및 머신러닝 워크로드에 특히 유용하다.

다음 내용

워크로드 관리를 위한 각 API 종류(kind)에 대해 읽을 수 있을 뿐만 아니라, 특정 작업을 수행하는 방법도 확인할 수 있다.

디플로이먼트로 스테이트리스 애플리케이션 실행
스테이트풀(stateful) 애플리케이션을 단일 인스턴스 또는 복제된 세트로 실행
크론잡을 사용하여 자동화된 작업 실행

코드를 구성(configuration)에서 분리하는 쿠버네티스의 메커니즘을 배우기 위해서는, 구성을 참고하길 바란다.

다음은 쿠버네티스가 애플리케이션의 파드를 어떻게 관리하는지를 알 수 있게 해주는 두 가지 개념이다.

가비지(Garbage) 수집은 소유하는 리소스 가 제거된 후 클러스터에서 오브젝트를 정리한다.
time-to-live after finished 컨트롤러는 잡이 완료된 이후에 정의된 시간이 경과되면 잡을 제거한다.

일단 애플리케이션이 실행되면, 인터넷에서 서비스로 사용하거나, 웹 애플리케이션의 경우에만 인그레스(Ingress)를 이용하여 사용할 수 있다.

1 - 파드

파드(Pod) 는 쿠버네티스에서 생성하고 관리할 수 있는 배포 가능한 가장 작은 컴퓨팅 단위이다.

파드 (고래 떼나 완두콩 꼬투리처럼)는 하나 이상의 컨테이너의 그룹이다. 이 그룹은 스토리지 및 네트워크를 공유하고, 해당 컨테이너를 구동하는 방식에 대한 명세를 갖는다. 파드의 콘텐츠는 항상 함께 배치되고, 함께 스케줄되며, 공유 컨텍스트에서 실행된다. 파드는 애플리케이션 별 "논리 호스트"를 모델링한다. 여기에는 상대적으로 밀접하게 결합된 하나 이상의 애플리케이션 컨테이너가 포함된다. 클라우드가 아닌 컨텍스트에서, 동일한 물리 또는 가상 머신에서 실행되는 애플리케이션은 동일한 논리 호스트에서 실행되는 클라우드 애플리케이션과 비슷하다.

애플리케이션 컨테이너와 마찬가지로, 파드에는 파드 시작 중에 실행되는 초기화 컨테이너가 포함될 수 있다. 디버깅을 위해 실행중인 파드에 임시 컨테이너를 삽입할 수도 있다.

파드란 무엇인가?

참고:

클러스터의 각 노드에 컨테이너 런타임을 설치해야 노드에서 파드가 실행될 수 있다.

파드의 공유 컨텍스트는 리눅스 네임스페이스, 컨트롤 그룹(cgroups) 및 컨테이너를 격리하는 것과 같이 잠재적으로 다른 격리 요소들이다. 파드의 컨텍스트 내에서 개별 애플리케이션은 추가적으로 하위 격리가 적용된다.

파드는 공유 네임스페이스와 공유 파일시스템 볼륨이 있는 컨테이너들의 집합과 비슷하다.

쿠버네티스 클러스터의 파드는 크게 두 가지 방식으로 사용된다.

단일 컨테이너에서 실행되는 파드: "파드 당 컨테이너 1개(one-container-per-Pod)” 모델은 쿠버네티스에서 가장 흔한 사용 사례이다. 이 경우 파드는 단일 컨테이너를 감싸는 래퍼(wrapper)처럼 볼 수 있으며, 쿠버네티스는 컨테이너 자체가 아니라 파드를 관리한다.
함께 동작해야 하는 여러 컨테이너를 실행하는 파드: 파드는 서로 긴밀하게 결합되어 자원을 공유해야 하는 여러 개의 컨테이너로 구성된 애플리케이션을 캡슐화할 수 있다. 이렇게 함께 배치되고 공동 관리되는 컨테이너들은 하나의 응집력 있는 단위를 이룬다.
여러 개의 컨테이너를 하나의 파드 안에 두고 관리하여 그룹화하는 것은 상대적으로 고급 사용 사례이다. 컨테이너들이 긴밀히 결합되어 있는 특정한 상황에서만 이 패턴을 사용하는 것을 권장한다.
(복원성 또는 용량으로 인해) 복제를 제공하는 여러 컨테이너를 실행할 필요는 없다. 여러 복제가 필요하다면, 워크로드 관리를 참고한다.

파드의 사용

다음은 nginx:1.14.2 이미지를 실행하는 컨테이너로 구성되는 파드의 예시이다.

pods/simple-pod.yaml

apiVersion: v1
kind: Pod
metadata:
  name: nginx
spec:
  containers:
  - name: nginx
    image: nginx:1.14.2
    ports:
    - containerPort: 80

위에서 설명한 파드를 생성하려면, 다음 명령을 실행한다.

kubectl apply -f https://k8s.io/examples/pods/simple-pod.yaml

일반적으로 파드는 직접 생성하지는 않으며, 대신 워크로드 리소스를 사용하여 생성한다. 파드 작업 섹션에서 파드와 워크로드 리소스의 관계에 대한 더 많은 정보를 확인한다.

파드를 관리하기 위한 워크로드 리소스

일반적으로 싱글톤(singleton) 파드를 포함하여 파드를 직접 만들 필요가 없다. 대신, 디플로이먼트(Deployment) 또는 잡(Job)과 같은 워크로드 리소스를 사용하여 생성한다. 파드가 상태를 추적해야 한다면, 스테이트풀셋(StatefulSet) 리소스를 고려하자.

각 파드는 특정 애플리케이션의 단일 인스턴스를 실행하기 위한 것이다. 더 많은 인스턴스를 실행하여 더 많은 전체 리소스를 제공하기 위해 애플리케이션을 수평적으로 확장하려면, 각 인스턴스에 하나씩, 여러 파드를 사용해야 한다. 쿠버네티스에서는 이를 일반적으로 레플리케이션 이라고 한다. 복제된 파드는 일반적으로 워크로드 리소스와 해당 컨트롤러에 의해 그룹으로 생성되고 관리된다.

쿠버네티스가 워크로드 리소스와 해당 컨트롤러를 사용하여 애플리케이션 스케일링과 자동 복구를 구현하는 방법에 대한 자세한 내용은 파드와 컨트롤러를 참고한다.

파드는 기본적으로 파드에 속한 컨테이너에 네트워킹과 스토리지라는 두 가지 종류의 공유 리소스를 제공한다.

파드 작업

사용자가 쿠버네티스에서 직접 개별 파드를 만드는 경우는 거의 없다. 싱글톤 파드도 마찬가지이다. 이는 파드가 상대적으로 일시적인, 일회용 엔티티로 설계되었기 때문이다. 파드가 생성될 때(사용자가 직접 또는 컨트롤러가 간접적으로), 새 파드는 클러스터의 노드에서 실행되도록 스케줄된다. 파드는 파드 실행이 완료되거나, 파드 오브젝트가 삭제되거나, 리소스 부족으로 인해 파드가 축출 되거나, 노드가 실패할 때까지 해당 노드에 남아있다.

참고:

파드에서 컨테이너를 다시 시작하는 것과 파드를 다시 시작하는 것을 혼동해서는 안된다. 파드는 프로세스가 아니라, 하나 이상의 컨테이너를 실행하기 위한 환경이다. 파드는 삭제될 때까지 유지된다.

파드의 이름은 반드시 유효한 DNS 서브도메인 이름을 가져야한다. 그렇지 않으면, 파드 호스트네임에 예상지 못한 결과가 생길 수도 있다. 최고의 호환성을 위해, 이름은 DNS 레이블의 더욱 제한적인 조건을 따라야한다.

파드 OS

기능 상태: Kubernetes v1.25 [stable]

.spec.os.name 필드는 파드를 실행하고자 하는 운영체제를 나타내기 위해 windows 또는 linux로 설정해야 한다. 현재 쿠버네티스에서 지원되는 운영체제는 이 두가지이다. 향후 이 목록이 확장될 수 있다.

쿠버네티스 v1.35에서, .spec.os.name 값은 kube-scheduler가 파드를 어떤 노드에 스케줄링하는지에 결정하는 것에 영향을 주지 않는다. 서로 다른 운영체제를 실행하는 노드가 있는 클러스터라면, kubernetes.io/os레이블을 각 노드에 올바르게 지정해야 하고, 운영체제 레이블을 기반으로 파드의 nodeSelector를 정의해야 한다. kube-scheduler는 다른 기준을 바탕으로 파드를 노드에 할당하는데, 파드 내의 컨테이너에 맞는 OS를 갖는 적절한 노드를 선택하는 데 성공할 수도 있고 실패할 수도 있다. 파드 시큐리티 스탠다드 또한 이 필드를 사용하여 해당 운영체제와 관련이 없는 정책이 적용되지 않도록 한다.

파드와 컨트롤러

워크로드 리소스를 사용하여 여러 파드를 만들고 관리할 수 있다. 리소스에 대한 컨트롤러는 파드 장애 시 복제 및 롤아웃과 자동 복구를 처리한다. 예를 들어, 노드가 실패하면, 컨트롤러는 해당 노드의 파드가 작동을 중지했음을 인식하고 대체 파드를 생성한다. 스케줄러는 대체 파드를 정상 노드에 배치한다.

다음은 하나 이상의 파드를 관리하는 워크로드 리소스의 몇 가지 예시이다.

파드 템플릿

워크로드 리소스에 대한 컨트롤러는 파드 템플릿 에서 파드를 생성하고 사용자 대신 해당 파드를 관리한다.

파드템플릿(PodTemplate)은 파드를 생성하기 위한 명세이며, 디플로이먼트, 잡 및 데몬셋과 같은 워크로드 리소스에 포함된다.

워크로드 리소스의 각 컨트롤러는 워크로드 오브젝트 내부의 PodTemplate 을 사용하여 실제 파드를 생성한다. PodTemplate 은 앱을 실행하는 데 사용되는 워크로드 리소스가 무엇이든지 원하는 상태의 일부이다.

파드를 생성할 때, 파드 내에서 실행되는 컨테이너를 위해 파드 템플릿에서 환경 변수를 선택할 수 있다.

아래 샘플은 하나의 컨테이너를 시작하는 template 이 있는 간단한 잡의 매니페스트이다. 해당 파드의 컨테이너는 메시지를 출력한 다음 일시 중지한다.

apiVersion: batch/v1
kind: Job
metadata:
  name: hello
spec:
  template:
    # 여기서부터 파드 템플릿이다
    spec:
      containers:
      - name: hello
        image: busybox:1.28
        command: ['sh', '-c', 'echo "Hello, Kubernetes!" && sleep 3600']
      restartPolicy: OnFailure
    # 여기까지 파드 템플릿이다

파드 템플릿을 수정하거나 새로운 파드 템플릿으로 바꿔도 이미 존재하는 파드에는 직접적인 영향을 주지 않는다. 워크로드 리소스의 파드 템플릿을 변경하는 경우, 해당 리소스는 수정된 템플릿을 사용하는 대체 파드를 생성해야 한다.

예를 들어, 스테이트풀셋 컨트롤러는 실행 중인 파드가 각 스테이트풀셋 오브젝트에 대한 현재 파드 템플릿과 일치하는지 확인한다. 스테이트풀셋을 수정하여 파드 템플릿을 변경하면, 스테이트풀셋이 업데이트된 템플릿을 기반으로 새로운 파드를 생성하기 시작한다. 결국, 모든 이전의 파드가 새로운 파드로 교체되고, 업데이트가 완료된다.

각 워크로드 리소스는 파드 템플릿의 변경 사항을 처리하기 위한 자체 규칙을 구현한다. 스테이트풀셋에 대해 자세히 알아 보려면, 스테이트풀셋 기본 튜토리얼에서 업데이트 전략을 읽어본다.

노드에서 kubelet은 파드 템플릿과 업데이트에 대한 상세 정보를 직접 관찰하거나 관리하지 않는다. 이러한 상세 내용은 추상화된다. 이러한 추상화와 관심사 분리(separation of concerns)는 시스템 시맨틱을 단순화하고, 기존 코드를 변경하지 않고도 클러스터의 동작을 확장할 수 있게 한다.

파드 갱신 및 교체

이전 섹션에서 언급한 바와 같이, 워크로드 리소스의 파드 템플릿이 바뀌면, 컨트롤러는 기존의 파드를 갱신하거나 패치하는 대신 갱신된 템플릿을 기반으로 신규 파드를 생성한다.

쿠버네티스는 사용자가 파드를 직접 관리하는 것을 막지는 않는다. 동작 중인 파드의 필드를 갱신하는 것도 가능하다. 그러나, patch 및 replace와 같은 파드 갱신 작업에는 다음과 같은 제약이 있다.

파드에 대한 대부분의 메타데이터는 불변(immutable)이다. 예를 들면, 사용자는 namespace, name, uid, 또는 creationTimestamp 필드를 변경할 수 없다.
metadata.deletionTimestamp 가 설정된 경우, metadata.finalizers 리스트에 새로운 항목이 추가될 수 없다.
파드 갱신은 spec.containers[*].image, spec.initContainers[*].image, spec.activeDeadlineSeconds, spec.terminationGracePeriodSeconds, spec.tolerations, 또는 spec.schedulingGates 이외의 필드는 변경할 수 없다. spec.tolerations 에 대해서만 새로운 항목을 추가할 수 있다.
spec.activeDeadlineSeconds 필드를 추가할 때는, 다음의 두 가지 형태의 갱신만 허용한다.
1. 지정되지 않은 필드를 양수로 설정;
2. 필드의 양수를 음수가 아닌 더 작은 숫자로 갱신.

파드 서브리소스(Pod subresources)

앞서 설명한 업데이트 규칙은 일반적인 파드 업데이트에 적용되지만, _서브리소스_를 통해 업데이트할 수 있는 다른 파드 필드도 있다.

리사이즈(Resize): resize 서브리소스를 사용하면 컨테이너 리소스(spec.containers[*].resources)를 업데이트할 수 있다. 자세한 내용은 컨테이너 리소스 리사이즈를 참고한다.
임시 컨테이너(Ephemeral Containers): ephemeralContainers 서브리소스를 사용하면 임시 컨테이너를 파드에 추가할 수 있다. 자세한 내용은 임시 컨테이너를 참고한다.
상태(Status): status 서브리소스를 사용하면 파드 상태를 업데이트할 수 있다. 이 서브리소스는 일반적으로 Kubelet과 다른 시스템 컨트롤러에서만 사용한다.
바인딩(Binding): binding 서브리소스를 사용하면 Binding 요청을 통해 파드의 spec.nodeName을 설정할 수 있다. 이 서브리소스는 일반적으로 스케줄러에서만 사용한다.

파드 세대(Pod generation)

metadata.generation 필드는 고유하다. 시스템에서 자동으로 설정되며, 새 파드의 metadata.generation 값은 1이 된다. 파드 스펙의 변경 가능한 필드가 업데이트될 때마다 metadata.generation 값이 1씩 증가한다.

기능 상태: Kubernetes v1.35 [stable](enabled by default)

observedGeneration은 파드 객체의 status 섹션에 기록되는 필드이다. PodObservedGenerationTracking 기능 게이트가 설정되어 있으면, Kubelet이 파드 상태를 현재 파드 상태와 동기화하기 위해 status.observedGeneration을 설정한다. 파드의 status.observedGeneration은 상태가 보고되는 시점의 metadata.generation을 반영한다.

참고:

status.observedGeneration 필드는 kubelet에서 관리하며 외부 컨트롤러는 이 필드를 수정하지 않아야 한다.

상태 필드는 현재 동기 루프(sync loop)의 metadata.generation과 연결될 수도 있고, 이전 동기 루프의 metadata.generation과 연결될 수도 있다. 핵심 차이는 spec의 변경이 status에 직접 반영되는지, 아니면 실행 중인 프로세스의 간접적인 결과인지에 있다.

직접적인 상태 업데이트(Direct Status Updates)

할당된 스펙이 직접적으로 반영되는 상태 필드의 경우,
observedGeneration은 현재 metadata.generation(Generation N)과 연결된다.

이 동작은 다음과 같은 경우에 적용한다.

리사이즈 상태(Resize Status): 리소스 리사이즈 작업의 상태이다.
할당된 리소스(Allocated Resources): 리사이즈 이후 파드에 할당된 리소스이다.
임시 컨테이너(Ephemeral Containers): 새 임시 컨테이너가 추가되어 Waiting 상태일 때이다.

간접적인 상태 업데이트(Indirect Status Updates)

실행 중인 스펙의 결과로 간접적으로 반영되는 상태 필드의 경우,
observedGeneration은 이전 동기 루프의 metadata.generation(Generation N-1)과 연결된다.

이 동작은 다음과 같은 경우에 적용한다.

컨테이너 이미지: ContainerStatus.ImageID는 새 이미지가 풀(pull) 되고 컨테이너가 업데이트되기 전까지 이전 세대의 이미지를 반영한다.
실제 리소스: 리사이즈가 진행 중일 때, 실제 사용 중인 리소스는 이전 세대의 요청에 해당한다.
컨테이너 상태: 리사이즈가 진행 중이고 재시작 정책이 필요한 경우, 이전 세대의
요청을 반영한다.
activeDeadlineSeconds & terminationGracePeriodSeconds &deletionTimestamp: 이 필드들이 파드 상태에 미치는 효과는 이전에 관찰된 스펙의 결과이다.

리소스 공유와 통신

파드는 파드에 속한 컨테이너 간의 데이터 공유와 통신을 지원한다.

파드 스토리지

파드는 공유 스토리지 볼륨의 집합을 지정할 수 있다. 파드의 모든 컨테이너는 공유 볼륨에 접근할 수 있으므로, 해당 컨테이너가 데이터를 공유할 수 있다. 또한 볼륨은 내부 컨테이너 중 하나를 다시 시작해야 하는 경우 파드의 영구 데이터를 유지하도록 허용한다. 쿠버네티스가 공유 스토리지를 구현하고 파드에서 사용할 수 있도록 하는 방법에 대한 자세한 내용은 스토리지를 참고한다.

파드 네트워킹

각 파드에는 각 주소 패밀리에 대해 고유한 IP 주소가 할당된다. 파드의 모든 컨테이너는 네트워크 네임스페이스를 공유하며, 여기에는 IP 주소와 네트워크 포트가 포함된다. 파드 내부(이 경우에 만 해당)에서, 파드에 속한 컨테이너는 localhost 를 사용하여 서로 통신할 수 있다. 파드의 컨테이너가 파드 외부의 엔티티와 통신할 때, 공유 네트워크 리소스(포트와 같은)를 사용하는 방법을 조정해야 한다. 파드 내에서 컨테이너는 IP 주소와 포트 공간을 공유하며, localhost 를 통해 서로를 찾을 수 있다. 파드의 컨테이너는 SystemV 세마포어 또는 POSIX 공유 메모리와 같은 표준 프로세스 간 통신을 사용하여 서로 통신할 수도 있다. 다른 파드의 컨테이너는 고유한 IP 주소를 가지며 특별한 구성 없이 OS 수준의 IPC로 통신할 수 없다. 다른 파드에서 실행되는 컨테이너와 상호 작용하려는 컨테이너는 IP 네트워킹을 사용하여 통신할 수 있다.

파드 내의 컨테이너는 시스템 호스트명이 파드에 대해 구성된 name 과 동일한 것으로 간주한다. 네트워킹 섹션에 이에 대한 자세한 내용이 있다.

파드 보안 설정

파드와 컨테이너에 보안 제약을 설정하려면 파드 명세의 securityContext 필드를 사용한다. 이 필드를 사용하면 파드나 개별 컨테이너가 할 수 있는 작업을 세밀하게 제어할 수 있다. 예를 들어,

특정 리눅스 capabilities를 제거하여 CVE의 영향을 피한다.
파드의 모든 프로세스를 루트가 아닌 사용자 또는 특정 사용자나 그룹 ID로 실행하도록 강제한다.
특정 seccomp 프로파일을 설정한다.
윈도우 보안 옵션을 설정한다. 예를 들어, 컨테이너를 HostProcess로 실행할지 여부를 지정한다.

주의:

파드의 securityContext를 사용해 리눅스 컨테이너에서
특권(privileged) 모드를 활성화할 수도 있다. 특권 모드는 securityContext의 다른 많은 보안 설정을 무시한다. 이 설정은 securityContext의 다른 필드로 동등한 권한을 부여할 수 없을 때를 제외하고는 사용하지 않는 것이 좋다.
쿠버네티스 1.26 이상에서는 파드 명세의 securityContext에서 windowsOptions.hostProcess 플래그를 설정하여
윈도우 컨테이너를 유사한 특권 모드로 실행할 수 있다. 자세한 내용과 사용 방법은 윈도우 호스트 프로세스 파드 생성을 참고한다.

사용 가능한 커널 수준 보안 제약에 대해 알아보려면,
파드와 컨테이너를 위한 리눅스 커널 보안 제약을 참고한다.
파드 보안 컨텍스트에 대해 더 알아보려면,
파드 또는 컨테이너 보안 컨텍스트 구성하기를 참고한다.

정적 파드

정적 파드 는 API 서버가 관찰하는 대신 특정 노드의 kubelet 데몬에 의해 직접 관리된다. 대부분의 파드는 컨트롤 플레인(예를 들어, 디플로이먼트)에 의해 관리되고, 정적 파드의 경우, kubelet이 각 정적 파드를 직접 감독한다(실패하면 다시 시작한다).

정적 파드는 항상 특정 노드의 Kubelet 하나에 바인딩된다. 정적 파드의 주요 용도는 자체 호스팅 컨트롤 플레인을 실행하는 것이다. 즉, kubelet을 사용하여 개별 컨트롤 플레인 컴포넌트를 감독한다.

kubelet은 자동으로 각 정적 파드에 대한 쿠버네티스 API 서버에서 미러 파드를 생성하려고 한다. 즉, 노드에서 실행되는 파드는 API 서버에서 보이지만, 여기에서 제어할 수는 없다는 의미이다. 자세한 내용은 스태틱(static) 파드 생성을 참고한다.

참고:

스태틱 파드의 스펙(spec)은 다른 API 오브젝트 (예를 들면, , , , 등)가 참조할 수 없다.

여러 컨테이너를 가진 파드

상호 협력하는 여러 프로세스(컨테이너 형태)를 지원하도록 설계되어 있으며, 하나의 응집력 있는 서비스 단위를 형성한다. 파드의 컨테이너는 클러스터 내 동일한 물리적 또는 가상 머신에 자동으로 함께 배치되고, 함께 스케줄링된다. 컨테이너는 리소스와 종속성을 공유할 수 있고, 서로 통신할 수 있으며, 종료 시점과 방식을 조율할 수 있다.

쿠버네티스 클러스터에서 파드는 다음 두 가지 주요 방식으로 사용한다.

단일 컨테이너를 실행하는 파드: "파드 당 컨테이너 1개(one-container-per-Pod)" 모델은 가장 일반적인 쿠버네티스 사용 사례이다. 이 경우 파드는 단일 컨테이너를 감싸는 래퍼로 볼 수 있으며, 쿠버네티스는 컨테이너 자체가 아니라 파드를 관리한다.
여러 컨테이너가 함께 동작해야 하는 파드: 파드는 밀접하게 연결되고 리소스를 공유해야 하는 여러 개의 컨테이너로 구성된 애플리케이션을 캡슐화할 수 있다. 이러한 컨테이너들은 하나의 응집력 있는 서비스 단위를 형성한다. 예를 들어, 하나의 컨테이너가 공유 볼륨에 저장된 데이터를 외부로 제공하고, 다른 사이드카 컨테이너가 해당 파일을 갱신하거나 업데이트하는 방식이다. 파드는 이러한 컨테이너, 스토리지 리소스, 임시 네트워크 식별자를 하나의 단위로 묶는다.

예를 들어, 웹 서버 역할의 한 컨테이너가 공유 볼륨에 있는 파일을 제공하고, 별도의 사이드카 컨테이너가 원격 소스에서 해당 파일을 업데이트하는 경우가 있다. 이는 다음 다이어그램과 같다.

일부 파드에는 애플리케이션 컨테이너 뿐 아니라 초기화 컨테이너도 있다.
기본적으로 초기화 컨테이너는 애플리케이션 컨테이너가 시작되기 전에 실행되고 완료된다.

또한 사이드카 컨테이너를 두어, 메인 애플리케이션 파드에 보조 서비스를 제공할 수도 있다(예: 서비스 메시).

기능 상태: Kubernetes v1.33 [stable](enabled by default)

SidecarContainers 기능 게이트는 기본적으로 활성화되어 있다.
이 기능을 사용하면 초기화 컨테이너에 restartPolicy: Always를 지정할 수 있다.
Always 재시작 정책을 설정하면 쿠버네티스가 해당 초기화 컨테이너를 _사이드카_로 취급하여 파드 전체 수명 동안 계속 실행되도록 한다. 명시적으로 사이드카 컨테이너로 정의된 컨테이너는 메인 애플리케이션 파드보다 먼저 시작되고, 파드가 종료될 때까지 계속 실행된다.

컨테이너 프로브

_프로브_는 컨테이너의 kubelet에 의해 주기적으로 실행되는 진단이다. 진단을 수행하기 위하여 kubelet은 다음과 같은 작업을 호출할 수 있다.

ExecAction (컨테이너 런타임의 도움을 받아 수행)
TCPSocketAction (kubelet에 의해 직접 검사)
HTTPGetAction (kubelet에 의해 직접 검사)

프로브에 대한 자세한 내용은 파드 라이프사이클 문서를 참고한다.

다음 내용

파드의 라이프사이클에 대해 알아본다.
런타임클래스(RuntimeClass)와 이를 사용하여 다양한 컨테이너 런타임 구성으로 다양한 파드를 설정하는 방법에 대해 알아본다.
PodDisruptionBudget과 이를 사용하여 서비스 중단 중에 애플리케이션 가용성을 관리하는 방법에 대해 읽어본다.
파드는 쿠버네티스 REST API의 최상위 리소스이다. Pod 오브젝트 정의는 오브젝트를 상세히 설명한다.
분산 시스템 툴킷: 컴포지트 컨테이너에 대한 패턴은 둘 이상의 컨테이너가 있는 파드의 일반적인 레이아웃을 설명한다.
파드 토폴로지 분배 제약 조건에 대해 읽어본다.

쿠버네티스가 다른 리소스(스테이트풀셋이나 디플로이먼트와 같은)에서 공통 파드 API를 래핑하는 이유에 대한 컨텍스트를 이해하고자 한다면, 다음과 같은 선행 기술에 대해 읽어보자.

1.1 - 파드 라이프사이클

이 페이지에서는 파드의 라이프사이클을 설명한다. 파드는 정의된 라이프사이클을 따른다. Pending 단계에서 시작해서, 기본 컨테이너 중 적어도 하나 이상이 OK로 시작하면 Running 단계를 통과하고, 그런 다음 파드의 컨테이너가 실패로 종료되었는지 여부에 따라 Succeeded 또는 Failed 단계로 이동한다.

파드가 실행되는 동안, kubelet은 일종의 오류를 처리하기 위해 컨테이너를 다시 시작할 수 있다. 파드 내에서, 쿠버네티스는 다양한 컨테이너 상태를 추적하고 파드를 다시 정상 상태로 만들기 위해 취할 조치를 결정한다.

쿠버네티스 API에서 파드는 명세와 실제 상태를 모두 가진다. 파드 오브젝트의 상태는 일련의 파드 컨디션으로 구성된다. 사용자의 애플리케이션에 유용한 경우, 파드의 컨디션 데이터에 사용자 정의 준비성 정보를 삽입할 수도 있다.

파드는 파드의 수명 중 한 번만 스케줄된다. 파드가 노드에 스케줄(할당)되면, 파드는 중지되거나 종료될 때까지 해당 노드에서 실행된다.

파드의 수명

개별 애플리케이션 컨테이너와 마찬가지로, 파드는 비교적 임시(계속 이어지는 것이 아닌) 엔티티로 간주된다. 파드가 생성되고, 고유 ID(UID)가 할당되고, 종료(재시작 정책에 따라) 또는 삭제될 때까지 남아있는 노드에 스케줄된다. 만약 노드가 종료되면, 해당 노드에 스케줄된 파드는 타임아웃 기간 후에 삭제되도록 스케줄된다.

파드는 자체적으로 자가 치유되지 않는다. 파드가 노드에 스케줄된 후에 해당 노드가 실패하면, 파드는 삭제된다. 마찬가지로, 파드는 리소스 부족 또는 노드 유지 관리 작업으로 인한 축출에서 살아남지 못한다. 쿠버네티스는 컨트롤러라 부르는 하이-레벨 추상화를 사용하여 상대적으로 일회용인 파드 인스턴스를 관리하는 작업을 처리한다.

UID로 정의된 특정 파드는 다른 노드로 절대 "다시 스케줄"되지 않는다. 대신, 해당 파드는 사용자가 원한다면 이름은 같지만, UID가 다른, 거의 동일한 새 파드로 대체될 수 있다.

볼륨과 같은 어떤 것이 파드와 동일한 수명을 갖는다는 것은, 특정 파드(정확한 UID 포함)가 존재하는 한 그것이 존재함을 의미한다. 어떤 이유로든 해당 파드가 삭제되고, 동일한 대체 파드가 생성되더라도, 관련된 그것(이 예에서는 볼륨)도 폐기되고 새로 생성된다.

컨테이너 간의 공유 스토리지에 퍼시스턴트 볼륨을 사용하는 웹 서버와 파일 풀러(puller)가 포함된 다중 컨테이너 파드이다.

파드의 단계

파드의 status 필드는 phase 필드를 포함하는 PodStatus 오브젝트로 정의된다.

파드의 phase는 파드가 라이프사이클 중 어느 단계에 해당하는지 표현하는 간단한 고수준의 요약이다. Phase는 컨테이너나 파드의 관측 정보에 대한 포괄적인 롤업이나, 포괄적인 상태 머신을 표현하도록 의도되지는 않았다.

파드 phase 값에서 숫자와 의미는 엄격하게 지켜진다. 여기에 문서화된 내용 이외에는, 파드와 파드에 주어진 phase 값에 대해서 어떤 사항도 가정되어서는 안 된다.

phase에 가능한 값은 다음과 같다.

값	의미
`Pending`	파드가 쿠버네티스 클러스터에서 승인되었지만, 하나 이상의 컨테이너가 설정되지 않았고 실행할 준비가 되지 않았다. 여기에는 파드가 스케줄되기 이전까지의 시간 뿐만 아니라 네트워크를 통한 컨테이너 이미지 다운로드 시간도 포함된다.
`Running`	파드가 노드에 바인딩되었고, 모든 컨테이너가 생성되었다. 적어도 하나의 컨테이너가 아직 실행 중이거나, 시작 또는 재시작 중에 있다.
`Succeeded`	파드에 있는 모든 컨테이너들이 성공적으로 종료되었고, 재시작되지 않을 것이다.
`Failed`	파드에 있는 모든 컨테이너가 종료되었고, 적어도 하나 이상의 컨테이너가 실패로 종료되었다. 즉, 해당 컨테이너는 non-zero 상태로 빠져나왔거나(exited) 시스템에 의해서 종료(terminated)되었다.
`Unknown`	어떤 이유에 의해서 파드의 상태를 얻을 수 없다. 이 단계는 일반적으로 파드가 실행되어야 하는 노드와의 통신 오류로 인해 발생한다.

참고:

파드가 삭제될 때, 일부 kubectl 커맨드에서 Terminating 이 표시된다. 이 Terminating 상태는 파드의 단계에 해당하지 않는다. 파드에는 그레이스풀하게(gracefully) 종료되도록 기간이 부여되며, 그 기본값은 30초이다. 강제로 파드를 종료하려면 --force 플래그를 설정하면 된다.

노드가 죽거나 클러스터의 나머지와의 연결이 끊어지면, 쿠버네티스는 손실된 노드의 모든 파드의 phase 를 Failed로 설정하는 정책을 적용한다.

컨테이너 상태

전체 파드의 단계뿐 아니라, 쿠버네티스는 파드 내부의 각 컨테이너 상태를 추적한다. 컨테이너 라이프사이클 훅(hook)을 사용하여 컨테이너 라이프사이클의 특정 지점에서 실행할 이벤트를 트리거할 수 있다.

일단 스케줄러가 노드에 파드를 할당하면, kubelet은 컨테이너 런타임을 사용하여 해당 파드에 대한 컨테이너 생성을 시작한다. 표시될 수 있는 세 가지 컨테이너 상태는 Waiting, Running 그리고 Terminated 이다.

파드의 컨테이너 상태를 확인하려면, kubectl describe pod <name-of-pod> 를 사용할 수 있다. 출력 결과는 해당 파드 내의 각 컨테이너 상태가 표시된다.

각 상태에는 특정한 의미가 있다.

`Waiting`

만약 컨테이너가 Running 또는 Terminated 상태가 아니면, Waiting 상태이다. Waiting 상태의 컨테이너는 시작을 완료하는 데 필요한 작업(예를 들어, 컨테이너 이미지 레지스트리에서 컨테이너 이미지 가져오거나, 시크릿(Secret) 데이터를 적용하는 작업)을 계속 실행하고 있는 중이다. kubectl 을 사용하여 컨테이너가 Waiting 인 파드를 쿼리하면, 컨테이너가 해당 상태에 있는 이유를 요약하는 Reason 필드도 표시된다.

`Running`

Running 상태는 컨테이너가 문제없이 실행되고 있음을 나타낸다. postStart 훅이 구성되어 있었다면, 이미 실행되고 완료되었다. kubectl 을 사용하여 컨테이너가 Running 인 파드를 쿼리하면, 컨테이너가 Running 상태에 진입한 시기에 대한 정보도 볼 수 있다.

`Terminated`

Terminated 상태의 컨테이너는 실행을 시작한 다음 완료될 때까지 실행되었거나 어떤 이유로 실패했다. kubectl 을 사용하여 컨테이너가 Terminated 인 파드를 쿼리하면, 이유와 종료 코드 그리고 해당 컨테이너의 실행 기간에 대한 시작과 종료 시간이 표시된다.

컨테이너에 구성된 preStop 훅이 있는 경우, 이 혹은 컨테이너가 Terminated 상태에 들어가기 전에 실행된다.

컨테이너 재시작 정책

파드의 spec 에는 restartPolicy 필드가 있다. 사용 가능한 값은 Always, OnFailure 그리고 Never이다. 기본값은 Always이다.

restartPolicy 는 파드의 모든 컨테이너에 적용된다. restartPolicy 는 동일한 노드에서 kubelet에 의한 컨테이너 재시작만을 의미한다. 파드의 컨테이너가 종료된 후, kubelet은 5분으로 제한되는 지수 백오프 지연(10초, 20초, 40초, …)으로 컨테이너를 재시작한다. 컨테이너가 10분 동안 아무런 문제없이 실행되면, kubelet은 해당 컨테이너의 재시작 백오프 타이머를 재설정한다.

파드의 컨디션

파드는 하나의 PodStatus를 가지며, 그것은 파드가 통과했거나 통과하지 못한 PodConditions 배열을 가진다. kubelet은 다음 PodConditions를 관리한다.

PodScheduled: 파드가 노드에 스케줄되었다.
PodHasNetwork: (알파 기능; 반드시 명시적으로 활성화해야 함) 샌드박스가 성공적으로 생성되고 네트워킹이 구성되었다.
ContainersReady: 파드의 모든 컨테이너가 준비되었다.
Initialized: 모든 초기화 컨테이너가 성공적으로 완료(completed)되었다.
Ready: 파드는 요청을 처리할 수 있으며 일치하는 모든 서비스의 로드 밸런싱 풀에 추가되어야 한다.

필드 이름	설명
`type`	이 파드 컨디션의 이름이다.
`status`	가능한 값이 "`True`", "`False`", 또는 "`Unknown`"으로, 해당 컨디션이 적용 가능한지 여부를 나타낸다.
`lastProbeTime`	파드 컨디션이 마지막으로 프로브된 시간의 타임스탬프이다.
`lastTransitionTime`	파드가 한 상태에서 다른 상태로 전환된 마지막 시간에 대한 타임스탬프이다.
`reason`	컨디션의 마지막 전환에 대한 이유를 나타내는 기계가 판독 가능한 UpperCamelCase 텍스트이다.
`message`	마지막 상태 전환에 대한 세부 정보를 나타내는 사람이 읽을 수 있는 메시지이다.

파드의 준비성(readiness)

기능 상태: Kubernetes v1.14 [stable]

애플리케이션은 추가 피드백 또는 신호를 PodStatus: Pod readiness 와 같이 주입할 수 있다. 이를 사용하기 위해, kubelet이 파드의 준비성을 평가하기 위한 추가적인 컨디션들을 파드의 spec 내 readinessGate 필드를 통해서 지정할 수 있다.

준비성 게이트는 파드에 대한 status.condition 필드의 현재 상태에 따라 결정된다. 만약 쿠버네티스가 status.conditions 필드에서 해당하는 컨디션을 찾지 못한다면, 그 컨디션의 상태는 기본 값인 "False"가 된다.

여기 예제가 있다.

kind: Pod
...
spec:
  readinessGates:
    - conditionType: "www.example.com/feature-1"
status:
  conditions:
    - type: Ready                              # 내장된 PodCondition이다
      status: "False"
      lastProbeTime: null
      lastTransitionTime: 2018-01-01T00:00:00Z
    - type: "www.example.com/feature-1"        # 추가적인 PodCondition
      status: "False"
      lastProbeTime: null
      lastTransitionTime: 2018-01-01T00:00:00Z
  containerStatuses:
    - containerID: docker://abcd...
      ready: true
...

추가하는 파드 상태에는 쿠버네티스 레이블 키 포맷을 충족하는 이름이 있어야 한다.

파드 준비성 상태

kubectl patch 명령어는 아직 오브젝트 상태 패치(patching)를 지원하지 않는다. 이러한 status.conditions 을 파드에 설정하려면 애플리케이션과 오퍼레이터의 PATCH 액션을 필요로 한다. 쿠버네티스 클라이언트 라이브러리를 사용해서 파드 준비성에 대한 사용자 지정 파드 컨디션을 설정하는 코드를 작성할 수 있다.

사용자 지정 컨디션을 사용하는 파드의 경우, 다음 두 컨디션이 모두 적용되는 경우에 만 해당 파드가 준비된 것으로 평가된다.

파드 내의 모든 컨테이너들이 준비 상태이다.
readinessGates에 지정된 모든 컨디션들이 True 이다.

파드의 컨테이너가 Ready 이나 적어도 한 개의 사용자 지정 컨디션이 빠졌거나 False 이면, kubelet은 파드의 컨디션을 ContainerReady 로 설정한다.

파드 네트워크 준비성(readiness)

기능 상태: Kubernetes v1.25 [alpha]

파드가 노드에 스케줄링되면, kubelet이 이 파드를 승인해야 하고 모든 볼륨이 마운트되어야 한다. 이러한 단계가 완료되면 kubelet은 (컨테이너 런타임 인터페이스(CRI) (원문, Container Runtime Interface (CRI))를 사용하여) 컨테이너 런타임과 통신하여 런타임 샌드박스를 설정하고 파드에 대한 네트워킹을 구성한다. 만약 PodHasNetworkCondition 기능 게이트가 활성화되면, Kubelet은 파드의 status.conditions 필드에 있는 PodHasNetwork 컨디션을 통해 파드가 초기화 마일스톤에 도달했는지 여부를 보고한다.

Kubelet이 파드에 네트워킹이 구성된 런타임 샌드박스가 없음을 탐지했을 때 PodHasNetwork 컨디션은 False로 설정된다. 이것은 다음 시나리오에서 발생한다.

파드 라이프사이클 초기에, kubelet이 컨테이너 런타임을 사용하여 파드를 위한 샌드박스 생성을 아직 시작하지 않은 때.
파드 라이프사이클 후기에, 파드 샌드박스가 다음중 하나의 이유로 파괴되었을 때.
- 파드 축출 없이, 노드가 재부팅됨
- 격리를 위해 가상 머신을 사용하는 컨테이너 런타임을 사용하는 경우, 파드 샌드박스 가상 머신이 재부팅됨(이후, 새로운 샌드박스 및 새로운 컨테이너 네트워크 구성 생성이 필요함)

런타임 플러그인이 파드를 위한 샌드박스 생성 및 네트워크 구성을 성공적으로 완료하면 kubelet이 PodHasNetwork 컨디션을 True로 설정한다. PodHasNetwork 컨디션이 True로 설정되면 kubelet이 컨테이너 이미지를 풀링하고 컨테이너를 생성할 수 있다.

초기화 컨테이너가 있는 파드의 경우, kubelet은 초기화 컨테이너가 성공적으로 완료(런타임 플러그인에 의한 성공적인 샌드박스 생성 및 네트워크 구성이 완료되었음을 의미)된 후 Initialized 컨디션을 True로 설정한다. 초기화 컨테이너가 없는 파드의 경우, kubelet은 샌드박스 생성 및 네트워크 구성이 시작되기 전에 Initialized 컨디션을 True로 설정한다.

컨테이너 프로브(probe)

프로브 는 컨테이너에서 kubelet에 의해 주기적으로 수행되는 진단(diagnostic)이다. 진단을 수행하기 위해서, kubelet은 컨테이너 안에서 코드를 실행하거나, 또는 네트워크 요청을 전송한다.

체크 메커니즘

프로브를 사용하여 컨테이너를 체크하는 방법에는 4가지가 있다. 각 프로브는 다음의 4가지 메커니즘 중 단 하나만을 정의해야 한다.

exec: 컨테이너 내에서 지정된 명령어를 실행한다. 명령어가 상태 코드 0으로 종료되면 진단이 성공한 것으로 간주한다.
grpc: gRPC를 사용하여 원격 프로시저 호출을 수행한다. 체크 대상이 gRPC 헬스 체크를 구현해야 한다. 응답의 status 가 SERVING 이면 진단이 성공했다고 간주한다. gRPC 프로브는 알파 기능이며 GRPCContainerProbe 기능 게이트를 활성화해야 사용할 수 있다.
httpGet: 지정한 포트 및 경로에서 컨테이너의 IP주소에 대한 HTTP GET 요청을 수행한다. 응답의 상태 코드가 200 이상 400 미만이면 진단이 성공한 것으로 간주한다.
tcpSocket: 지정된 포트에서 컨테이너의 IP주소에 대해 TCP 검사를 수행한다. 포트가 활성화되어 있다면 진단이 성공한 것으로 간주한다. 원격 시스템(컨테이너)가 연결을 연 이후 즉시 닫는다면, 이 또한 진단이 성공한 것으로 간주한다.

프로브 결과

각 probe는 다음 세 가지 결과 중 하나를 가진다.

Success: 컨테이너가 진단을 통과함.
Failure: 컨테이너가 진단에 실패함.
Unknown: 진단 자체가 실패함(아무런 조치를 수행해서는 안 되며, kubelet이 추가 체크를 수행할 것이다)

프로브 종류

kubelet은 실행 중인 컨테이너들에 대해서 선택적으로 세 가지 종류의 프로브를 수행하고 그에 반응할 수 있다.

livenessProbe: 컨테이너가 동작 중인지 여부를 나타낸다. 만약 활성 프로브(liveness probe)에 실패한다면, kubelet은 컨테이너를 죽이고, 해당 컨테이너는 재시작 정책의 대상이 된다. 만약 컨테이너가 활성 프로브를 제공하지 않는 경우, 기본 상태는 Success 이다.
readinessProbe: 컨테이너가 요청을 처리할 준비가 되었는지 여부를 나타낸다. 만약 준비성 프로브(readiness probe)가 실패한다면, 엔드포인트 컨트롤러는 파드에 연관된 모든 서비스들의 엔드포인트에서 파드의 IP주소를 제거한다. 준비성 프로브의 초기 지연 이전의 기본 상태는 Failure 이다. 만약 컨테이너가 준비성 프로브를 지원하지 않는다면, 기본 상태는 Success 이다.
startupProbe: 컨테이너 내의 애플리케이션이 시작되었는지를 나타낸다. 스타트업 프로브(startup probe)가 주어진 경우, 성공할 때까지 다른 나머지 프로브는 활성화되지 않는다. 만약 스타트업 프로브가 실패하면, kubelet이 컨테이너를 죽이고, 컨테이너는 재시작 정책에 따라 처리된다. 컨테이너에 스타트업 프로브가 없는 경우, 기본 상태는 Success 이다.

활성, 준비성 및 스타트업 프로브를 설정하는 방법에 대한 추가적인 정보는, 활성, 준비성 및 스타트업 프로브 설정하기를 참조하면 된다.

언제 활성 프로브를 사용해야 하는가?

기능 상태: Kubernetes v1.0 [stable]

만약 컨테이너 속 프로세스가 어떠한 이슈에 직면하거나 건강하지 못한 상태(unhealthy)가 되는 등 프로세스 자체의 문제로 중단될 수 있더라도, 활성 프로브가 반드시 필요한 것은 아니다. 그 경우에는 kubelet이 파드의 restartPolicy에 따라서 올바른 대처를 자동적으로 수행할 것이다.

프로브가 실패한 후 컨테이너가 종료되거나 재시작되길 원한다면, 활성 프로브를 지정하고, restartPolicy를 항상(Always) 또는 실패 시(OnFailure)로 지정한다.

언제 준비성 프로브를 사용해야 하는가?

기능 상태: Kubernetes v1.0 [stable]

프로브가 성공한 경우에만 파드에 트래픽 전송을 시작하려고 한다면, 준비성 프로브를 지정하길 바란다. 이 경우에서는, 준비성 프로브가 활성 프로브와 유사해 보일 수도 있지만, 스팩에 준비성 프로브가 존재한다는 것은 파드가 트래픽을 받지 않는 상태에서 시작되고 프로브가 성공하기 시작한 이후에만 트래픽을 받는다는 뜻이다.

만약 컨테이너가 유지 관리를 위해서 자체 중단되게 하려면, 준비성 프로브를 지정하길 바란다. 준비성 프로브는 활성 프로브와는 다르게 준비성에 특정된 엔드포인트를 확인한다.

만약 애플리케이션이 백엔드 서비스에 엄격한 의존성이 있다면, 활성 프로브와 준비성 프로브 모두 활용할 수도 있다. 활성 프로브는 애플리케이션 스스로가 건강한 상태면 통과하지만, 준비성 프로브는 추가적으로 요구되는 각 백-엔드 서비스가 가용한지 확인한다. 이를 이용하여, 오류 메시지만 응답하는 파드로 트래픽이 가는 것을 막을 수 있다.

만약 컨테이너가 시동 시 대량 데이터의 로딩, 구성 파일, 또는 마이그레이션에 대한 작업을 수행해야 한다면, 스타트업 프로브를 사용하면 된다. 그러나, 만약 failed 애플리케이션과 시동 중에 아직 데이터를 처리하고 있는 애플리케이션을 구분하여 탐지하고 싶다면, 준비성 프로브를 사용하는 것이 더 적합할 것이다.

참고:

파드가 삭제될 때 요청들을 흘려 보내기(drain) 위해 준비성 프로브가 꼭 필요한 것은 아니다. 삭제 시에, 파드는 프로브의 존재 여부와 무관하게 자동으로 스스로를 준비되지 않은 상태(unready)로 변경한다. 파드는 파드 내의 모든 컨테이너들이 중지될 때까지 준비되지 않은 상태로 남아 있다.

언제 스타트업 프로브를 사용해야 하는가?

기능 상태: Kubernetes v1.20 [stable]

스타트업 프로브는 서비스를 시작하는 데 오랜 시간이 걸리는 컨테이너가 있는 파드에 유용하다. 긴 활성 간격을 설정하는 대신, 컨테이너가 시작될 때 프로브를 위한 별도의 구성을 설정하여, 활성 간격보다 긴 시간을 허용할 수 있다.

컨테이너가 보통 initialDelaySeconds + failureThreshold × periodSeconds 이후에 기동된다면, 스타트업 프로브가 활성화 프로브와 같은 엔드포인트를 확인하도록 지정해야 한다. periodSeconds의 기본값은 10s 이다. 이 때 컨테이너가 활성화 프로브의 기본값 변경 없이 기동되도록 하려면, failureThreshold 를 충분히 높게 설정해주어야 한다. 그래야 데드락(deadlocks)을 방지하는데 도움이 된다.

파드의 종료

파드는 클러스터의 노드에서 실행되는 프로세스를 나타내므로, 해당 프로세스가 더 이상 필요하지 않을 때 정상적으로 종료되도록 하는 것이 중요하다(KILL 시그널로 갑자기 중지되고 정리할 기회가 없는 것 보다).

디자인 목표는 삭제를 요청하고 프로세스가 종료되는 시기를 알 수 있을 뿐만 아니라, 삭제가 결국 완료되도록 하는 것이다. 사용자가 파드의 삭제를 요청하면, 클러스터는 파드가 강제로 종료되기 전에 의도한 유예 기간을 기록하고 추적한다. 강제 종료 추적이 적용되면, kubelet은 정상 종료를 시도한다.

일반적으로, 컨테이너 런타임은 각 컨테이너의 기본 프로세스에 TERM 신호를 전송한다. 많은 컨테이너 런타임은 컨테이너 이미지에 정의된 STOPSIGNAL 값을 존중하며 TERM 대신 이 값을 보낸다. 일단 유예 기간이 만료되면, KILL 시그널이 나머지 프로세스로 전송되고, 그런 다음 파드는 API 서버로부터 삭제된다. 프로세스가 종료될 때까지 기다리는 동안 kubelet 또는 컨테이너 런타임의 관리 서비스가 다시 시작되면, 클러스터는 전체 원래 유예 기간을 포함하여 처음부터 다시 시도한다.

플로우의 예는 다음과 같다.

이 kubectl 도구를 사용하여 기본 유예 기간(30초)으로 특정 파드를 수동으로 삭제한다.
API 서버의 파드는 유예 기간과 함께 파드가 "dead"로 간주되는 시간으로 업데이트된다. kubectl describe 를 사용하여 삭제하려는 파드를 확인하면, 해당 파드가 "Terminating"으로 표시된다. 파드가 실행 중인 노드에서, kubelet이 파드가 종료된 것(terminating)으로 표시되었음을 확인하는 즉시(정상적인 종료 기간이 설정됨), kubelet은 로컬 파드의 종료 프로세스를 시작한다.
1. 파드의 컨테이너 중 하나가 preStop 훅을 정의한 경우, kubelet은 컨테이너 내부에서 해당 훅을 실행한다. 유예 기간이 만료된 후 preStop 훅이 계속 실행되면, kubelet은 2초의 작은 일회성 유예 기간 연장을 요청한다.
  참고:
```
  `preStop` 훅을 완료하는 데 기본 유예 기간이 허용하는 것보다 오랜 시간이 필요한 경우,
  이에 맞게 `terminationGracePeriodSeconds` 를 수정해야 한다.
```
2. kubelet은 컨테이너 런타임을 트리거하여 각 컨테이너 내부의 프로세스 1에 TERM 시그널을 보낸다.
  참고:
```
  파드의 컨테이너는 서로 다른 시간에 임의의 순서로 TERM 시그널을
  수신한다. 종료 순서가 중요한 경우, `preStop` 훅을 사용하여 동기화하는 것이 좋다.
```
kubelet이 정상 종료를 시작하는 동시에, 컨트롤 플레인은 구성된 셀렉터가 있는 서비스를 나타내는 엔드포인트슬라이스(EndpointSplice)(그리고 엔드포인트) 오브젝트에서 종료된 파드를 제거한다. 레플리카셋(ReplicaSet)과 기타 워크로드 리소스는 더 이상 종료된 파드를 유효한 서비스 내 복제본으로 취급하지 않는다. 로드 밸런서(서비스 프록시와 같은)가 종료 유예 기간이 시작되는 즉시 엔드포인트 목록에서 파드를 제거하므로 느리게 종료되는 파드는 트래픽을 계속 제공할 수 없다.
유예 기간이 만료되면, kubelet은 강제 종료를 트리거한다. 컨테이너 런타임은 SIGKILL 을 파드의 모든 컨테이너에서 여전히 실행 중인 모든 프로세스로 전송한다. kubelet은 해당 컨테이너 런타임이 하나를 사용하는 경우 숨겨진 pause 컨테이너도 정리한다.
kubelet은 유예 기간을 0(즉시 삭제)으로 설정하여, API 서버에서 파드 오브젝트의 강제 삭제를 트리거한다.
API 서버가 파드의 API 오브젝트를 삭제하면, 더 이상 클라이언트에서 볼 수 없다.

강제 파드 종료

주의:

강제 삭제는 일부 워크로드와 해당 파드에 대해서 잠재적으로 중단될 수 있다.

기본적으로, 모든 삭제는 30초 이내에는 정상적으로 수행된다. kubectl delete 명령은 기본값을 재정의하고 사용자의 고유한 값을 지정할 수 있는 --grace-period=<seconds> 옵션을 지원한다.

유예 기간을 0 로 강제로 즉시 설정하면 API 서버에서 파드가 삭제된다. 파드가 노드에서 계속 실행 중인 경우, 강제 삭제는 kubelet을 트리거하여 즉시 정리를 시작한다.

참고:

강제 삭제를 수행하려면 --grace-period=0 와 함께 추가 플래그 --force 를 지정해야 한다.

강제 삭제가 수행되면, API 서버는 실행 중인 노드에서 파드가 종료되었다는 kubelet의 확인을 기다리지 않는다. API에서 즉시 파드를 제거하므로 동일한 이름으로 새로운 파드를 생성할 수 있다. 노드에서 즉시 종료되도록 설정된 파드는 강제 종료되기 전에 작은 유예 기간이 계속 제공된다.

주의:

즉시 제거는 실행 중인 자원이 정상적으로 종료되는 것을 보장하지 않는다. 자원은 클러스터에서 영원히 회수되지 않을 수 있다.

스테이트풀셋(StatefulSet)의 일부인 파드를 강제 삭제해야 하는 경우, 스테이트풀셋에서 파드를 삭제하기에 대한 태스크 문서를 참고한다.

파드의 가비지 콜렉션

실패한 파드의 경우, API 오브젝트는 사람이나 컨트롤러 프로세스가 명시적으로 파드를 제거할 때까지 클러스터의 API에 남아 있다.

컨트롤 플레인에서의 컨트롤러 역할인 파드 가비지 콜렉터(PodGC)는, 파드 수가 구성된 임계값(kube-controller-manager에서 terminated-pod-gc-threshold 에 의해 결정됨)을 초과할 때 종료된 파드(Succeeded 또는 Failed 단계 포함)를 정리한다. 이렇게 하면 시간이 지남에 따라 파드가 생성되고 종료될 때 리소스 유출이 방지된다.

추가적으로 PodGC는 다음과 같은 조건들 중 하나라도 만족하는 파드들을 정리한다.

고아 파드 - 더 이상 존재하지 않는 노드에 종속되어있는 파드이거나,
스케줄되지 않은 종료 중인 파드이거나,
NodeOutOfServiceVolumeDetach 기능 게이트가 활성화되어 있을 때, node.kubernetes.io/out-of-service에 테인트된 준비되지 않은 노드에 속한 종료 중인 파드인 경우에 적용된다.

PodDisruptionConditions 기능 게이트가 활성화된 경우, PodGC는 파드를 정리하는 것 뿐만 아니라 해당 파드들이 non-terminal 단계에 있는 경우 그들을 실패했다고 표시하기도 한다. 또한, PodGC는 고아 파드를 정리할 때 파드 중단 조건을 추가하기도 한다. (자세한 내용은 파드 중단 조건을 확인한다.)

다음 내용

컨테이너 라이프사이클 이벤트에 핸들러를 연결하는 핸즈온 연습을 해보자.
활성, 준비성 및 스타트업 프로브 설정하는 핸즈온 연습을 해보자.
컨테이너 라이프사이클 훅에 대해 자세히 알아보자.
API의 파드와 컨테이너 상태에 대한 자세한 내용은 파드의 .status에 대해 다루는 API 레퍼런스 문서를 참고한다.

1.2 - 초기화 컨테이너

이 페이지는 초기화 컨테이너에 대한 개요를 제공한다. 초기화 컨테이너는 파드의 앱 컨테이너들이 실행되기 전에 실행되는 특수한 컨테이너이다. 초기화 컨테이너는 앱 이미지에는 없는 유틸리티 또는 설정 스크립트 등을 포함할 수 있다.

초기화 컨테이너는 containers 배열(앱 컨테이너를 기술하는)과 나란히 파드 스펙에 명시할 수 있다.

초기화 컨테이너 이해하기

파드는 앱들을 실행하는 다수의 컨테이너를 포함할 수 있고, 또한 앱 컨테이너 실행 전에 동작되는 하나 이상의 초기화 컨테이너도 포함할 수 있다.

다음의 경우를 제외하면, 초기화 컨테이너는 일반적인 컨테이너와 매우 유사하다.

초기화 컨테이너는 항상 완료를 목표로 실행된다.
각 초기화 컨테이너는 다음 초기화 컨테이너가 시작되기 전에 성공적으로 완료되어야 한다.

만약 파드의 초기화 컨테이너가 실패하면, kubelet은 초기화 컨테이너가 성공할 때까지 반복적으로 재시작한다. 그러나, 만약 파드의 restartPolicy 를 절대 하지 않음(Never)으로 설정하고, 해당 파드를 시작하는 동안 초기화 컨테이너가 실패하면, 쿠버네티스는 전체 파드를 실패한 것으로 처리한다.

컨테이너를 초기화 컨테이너로 지정하기 위해서는, 파드 스펙에 initContainers 필드를 container 항목(앱 container 필드 및 내용과 유사한)들의 배열로서 추가한다. 컨테이너에 대한 더 상세한 사항은 API 레퍼런스를 참고한다.

초기화 컨테이너의 상태는 컨테이너 상태의 배열(.status.containerStatuses 필드와 유사)로 .status.initContainerStatuses 필드에 반환된다.

일반적인 컨테이너와의 차이점

초기화 컨테이너는 앱 컨테이너의 리소스 상한(limit), 볼륨, 보안 세팅을 포함한 모든 필드와 기능을 지원한다. 그러나, 초기화 컨테이너를 위한 리소스 요청량과 상한은 리소스에 문서화된 것처럼 다르게 처리된다.

또한, 초기화 컨테이너는 lifecycle, livenessProbe, readinessProbe 또는 startupProbe 를 지원하지 않는다. 왜냐하면 초기화 컨테이너는 파드가 준비 상태가 되기 전에 완료를 목표로 실행되어야 하기 때문이다.

만약 다수의 초기화 컨테이너가 파드에 지정되어 있다면, kubelet은 해당 초기화 컨테이너들을 한 번에 하나씩 실행한다. 각 초기화 컨테이너는 다음 컨테이너를 실행하기 전에 꼭 성공해야 한다. 모든 초기화 컨테이너들이 실행 완료되었을 때, kubelet은 파드의 애플리케이션 컨테이너들을 초기화하고 평소와 같이 실행한다.

초기화 컨테이너 사용하기

초기화 컨테이너는 앱 컨테이너와는 별도의 이미지를 가지고 있기 때문에, 시동(start-up)에 관련된 코드로서 몇 가지 이점을 가진다.

앱 이미지에는 없는 셋업을 위한 유틸리티 또는 맞춤 코드를 포함할 수 있다. 예를 들어, 셋업 중에 단지 sed, awk, python, 또는 dig와 같은 도구를 사용하기 위해서 다른 이미지로부터(FROM) 새로운 이미지를 만들 필요가 없다.
애플리케이션 이미지 빌더와 디플로이어 역할은 독립적으로 동작될 수 있어서 공동의 단일 앱 이미지 형태로 빌드될 필요가 없다.
초기화 컨테이너는 앱 컨테이너와 다른 파일 시스템 뷰를 가지도록 리눅스 네임스페이스를 사용한다. 결과적으로, 초기화 컨테이너에는 앱 컨테이너가 가질 수 없는 시크릿에 접근 권한이 주어질 수 있다.
앱 컨테이너들은 병렬로 실행되는 반면, 초기화 컨테이너들은 어떠한 앱 컨테이너라도 시작되기 전에 실행 완료되어야 하므로, 초기화 컨테이너는 사전 조건들이 충족될 때까지 앱 컨테이너가 시동되는 것을 막거나 지연시키는 간편한 방법을 제공한다.
초기화 컨테이너는 앱 컨테이너 이미지의 보안성을 떨어뜨릴 수도 있는 유틸리티 혹은 커스텀 코드를 안전하게 실행할 수 있다. 불필요한 툴들을 분리한 채로 유지함으로써 앱 컨테이너 이미지의 공격에 대한 노출을 제한할 수 있다.

예제

초기화 컨테이너를 사용하는 방법에 대한 몇 가지 아이디어는 다음과 같다.

다음과 같은 셸 커맨드로, 서비스가 생성될 때까지 기다리기.

for i in {1..100}; do sleep 1; if dig myservice; then exit 0; fi; done; exit 1

다음과 같은 커맨드로, 다운워드 API(Downward API)를 통한 원격 서버에 해당 파드를 등록하기.

curl -X POST http://$MANAGEMENT_SERVICE_HOST:$MANAGEMENT_SERVICE_PORT/register -d 'instance=$(<POD_NAME>)&ip=$(<POD_IP>)'

다음과 같은 커맨드로 앱 컨테이너가 시작되기 전에 일정 시간 기다리기.
```
sleep 60
```
Git 저장소를 볼륨 안에 클론하기.
설정 파일에 값을 지정하고 메인 앱 컨테이너를 위한 설정 파일을 동적으로 생성하기 위한 템플릿 도구를 실행하기. 예를 들어, 설정에 POD_IP 값을 지정하고 메인 앱 설정 파일을 Jinja를 통해서 생성.

사용 중인 초기화 컨테이너

쿠버네티스 1.5에 대한 다음의 yaml 파일은 두 개의 초기화 컨테이너를 포함한 간단한 파드에 대한 개요를 보여준다. 첫 번째는 myservice 를 기다리고 두 번째는 mydb 를 기다린다. 두 컨테이너들이 완료되면, 파드가 시작될 것이다.

apiVersion: v1
kind: Pod
metadata:
  name: myapp-pod
  labels:
    app.kubernetes.io/name: MyApp
spec:
  containers:
  - name: myapp-container
    image: busybox:1.28
    command: ['sh', '-c', 'echo The app is running! && sleep 3600']
  initContainers:
  - name: init-myservice
    image: busybox:1.28
    command: ['sh', '-c', "until nslookup myservice.$(cat /var/run/secrets/kubernetes.io/serviceaccount/namespace).svc.cluster.local; do echo waiting for myservice; sleep 2; done"]
  - name: init-mydb
    image: busybox:1.28
    command: ['sh', '-c', "until nslookup mydb.$(cat /var/run/secrets/kubernetes.io/serviceaccount/namespace).svc.cluster.local; do echo waiting for mydb; sleep 2; done"]

다음 커맨드들을 이용하여 파드를 시작하거나 디버깅할 수 있다.

kubectl apply -f myapp.yaml

출력 결과는 다음과 같다.

pod/myapp-pod created

그리고 파드의 상태를 확인한다.

kubectl get -f myapp.yaml

출력 결과는 다음과 같다.

NAME        READY     STATUS     RESTARTS   AGE
myapp-pod   0/1       Init:0/2   0          6m

혹은 좀 더 자세히 살펴본다.

kubectl describe -f myapp.yaml

출력 결과는 다음과 같다.

Name:          myapp-pod
Namespace:     default
[...]
Labels:        app.kubernetes.io/name=MyApp
Status:        Pending
[...]
Init Containers:
  init-myservice:
[...]
    State:         Running
[...]
  init-mydb:
[...]
    State:         Waiting
      Reason:      PodInitializing
    Ready:         False
[...]
Containers:
  myapp-container:
[...]
    State:         Waiting
      Reason:      PodInitializing
    Ready:         False
[...]
Events:
  FirstSeen    LastSeen    Count    From                      SubObjectPath                           Type          Reason        Message
  ---------    --------    -----    ----                      -------------                           --------      ------        -------
  16s          16s         1        {default-scheduler }                                              Normal        Scheduled     Successfully assigned myapp-pod to 172.17.4.201
  16s          16s         1        {kubelet 172.17.4.201}    spec.initContainers{init-myservice}     Normal        Pulling       pulling image "busybox"
  13s          13s         1        {kubelet 172.17.4.201}    spec.initContainers{init-myservice}     Normal        Pulled        Successfully pulled image "busybox"
  13s          13s         1        {kubelet 172.17.4.201}    spec.initContainers{init-myservice}     Normal        Created       Created container init-myservice
  13s          13s         1        {kubelet 172.17.4.201}    spec.initContainers{init-myservice}     Normal        Started       Started container init-myservice

파드의 초기화 컨테이너의 상태를 보기 위해, 다음을 실행한다.

kubectl logs myapp-pod -c init-myservice # Inspect the first init container
kubectl logs myapp-pod -c init-mydb      # Inspect the second init container

mydb 및 myservice 서비스를 시작하고 나면, 초기화 컨테이너가 완료되고 myapp-pod 가 생성된 것을 볼 수 있다.

여기에 이 서비스를 보이기 위해 사용할 수 있는 구성이 있다.

---
apiVersion: v1
kind: Service
metadata:
  name: myservice
spec:
  ports:
  - protocol: TCP
    port: 80
    targetPort: 9376
---
apiVersion: v1
kind: Service
metadata:
  name: mydb
spec:
  ports:
  - protocol: TCP
    port: 80
    targetPort: 9377

mydb 와 myservice 서비스 생성하기.

kubectl apply -f services.yaml

출력 결과는 다음과 같다.

service/myservice created
service/mydb created

초기화 컨테이너들이 완료되는 것과 myapp-pod 파드가 Running 상태로 변경되는 것을 볼 것이다.

kubectl get -f myapp.yaml

출력 결과는 다음과 같다.

NAME        READY     STATUS    RESTARTS   AGE
myapp-pod   1/1       Running   0          9m

이 간단한 예제는 사용자만의 초기화 컨테이너를 생성하는데 영감을 줄 것이다. 다음 순서에는 더 자세한 예제의 링크가 있다.

자세한 동작

파드 시작 시에 kubelet은 네트워크와 스토리지가 준비될 때까지 초기화 컨테이너의 실행을 지연시킨다. 그런 다음 kubelet은 파드 사양에 나와있는 순서대로 파드의 초기화 컨테이너를 실행한다.

각 초기화 컨테이너는 다음 컨테이너가 시작되기 전에 성공적으로 종료되어야 한다. 만약 런타임 문제나 실패 상태로 종료되는 문제로인하여 초기화 컨테이너의 시작이 실패된다면, 초기화 컨테이너는 파드의 restartPolicy 에 따라서 재시도 된다. 다만, 파드의 restartPolicy 가 항상(Always)으로 설정된 경우, 해당 초기화 컨테이너는 restartPolicy 를 실패 시(OnFailure)로 사용한다.

파드는 모든 초기화 컨테이너가 성공되기 전까지 Ready 될 수 없다. 초기화 컨테이너의 포트는 서비스 하에 합쳐지지 않는다. 초기화 중인 파드는 Pending 상태이지만 Initialized 가 거짓이 되는 조건을 가져야 한다.

만약 파드가 재시작되었다면, 모든 초기화 컨테이너는 반드시 다시 실행된다.

초기화 컨테이너 스펙 변경은 컨테이너 이미지 필드에서만 한정적으로 가능하다. 초기화 컨테이너 이미지 필드를 변경하는 것은 파드를 재시작하는 것과 같다.

초기화 컨테이너는 재시작되거나, 재시도, 또는 재실행 될 수 있기 때문에, 초기화 컨테이너 코드는 멱등성(idempotent)을 유지해야 한다. 특히, EmptyDirs 에 있는 파일에 쓰기를 수행하는 코드는 출력 파일이 이미 존재할 가능성에 대비해야 한다.

초기화 컨테이너는 앱 컨테이너의 필드를 모두 가지고 있다. 그러나, 쿠버네티스는 readinessProbe 가 사용되는 것을 금지한다. 초기화 컨테이너가 완료 상태와 준비성을 구분해서 정의할 수 없기 때문이다. 이것은 유효성 검사 중에 시행된다.

초기화 컨테이너들이 실패를 영원히 지속하는 상황을 방지하기 위해서 파드의 activeDeadlineSeconds를 사용한다. Active deadline은 초기화 컨테이너를 포함한다. 그러나 팀에서 애플리케이션을 잡(job)으로 배포한 경우에만 activeDeadlineSeconds를 사용하길 추천한다. 왜냐하면, activeDeadlineSeconds는 초기화 컨테이너가 완료된 이후에도 영향을 주기 때문이다. 이미 정상적으로 동작하고 있는 파드도 activeDeadlineSeconds를 설정한 경우 종료(killed)될 수 있다.

파드 내의 각 앱과 초기화 컨테이너의 이름은 유일해야 한다. 어떤 컨테이너가 다른 컨테이너와 같은 이름을 공유하는 경우 유효성 오류가 발생한다.

리소스

초기화 컨테이너에게 명령과 실행이 주어진 경우, 리소스 사용에 대한 다음의 규칙이 적용된다.

모든 컨테이너에 정의된 특정 리소스 요청량 또는 상한 중 가장 높은 것은 유효 초기화 요청량/상한 이다. 리소스 제한이 지정되지 않은 리소스는 이 유효 초기화 요청량/상한을 가장 높은 요청량/상한으로 간주한다.
리소스를 위한 파드의 유효한 초기화 요청량/상한 은 다음 보다 더 높다.
- 모든 앱 컨테이너의 리소스에 대한 요청량/상한의 합계
- 리소스에 대한 유효한 초기화 요청량/상한
스케줄링은 유효한 요청/상한에 따라 이루어진다. 즉, 초기화 컨테이너는 파드의 삶에서는 사용되지 않는 초기화를 위한 리소스를 예약할 수 있다.
파드의 유효한 QoS 계층 에서 QoS(서비스의 품질) 계층은 초기화 컨테이너들과 앱 컨테이너들의 QoS 계층과 같다.

쿼터 및 상한은 유효한 파드의 요청량 및 상한에 따라 적용된다.

파드 레벨 cgroup은 유효한 파드 요청량 및 상한을 기반으로 한다. 이는 스케줄러와 같다.

파드 재시작 이유

파드는 다음과 같은 사유로, 초기화 컨테이너들의 재-실행을 일으키는, 재시작을 수행할 수 있다.

파드 인프라스트럭처 컨테이너가 재시작된 상황. 이는 일반적인 상황이 아니며 노드에 대해서 root 접근 권한을 가진 누군가에 의해서 수행됐을 것이다.
초기화 컨테이너의 완료 기록이 가비지 수집 때문에 유실된 상태에서, restartPolicy가 Always로 설정된 파드의 모든 컨테이너가 종료되어 모든 컨테이너를 재시작해야 하는 상황

초기화 컨테이너 이미지가 변경되거나 초기화 컨테이너의 완료 기록이 가비지 수집 때문에 유실된 상태이면 파드는 재시작되지 않는다. 이는 쿠버네티스 버전 1.20 이상에 적용된다. 이전 버전의 쿠버네티스를 사용하는 경우 해당 쿠버네티스 버전의 문서를 참고한다.

다음 내용

1.3 - 사이드카(sidecar) 컨테이너

기능 상태: Kubernetes v1.33 [stable](enabled by default)

사이드카(sidecar) 컨테이너는 동일한 파드 내에서 메인 애플리케이션 컨테이너와 함께 실행되는 보조 컨테이너이다. 이 컨테이너는 로깅, 모니터링, 보안, 데이터 동기화와 같은 부가적인 서비스나 기능을 제공하여 기본 앱 컨테이너 의 기능을 향상시키거나 확장하는 데 사용되며, 기본 애플리케이션 코드를 직접 변경하지 않는다.

일반적으로 파드 안에는 하나의 앱 컨테이너만이 존재한다. 예를 들어, 어떤 웹 애플리케이션이 로컬 웹서버를 필요로 한다면, 해당 로컬 웹서버가 사이드카이고 웹 애플리케이션 자체가 앱 컨테이너이다.

쿠버네티스의 사이드카 컨테이너

쿠버네티스는 사이드카 컨테이너를 초기화 컨테이너의 특별한 유형으로 구현한다. 사이드카 컨테이너는 파드가 시작된 후에도 계속 실행된다. 이 문서는 파드가 시작 중에만 실행되는 컨테이너를 명확하게 언급하기 위해 일반 초기화 컨테이너 라는 용어를 사용한다.

클러스터에 SidecarContainers 기능 게이트가 활성화되어 있다면(이 기능은 쿠버네티스 v1.29부터 기본적으로 활성화됨), 파드의 initContainers 필드에 나열된 컨테이너에 대해 restartPolicy를 지정할 수 있다. 이러한 재시작 가능한 사이드카 컨테이너는 다른 초기화 컨테이너와 같은 파드 내의 메인 애플리케이션 컨테이너로부터 독립적이다. 이러한 컨테이너는 메인 애플리케이션 컨테이너와 다른 초기화 컨테이너에 영향을 주지 않고 시작, 중지 또는 재시작할 수 있다.

또한 초기화 컨테이너나 사이드카 컨테이너로 표시되지 않은 여러 컨테이너가 있는 파드를 실행하는 것도 가능하다. 이는 파드 내 컨테이너가 전체적으로 파드 작동에 필요하지만, 어떤 컨테이너가 먼저 시작하거나 중지해야 하는지 제어할 필요가 없을 때 적합하다. 또한 컨테이너 수준의 restartPolicy 필드를 지원하지 않는 쿠버네티스의 이전 버전을 지원해야 하는 경우에도 적용할 수 있다.

예제 애플리케이션

다음은 두 개의 컨테이너를 가진 디플로이먼트(Deployment) 예제이며, 이 중 하나는 사이드카이다.

application/deployment-sidecar.yaml

apiVersion: apps/v1
kind: Deployment
metadata:
  name: myapp
  labels:
    app: myapp
spec:
  replicas: 1
  selector:
    matchLabels:
      app: myapp
  template:
    metadata:
      labels:
        app: myapp
    spec:
      containers:
        - name: myapp
          image: alpine:latest
          command: ['sh', '-c', 'while true; do echo "logging" >> /opt/logs.txt; sleep 1; done']
          volumeMounts:
            - name: data
              mountPath: /opt
      initContainers:
        - name: logshipper
          image: alpine:latest
          # Setting restartPolicy: Always makes this a sidecar container.
          restartPolicy: Always
          command: ['sh', '-c', 'tail -F /opt/logs.txt']
          volumeMounts:
            - name: data
              mountPath: /opt
      volumes:
        - name: data
          emptyDir: {}

사이드카 컨테이너와 파드 라이프사이클

restartPolicy가 Always로 설정된 초기화 컨테이너가 생성되면, 파드의 전체 수명 동안 시작되어 계속 실행된다. 이는 메인 애플리케이션 컨테이너와 분리된 보조 서비스를 실행하는 데 유용하다.

이 초기화 컨테이너에 readinessProbe가 지정되어 있다면, 그 결과가 파드의 ready 상태를 결정하는 데 사용된다.

이러한 컨테이너는 초기화 컨테이너로 정의되므로, 일반 초기화 컨테이너와 동일한 순서 및 순차 보장을 활용할 수 있어, 복잡한 파드 초기화 흐름에 대해 사이드카 컨테이너와 일반 초기화 컨테이너를 혼합하여 사용할 수 있다.

일반 초기화 컨테이너와 비교했을 때, initContainers 내에 정의된 사이드카는 시작한 후에도 계속 실행된다. 이는 파드에서 .spec.initContainers 안에 두 개 이상의 항목이 있을 때 중요하다. 사이드카 스타일의 초기화 컨테이너가 실행 중이면(kubelet이 해당 초기화 컨테이너의 started 상태를 true로 설정함), kubelet은 정렬된 .spec.initContainers 목록에서 다음 초기화 컨테이너를 시작한다. 이 상태는 컨테이너에 실행 중인 프로세스가 있고 시작(Startup) 프로브가 정의되지 않았을 때나, 혹은 startupProbe가 성공했을 때 true가 된다.

파드 종료 시, kubelet은 메인 애플리케이션 컨테이너가 완전히 중지될 때까지 사이드카 컨테이너 종료를 연기한다. 이후 사이드카 컨테이너는 파드 명세에 나타난 순서의 역순으로 종료된다. 이 접근 방식은 사이드카가 더 이상 필요하지 않을 때까지 파드 내의 다른 컨테이너를 지원하면서 작동 상태를 유지하도록 보장한다.

사이드카 컨테이너가 있는 잡(Job)

쿠버네티스 스타일의 초기화 컨테이너를 사용하여 사이드카를 정의한 잡을 만들 경우, 각 파드에 있는 사이드카 컨테이너는 메인 컨테이너가 완료된 이후에도 잡이 완료되는 것을 방해하지 않는다.

다음은 두 개의 컨테이너를 가진 잡 예제이다. 이 중 하나는 사이드카이다.

application/job/job-sidecar.yaml

apiVersion: batch/v1
kind: Job
metadata:
  name: myjob
spec:
  template:
    spec:
      containers:
        - name: myjob
          image: alpine:latest
          command: ['sh', '-c', 'echo "logging" > /opt/logs.txt']
          volumeMounts:
            - name: data
              mountPath: /opt
      initContainers:
        - name: logshipper
          image: alpine:latest
          # Setting restartPolicy: Always makes this a sidecar container.
          restartPolicy: Always
          command: ['sh', '-c', 'tail -F /opt/logs.txt']
          volumeMounts:
            - name: data
              mountPath: /opt
      restartPolicy: Never
      volumes:
        - name: data
          emptyDir: {}

애플리케이션 컨테이너와의 차이점

사이드카 컨테이너는 동일한 파드 안에서 앱 컨테이너 와 함께 실행된다. 그러나, 기본 애플리케이션 로직을 실행하지 않으며, 대신 메인 애플리케이션을 보조하는 기능을 제공한다.

사이드카 컨테이너는 자체적으로 독립된 라이프사이클을 가진다. 앱 컨테이너와 독립적으로 시작, 중지 및 재시작될 수 있다. 이는 기본 애플리케이션에 영향을 주지 않고 사이드카 컨테이너를 업데이트, 스케일링 또는 유지 관리할 수 있다는 의미이다.

사이드카 컨테이너는 기본 컨테이너와 동일한 네트워크 및 스토리지 네임스페이스를 공유한다. 이러한 공동 배치를 통해 밀접하게 상호 작용하고 리소스를 공유할 수 있게 한다.

쿠버네티스 관점에서, 사이드카 컨테이너의 그레이스풀(graceful) 종료는 그리 중요하지 않다. 다른 컨테이너들이 그레이스풀 종료에 할당된 시간을 모두 사용하고 나면, 사이드카 컨테이너는 그레이스풀하게 종료를 수행할 시간을 받지 않고, 바로 SIGTERM 신호를 받은 뒤 SIGKILL 신호를 받게 된다. 따라서 종료 코드가 0(0은 성공적인 종료를 의미)이 아니더라도, 이는 파드 종료 시 사이드카 컨테이너에 대해서는 정상이므로, 외부 도구에서는 일반적으로 무시해야 한다.

초기화 컨테이너와의 차이점

사이드카 컨테이너는 메인 컨테이너와 함께 작동하여 기능을 확장하고 추가 서비스를 제공한다.

사이드카 컨테이너는 메인 애플리케이션 컨테이너와 동시에 실행된다. 파드의 라이프사이클 전체에 걸쳐 활성 상태이며, 메인 컨테이너와 독립적으로 시작하고 중지할 수 있다. 초기화 컨테이너와 달리, 사이드카 컨테이너는 라이프사이클을 제어하기 위한 프로브(Probe)를 지원한다.

사이드카 컨테이너는 초기화 컨테이너와 마찬가지로 항상 동일한 네트워크를 공유하고, 선택적으로 볼륨(파일시스템)도 공유할 수 있기 때문에 메인 애플리케이션 컨테이너와 직접 상호 작용할 수 있다.

초기화 컨테이너는 메인 컨테이너가 시작되기 전에 중지되므로, 초기화 컨테이너는 파드 내 앱 컨테이너와 메시지를 교환할 수 없다. 모든 데이터 전달은 단방향이다(예: 초기화 컨테이너는 emptyDir 볼륨 내부에 정보를 넣을 수 있음).

사이드카 컨테이너의 이미지를 변경하면 파드가 재시작되지는 않지만, 컨테이너 재시작에 대한 트리거가 된다.

컨테이너 내 리소스 공유

초기화, 사이드카 및 앱 컨테이너의 실행 순서를 고려할 때, 리소스 사용에 대한 다음 규칙이 적용된다.

모든 초기화 컨테이너에 정의된 특정 리소스 요청 또는 한도의 최댓값이 유효 초기화 요청/한도이다. 어떤 리소스에 리소스 한도가 지정되지 않은 경우, 이것이 최고 한도로 간주된다.
리소스에 대한 파드의 유효 요청/한도는 파드 오버헤드와 다음 중 더 높은 값의 합이다.
- 모든 비초기화 컨테이너(앱 및 사이드카 컨테이너)의 리소스에 대한 요청/한도의 합
- 리소스에 대한 유효 초기화 요청/한도
스케줄링은 유효 요청/한도를 기반으로 수행되며, 이는 초기화 컨테이너가 파드의 수명 동안 사용되지 않는 초기화를 위한 리소스를 예약할 수 있음을 의미한다.
파드의 유효 QoS 클래스의 QoS(서비스 품질) 계층은 모든 초기화, 사이드카 및 앱 컨테이너 모두에 대한 QoS 계층이다.

쿼터와 한도는 유효 파드 요청 및 한도를 기반으로 적용된다.

사이드카 컨테이너와 리눅스 cgroups

리눅스에서 파드 수준 제어 그룹(cgroups)에 대한 리소스 할당은 스케줄러와 동일하게 유효 파드 요청 및 한도를 기반으로 한다.

다음 내용

사이드카 컨테이너 채택 방법 배우기
네이티브 사이드카 컨테이너 블로그 게시물 읽기
초기화 컨테이너가 있는 파드 생성에 대해 읽기
프로브 종류 에 대해 알아보기: liveness, readiness, startup 프로브
파드 오버헤드에 대해 알아보기

1.4 - 중단(disruption)

이 가이드는 고가용성 애플리케이션을 구성하려는 소유자와 파드에서 발생하는 장애 유형을 이해하기 원하는 애플리케이션 소유자를 위한 것이다.

또한 클러스터의 업그레이드와 오토스케일링과 같은 클러스터의 자동화 작업을 하려는 관리자를 위한 것이다.

자발적 중단과 비자발적 중단

파드는 누군가(사람 또는 컨트롤러)가 파괴하거나 불가피한 하드웨어 오류 또는 시스템 소프트웨어 오류가 아니면 사라지지 않는다.

우리는 이런 불가피한 상황을 애플리케이션의 비자발적 중단 으로 부른다. 예시:

노드를 지원하는 물리 머신의 하드웨어 오류
클러스터 관리자의 실수로 VM(인스턴스) 삭제
클라우드 공급자 또는 하이퍼바이저의 오류로 인한 VM 장애
커널 패닉
클러스터 네트워크 파티션의 발생으로 클러스터에서 노드가 사라짐
노드의 리소스 부족으로 파드가 축출됨

리소스 부족을 제외한 나머지 조건은 대부분의 사용자가 익숙할 것이다. 왜냐하면 그 조건은 쿠버네티스에 국한되지 않기 때문이다.

우리는 다른 상황을 자발적인 중단 으로 부른다. 여기에는 애플리케이션 소유자의 작업과 클러스터 관리자의 작업이 모두 포함된다. 다음은 대표적인 애플리케이션 소유자의 작업이다.

디플로이먼트 제거 또는 다른 파드를 관리하는 컨트롤러의 제거
재시작을 유발하는 디플로이먼트의 파드 템플릿 업데이트
파드를 직접 삭제(예: 우연히)

클러스터 관리자의 작업은 다음을 포함한다.

복구 또는 업그레이드를 위한 노드 드레이닝.
클러스터의 스케일 축소를 위한 노드 드레이닝(클러스터 오토스케일링에 대해 알아보기 ).
노드에 다른 무언가를 추가하기 위해 파드를 제거.

위 작업은 클러스터 관리자가 직접 수행하거나 자동화를 통해 수행하며, 클러스터 호스팅 공급자에 의해서도 수행된다.

클러스터에 자발적인 중단을 일으킬 수 있는 어떤 원인이 있는지 클러스터 관리자에게 문의하거나 클라우드 공급자에게 문의하고, 배포 문서를 참조해서 확인해야 한다. 만약 자발적인 중단을 일으킬 수 있는 원인이 없다면 Pod Disruption Budget의 생성을 넘길 수 있다.

주의:

모든 자발적인 중단이 Pod Disruption Budget에 연관되는 것은 아니다. 예를 들어 디플로이먼트 또는 파드의 삭제는 Pod Disruption Budget을 무시한다.

중단 다루기

비자발적인 중단으로 인한 영향을 경감하기 위한 몇 가지 방법은 다음과 같다.

파드가 필요로 하는 리소스를 요청하는지 확인한다.
고가용성이 필요한 경우 애플리케이션을 복제한다. (복제된 스테이트리스 및 스테이트풀 애플리케이션에 대해 알아보기.)
복제된 애플리케이션의 구동 시 훨씬 더 높은 가용성을 위해 랙 전체 (안티-어피니티 이용) 또는 영역 간 (다중 영역 클러스터를 이용한다면)에 애플리케이션을 분산해야 한다.

자발적 중단의 빈도는 다양하다. 기본적인 쿠버네티스 클러스터에서는 자동화된 자발적 중단은 발생하지 않는다(사용자가 지시한 자발적 중단만 발생한다). 그러나 클러스터 관리자 또는 호스팅 공급자가 자발적 중단이 발생할 수 있는 일부 부가 서비스를 운영할 수 있다. 예를 들어 노드 소프트웨어의 업데이트를 출시하는 경우 자발적 중단이 발생할 수 있다. 또한 클러스터(노드) 오토스케일링의 일부 구현에서는 단편화를 제거하고 노드의 효율을 높이는 과정에서 자발적 중단을 야기할 수 있다. 클러스터 관리자 또는 호스팅 공급자는 예측 가능한 자발적 중단 수준에 대해 문서화해야 한다. 파드 스펙 안에 프라이어리티클래스 사용하기와 같은 특정 환경설정 옵션 또한 자발적(+ 비자발적) 중단을 유발할 수 있다.

파드 disruption budgets

기능 상태: Kubernetes v1.21 [stable]

쿠버네티스는 자발적인 중단이 자주 발생하는 경우에도 고 가용성 애플리케이션을 실행하는 데 도움이 되는 기능을 제공한다.

애플리케이션 소유자로써, 사용자는 각 애플리케이션에 대해 PodDisruptionBudget(PDB)을 만들 수 있다. PDB는 자발적 중단으로 일시에 중지되는 복제된 애플리케이션 파드의 수를 제한한다. 예를 들어, 정족수 기반의 애플리케이션이 실행 중인 레플리카의 수가 정족수 이하로 떨어지지 않도록 한다. 웹 프런트 엔드는 부하를 처리하는 레플리카의 수가 일정 비율 이하로 떨어지지 않도록 보장할 수 있다.

클러스터 관리자와 호스팅 공급자는 직접적으로 파드나 디플로이먼트를 제거하는 대신 Eviction API로 불리는 PodDisruptionBudget을 준수하는 도구를 이용해야 한다.

예를 들어, kubectl drain 하위 명령을 사용하면 노드를 서비스 중단으로 표시할 수 있다. kubectl drain 을 실행하면, 도구는 사용자가 서비스를 중단하는 노드의 모든 파드를 축출하려고 한다. kubectl 이 사용자를 대신하여 수행하는 축출 요청은 일시적으로 거부될 수 있으며, 도구는 대상 노드의 모든 파드가 종료되거나 설정 가능한 타임아웃이 도래할 때까지 주기적으로 모든 실패된 요청을 다시 시도한다.

PDB는 애플리케이션이 필요로 하는 레플리카의 수에 상대적으로, 용인할 수 있는 레플리카의 수를 지정한다. 예를 들어 .spec.replicas: 5 의 값을 갖는 디플로이먼트는 어느 시점에든 5개의 파드를 가져야 한다. 만약 해당 디플로이먼트의 PDB가 특정 시점에 파드를 4개 허용한다면, Eviction API는 한 번에 1개(2개의 파드가 아닌)의 파드의 자발적인 중단을 허용한다.

파드 그룹은 레이블 셀렉터를 사용해서 지정한 애플리케이션으로 구성되며 애플리케이션 컨트롤러(디플로이먼트, 스테이트풀셋 등)를 사용한 것과 같다.

파드의 "의도"하는 수량은 해당 파드를 관리하는 워크로드 리소스의 .spec.replicas 를 기반으로 계산한다. 컨트롤 플레인은 파드의 .metadata.ownerReferences 를 검사하여 소유하는 워크로드 리소스를 발견한다.

비자발적 중단은 PDB로는 막을 수 없지만, 버짓은 차감된다.

애플리케이션의 롤링 업그레이드로 파드가 삭제되거나 사용할 수 없는 경우 중단 버짓에 영향을 준다. 그러나 워크로드 리소스(디플로이먼트, 스테이트풀셋과 같은)는 롤링 업데이트 시 PDB의 제한을 받지 않는다. 대신, 애플리케이션 업데이트 중 실패 처리는 특정 워크로드 리소스에 대한 명세에서 구성된다.

Eviction API를 사용하여 파드를 축출하면, PodSpec의 terminationGracePeriodSeconds 설정을 준수하여 정상적으로 종료됨 상태가 된다.

PodDisruptionBudget 예시

node-1 부터 node-3 까지 3개의 노드가 있는 클러스터가 있다고 하자. 클러스터에는 여러 애플리케이션을 실행하고 있다. 여러 애플리케이션 중 하나는 pod-a, pod-b, pod-c 로 부르는 3개의 레플리카가 있다. 여기에 pod-x 라고 부르는 PDB와 무관한 파드가 보인다. 초기에 파드는 다음과 같이 배치된다.

node-1	node-2	node-3
pod-a available	pod-b available	pod-c available
pod-x available

전체 3개 파드는 디플로이먼트의 일부분으로 전체적으로 항상 3개의 파드 중 최소 2개의 파드를 사용할 수 있도록 하는 PDB를 가지고 있다.

예를 들어, 클러스터 관리자가 커널 버그를 수정하기위해 새 커널 버전으로 재부팅하려는 경우를 가정해보자. 클러스터 관리자는 첫째로 node-1 을 kubectl drain 명령어를 사용해서 비우려 한다. kubectl 은 pod-a 과 pod-x 를 축출하려고 한다. 이는 즉시 성공한다. 두 파드는 동시에 terminating 상태로 진입한다. 이렇게 하면 클러스터는 다음의 상태가 된다.

node-1 draining	node-2	node-3
pod-a terminating	pod-b available	pod-c available
pod-x terminating

디플로이먼트는 한 개의 파드가 중지되는 것을 알게되고, pod-d 라는 대체 파드를 생성한다. node-1 은 차단되어 있어 다른 노드에 위치한다. 무언가가 pod-x 의 대체 파드로 pod-y 도 생성했다.

(참고: 스테이트풀셋은 pod-0 처럼 불릴, pod-a 를 교체하기 전에 완전히 중지해야 하며, pod-0 로 불리지만, 다른 UID로 생성된다. 그렇지 않으면 이 예시는 스테이트풀셋에도 적용된다.)

이제 클러스터는 다음과 같은 상태이다.

node-1 draining	node-2	node-3
pod-a terminating	pod-b available	pod-c available
pod-x terminating	pod-d starting	pod-y

어느 순간 파드가 종료되고, 클러스터는 다음과 같은 상태가 된다.

node-1 drained	node-2	node-3
	pod-b available	pod-c available
	pod-d starting	pod-y

이 시점에서 만약 성급한 클러스터 관리자가 node-2 또는 node-3 을 비우려고 하는 경우 디플로이먼트에 available 상태의 파드가 2개 뿐이고, PDB에 필요한 최소 파드는 2개이기 때문에 drain 명령이 차단된다. 약간의 시간이 지나면 pod-d 가 available 상태가 된다.

이제 클러스터는 다음과 같은 상태이다.

node-1 drained	node-2	node-3
	pod-b available	pod-c available
	pod-d available	pod-y

이제 클러스터 관리자는 node-2 를 비우려고 한다. drain 커멘드는 pod-b 에서 pod-d 와 같이 어떤 순서대로 두 파드를 축출하려 할 것이다. drain 커멘드는 pod-b 를 축출하는데 성공했다. 그러나 drain 커멘드가 pod-d 를 축출하려 하는 경우 디플로이먼트에 available 상태의 파드는 1개로 축출이 거부된다.

디플로이먼트는pod-b 를 대체할 pod-e 라는 파드를 생성한다. 클러스터에 pod-e 를 스케줄하기 위한 충분한 리소스가 없기 때문에 드레이닝 명령어는 차단된다. 클러스터는 다음 상태로 끝나게 된다.

node-1 drained	node-2	node-3	no node
	pod-b terminating	pod-c available	pod-e pending
	pod-d available	pod-y

이 시점에서 클러스터 관리자는 클러스터에 노드를 추가해서 업그레이드를 진행해야 한다.

쿠버네티스에 중단이 발생할 수 있는 비율을 어떻게 변화시키는지 다음의 사례를 통해 알 수 있다.

애플리케이션에 필요한 레플리카의 수
인스턴스를 정상적으로 종료하는데 소요되는 시간
새 인스턴스를 시작하는데 소요되는 시간
컨트롤러의 유형
클러스터의 리소스 용량

파드 중단 조건

기능 상태: Kubernetes v1.26 [beta]

참고:

만약 쿠버네티스 1.35 보다 낮은 버전을 사용하고 있다면, 해당 버전의 문서를 참조하자.

참고:

클러스터에서 이 동작을 사용하려면 PodDisruptionConditions 기능 게이트를 활성화해야 한다.

이 기능이 활성화되면, 파드 전용 DisruptionTarget 컨디션이 추가되어 중단(disruption)으로 인해 파드가 삭제될 예정임을 나타낸다. 추가로 컨디션의 reason 필드는 파드 종료에 대한 다음 원인 중 하나를 나타낸다.

PreemptionByKubeScheduler: 파드는 더 높은 우선순위를 가진 새 파드를 수용하기 위해 스케줄러에 의해 선점(preempted)된다. 자세한 내용은 파드 우선순위(priority)와 선점(preemption)을 참조해보자.
DeletionByTaintManager: 허용하지 않는 NoExecute 테인트(taint) 때문에 파드가 테인트 매니저(kube-controller-manager 내의 노드 라이프사이클 컨트롤러의 일부)에 의해 삭제될 예정이다. taint 기반 축출을 참조해보자.
EvictionByEvictionAPI: 파드에 쿠버네티스 API를 이용한 축출이 표시되었다.
DeletionByPodGC: 더 이상 존재하지 않는 노드에 바인딩된 파드는 파드의 가비지 콜렉션에 의해 삭제될 예정이다.
TerminationByKubelet: 노드 압박-축출 또는 그레이스풀 노드 셧다운으로 인해 kubelet이 파드를 종료시켰다.

참고:

파드 중단은 중단될 수 있다. 컨트롤 플레인은 동일한 파드의 중단을 계속 다시 시도하지만, 파드의 중단이 보장되지는 않는다. 결과적으로, DisruptionTarget 컨디션이 파드에 추가될 수 있지만, 해당 파드는 사실상 삭제되지 않았을 수 있다. 이러한 상황에서는, 일정 시간이 지난 뒤에 파드 중단 상태가 해제된다.

잡(또는 크론잡(CronJob))을 사용할 때, 이러한 파드 중단 조건을 잡의 파드 실패 정책의 일부로 사용할 수 있다.

클러스터 소유자와 애플리케이션 소유자의 역할 분리

보통 클러스터 매니저와 애플리케이션 소유자는 서로에 대한 지식이 부족한 별도의 역할로 생각하는 것이 유용하다. 이와 같은 책임의 분리는 다음의 시나리오에서 타당할 수 있다.

쿠버네티스 클러스터를 공유하는 애플리케이션 팀이 많고, 자연스럽게 역할이 나누어진 경우
타사 도구 또는 타사 서비스를 이용해서 클러스터 관리를 자동화 하는 경우

Pod Disruption Budget은 역할 분리에 따라 역할에 맞는 인터페이스를 제공한다.

만약 조직에 역할 분리에 따른 책임의 분리가 없다면 Pod Disruption Budget을 사용할 필요가 없다.

클러스터에서 중단이 발생할 수 있는 작업을 하는 방법

만약 클러스터 관리자라면, 그리고 클러스터 전체 노드에 노드 또는 시스템 소프트웨어 업그레이드와 같은 중단이 발생할 수 있는 작업을 수행하는 경우 다음과 같은 옵션을 선택한다.

업그레이드 하는 동안 다운타임을 허용한다.
다른 레플리카 클러스터로 장애조치를 한다.
- 다운타임은 없지만, 노드 사본과 전환 작업을 조정하기 위한 인력 비용이 많이 발생할 수 있다.
PDB를 이용해서 애플리케이션의 중단에 견디도록 작성한다.
- 다운타임 없음
- 최소한의 리소스 중복
- 클러스터 관리의 자동화 확대 적용
- 내결함성이 있는 애플리케이션의 작성은 까다롭지만 자발적 중단를 허용하는 작업의 대부분은 오토스케일링과 비자발적 중단를 지원하는 작업과 겹친다.

다음 내용

Pod Disruption Budget 설정하기의 단계를 따라서 애플리케이션을 보호한다.
노드 비우기에 대해 자세히 알아보기
롤아웃 중에 가용성을 유지하는 단계를 포함하여 디플로이먼트 업데이트에 대해 알아보기

1.5 - 임시(Ephemeral) 컨테이너

기능 상태: Kubernetes v1.25 [stable]

이 페이지는 임시 컨테이너에 대한 개요를 제공한다. 이 특별한 유형의 컨테이너는 트러블슈팅과 같은 사용자가 시작한 작업을 완료하기 위해 기존 파드에서 임시적으로 실행된다. 임시 컨테이너는 애플리케이션을 빌드하는 경우보다는 서비스 점검과 같은 경우에 더 적합하다.

임시 컨테이너 이해하기

파드 는 쿠버네티스 애플리케이션의 기본 구성 요소이다. 파드는 일회용이고, 교체 가능한 것으로 의도되었기 때문에, 사용자는 파드가 한번 생성되면, 컨테이너를 추가할 수 없다. 대신, 사용자는 보통 디플로이먼트 를 사용해서 제어하는 방식으로 파드를 삭제하고 교체한다.

그러나 때때로 재현하기 어려운 버그의 문제 해결을 위해 기존 파드의 상태를 검사해야 할 수 있다. 이 경우 사용자는 기존 파드에서 임시 컨테이너를 실행해서 상태를 검사하고, 임의의 명령을 실행할 수 있다.

임시 컨테이너는 무엇인가?

임시 컨테이너는 리소스 또는 실행에 대한 보증이 없다는 점에서 다른 컨테이너와 다르며, 결코 자동으로 재시작되지 않는다. 그래서 애플리케이션을 만드는데 적합하지 않다. 임시 컨테이너는 일반 컨테이너와 동일한 ContainerSpec 을 사용해서 명시하지만, 많은 필드가 호환되지 않으며 임시 컨테이너에는 허용되지 않는다.

임시 컨테이너는 포트를 가지지 않을 수 있으므로, ports, livenessProbe, readinessProbe 와 같은 필드는 허용되지 않는다.
파드에 할당된 리소스는 변경할 수 없으므로, resources 설정이 허용되지 않는다.
허용되는 필드의 전체 목록은 임시컨테이너 참조 문서를 본다.

임시 컨테이너는 pod.spec 에 직접 추가하는 대신 API에서 특별한 ephemeralcontainers 핸들러를 사용해서 만들어지기 때문에 kubectl edit을 사용해서 임시 컨테이너를 추가할 수 없다.

일반 컨테이너와 마찬가지로, 사용자는 임시 컨테이너를 파드에 추가한 이후에 변경하거나 제거할 수 없다.

참고:

임시 컨테이너는 스태틱 파드에서 지원되지 않는다.

임시 컨테이너의 사용

임시 컨테이너는 컨테이너가 충돌 되거나 또는 컨테이너 이미지에 디버깅 도구가 포함되지 않은 이유로 kubectl exec 이 불충분할 때 대화형 문제 해결에 유용하다.

특히, distroless 이미지 를 사용하면 공격 표면(attack surface)과 버그 및 취약점의 노출을 줄이는 최소한의 컨테이너 이미지를 배포할 수 있다. distroless 이미지는 셸 또는 어떤 디버깅 도구를 포함하지 않기 때문에, kubectl exec 만으로는 distroless 이미지의 문제 해결이 어렵다.

임시 컨테이너 사용 시 프로세스 네임스페이스 공유를 활성화하면 다른 컨테이너 안의 프로세스를 보는 데 도움이 된다.

다음 내용

임시 컨테이너 디버깅하기에 대해 알아보기.

1.6 - 파드 서비스 품질(QoS) 클래스

이 페이지에서는 쿠버네티스의 서비스 품질(QoS) 클래스 를 소개하고, 쿠버네티스가 해당 파드의 컨테이너에 대해 지정한 리소스 제약의 결과로 각 파드에 QoS 클래스를 할당하는 방법을 설명한다. 쿠버네티스는 노드에 사용 가능한 리소스가 충분하지 않을 때 어떤 파드를 축출시킬지 결정하기 위해 이 분류에 의존한다.

서비스 품질 클래스

쿠버네티스는 실행하는 파드를 분류하고 각 파드를 특정 _서비스 품질(QoS) 클래스_에 할당한다. 쿠버네티스는 이 분류를 사용하여 서로 다른 파드가 처리되는 방식에 영향을 미친다. 쿠버네티스는 해당 파드에 있는 컨테이너의 리소스 요청과 해당 요청이 리소스 한도(limit)와 어떻게 관련되는지에 따라 이 분류를 수행한다. 이를 서비스 품질(QoS) 클래스라고 한다. 쿠버네티스는 구성 요소인 컨테이너의 리소스 요청과 한도를 기반으로 모든 파드에 QoS 클래스를 할당한다. QoS 클래스는 쿠버네티스가 노드 압박을 받는 노드에서 어떤 파드를 축출할지 결정하는 데 사용된다. 가능한 QoS 클래스는 Guaranteed, Burstable, 그리고 BestEffort이다. 노드에 리소스가 부족하면 쿠버네티스는 먼저 해당 노드에서 실행 중인 BestEffort 파드를 축출하고, 그 다음에는 Burstable, 마지막으로 Guaranteed 파드를 축출한다. 이러한 축출이 리소스 압박으로 인한 경우, 리소스 요청을 초과하는 파드만 축출 후보가 된다.

Guaranteed

Guaranteed 파드는 리소스 한도가 가장 엄격하여 축출될 가능성이 가장 낮다. 이들은 한도(limit)를 초과하거나 노드에서 선점할 수 있는 우선순위가 낮은 파드가 없을 때까지 죽지 않도록 보장된다. 이들은 지정된 한도를 초과하여 리소스를 획득할 수 없다. 또한 이 파드는 스태틱(static) CPU 관리 정책을 사용하여 독점적인 CPU를 사용할 수 있다.

기준

파드에 QoS 클래스 Guaranteed가 주어지는 경우는 다음과 같다.

파드의 모든 컨테이너에는 메모리 한도와 메모리 요청이 있어야 한다.
파드의 모든 컨테이너에 대해 메모리 한도는 메모리 요청과 같아야 한다.
파드의 모든 컨테이너에는 CPU 한도와 CPU 요청이 있어야 한다.
파드의 모든 컨테이너에 대해, CPU 한도는 CPU 요청과 같아야 한다.

Burstable

Burstable 파드는 요청에 따라 일부 하한 리소스가 보장되지만 특정 한도가 필요하지 않다. 한도를 지정하지 않으면 기본적으로 노드의 용량과 동일한 한도가 적용되므로, 리소스를 사용할 수 있는 경우 파드가 리소스를 유연하게 늘릴 수 있다. 노드 리소스 압박으로 인해 파드가 축출되는 경우, 이 파드는 모든 BestEffort 파드가 축출된 후에만 축출된다. Burstable 파드는 리소스 한도나 요청이 없는 컨테이너를 포함할 수 있기 때문에, Burstable 파드는 노드 리소스를 원하는 만큼 사용할 수 있다.

기준

다음과 같은 경우 파드에 QoS 클래스 Burstable이 주어진다.

파드가 QoS 클래스 Guaranteed 기준을 충족하지 않는다.
파드에 있는 하나 이상의 컨테이너에 메모리 또는 CPU 요청 또는 한도가 있다.

BestEffort

BestEffort QoS 클래스의 파드는 다른 QoS 클래스의 파드에 특별히 할당되지 않은 노드 리소스를 사용할 수 있다. 예를 들어, kubelet에 16개의 CPU 코어를 사용할 수 있는 노드가 있고 Guaranteed 파드에 4개의 CPU 코어를 할당했다면, BestEffort QoS 클래스의 파드는 나머지 12개의 CPU 코어를 얼마든지 사용할 수 있다.

노드가 리소스 압박을 받는 경우, kubelet은 BestEffort 파드를 축출하는 것을 선호한다.

기준

Guaranteed 또는 Burstable 기준을 충족하지 않는 파드는 BestEffort의 QoS 클래스를 갖는다. 즉, 파드는 파드 내 컨테이너 중 메모리 한도나 메모리 요청이 없고 파드 내 컨테이너 중 CPU 한도나 CPU 요청이 없는 경우에만 BestEffort이다. 파드의 컨테이너는 (CPU나 메모리가 아닌) 다른 리소스를 요청할 수 있지만 여전히 BestEffort로 분류될 수 있다.

cgroup v2를 이용한 메모리 QoS

기능 상태: Kubernetes v1.22 [alpha](disabled by default)

메모리 QoS는 쿠버네티스에서 메모리 리소스를 보장하기 위해 cgroup v2의 메모리 컨트롤러를 사용한다. 파드 내 컨테이너의 메모리 요청과 한도는 메모리 컨트롤러가 제공하는 특정 인터페이스인 memory.min과 memory.high 설정에 사용된다. memory.min이 메모리 요청으로 설정되면, 메모리 리소스가 예약되고 커널에 의해 회수되지 않는다. 이것이 메모리 QoS가 쿠버네티스 파드의 메모리 가용성을 보장하는 방식이다. 그리고 컨테이너에 메모리 한도가 설정되어 있는 경우, 이는 시스템이 컨테이너 메모리 사용을 제한해야 함을 의미한다. 메모리 QoS는 memory.high를 사용하여 메모리 한도에 근접하는 워크로드를 쓰로틀(throttle)하여 시스템이 순간적인 메모리 할당으로 인해 압도되지 않도록 한다.

메모리 QoS는 QoS 클래스에 따라 적용할 설정을 결정한다. 그러나 둘은 서비스 품질에 대한 제어를 제공하는 서로 다른 메커니즘이다.

QoS 클래스와 독립적인 일부 동작

특정 동작은 쿠버네티스가 할당하는 QoS 클래스와 무관하다. 예를 들면 다음과 같다.

리소스 한도를 초과하는 모든 컨테이너는 해당 파드의 다른 컨테이너에 영향을 주지 않고 kubelet에 의해 종료되었다가 다시 시작된다.
컨테이너가 리소스 요청을 초과하고 컨테이너가 실행되는 노드가 리소스 압박에 직면하면, 컨테이너가 있는 파드는 축출 후보가 된다. 만약 이런 상황이 발생하면, 파드의 모든 컨테이너가 종료된다. 쿠버네티스는 일반적으로 다른 노드에 대체 파드를 생성할 수 있다.
파드의 리소스 요청은 그 구성 요소인 컨테이너의 리소스 요청의 합과 같고, 파드의 리소스 한도는 그구성 요소인 컨테이너의 리소스 한도의 합과 같다.
kube-scheduler는 선점 할 파드를 선택할 때 QoS 클래스를 고려하지 않는다. 클러스터에 정의한 모든 파드를 실행하기에 충분한 리소스가 없을 때 선점이 발생할 수 있다.

다음 내용

1.7 - 파드 호스트네임

이 페이지에서는 파드 호스트네임을 설정하는 방법과, 설정 이후 발생할 수 있는 잠재적인 문제, 그리고 해당 메커니즘에 대해 설명한다.

기본 파드 호스트네임

파드가 생성되면, 그 (파드 내부에서 확인되는) 호스트 네임은 파드의 metadata.name 값에서 유래한다. 호스트네임과 이에 대응하는 전체 주소 도메인 네임(FQDN) 모두 (파드의 관점에서) metadata.name 값으로 설정된다

apiVersion: v1
kind: Pod
metadata:
  name: busybox-1
spec:
  containers:
  - image: busybox:1.28
    command:
      - sleep
      - "3600"
    name: busybox

이 메니페스트로 생성된 파드는 호스트네임과 전체 주소 도메인 네임(FQDN)이 모두 busybox-1로 설정된다.

파드의 호스트네임과 서브도메인 필드

파드 스펙에는 옵션으로 사용할 수 있는 hostname 필드가 있다. 이 필드가 설정되면, (파드 내부에서 관찰되는) 호스트네임으로 metadata.name 대신 해당 필드의 값으로 설정된다. 예를 들어, spec.hostname이 my-host로 설정된 파드는 호스트네임이 my-host로 설정된다.

파드 스펙에는 옵션으로 subdomain 필드 역시 가지고 있으며, 이는 파드가 네임스페이스 내 특정 서브도메인에 속하고 있음을 나타낸다. 만약 네임스페이스 my-namespace에서 spec.hostname이 "foo"이고, spec.subdomain이 "bar"로 설정된 경우, 파드의 호스트네임은 foo가 되고 (파드 내부에서 관찰되는) 전체 주소 도메인 네임(FQDN)은 foo.bar.my-namespace.svc.cluster-domain.example이 된다.

hostname과 subdomain이 모두 설정된 경우, 클러스터의 DNS 서버는 이 필드를 기반으로 A 및/또는 AAAA 레코드를 생성한다. 자세한 내용은 파드 hostname과 subdomain 필드를 참고한다.

파드의 setHostnameAsFQDN 필드

기능 상태: Kubernetes v1.22 [stable]

파드를 전체 주소 도메인 네임(FQDN)으로 구성한 경우, 호스트네임은 짧은 형태의 호스트네임으로 설정된다. 예를 들어 파드의 전체 주소 도메인 네임이 busybox-1.busybox-subdomain.my-namespace.svc.cluster-domain.example인 경우, 기본적으로 파드 내부에서 hostname 커맨드를 실행하면 busybox-1을 반환하고 hostname --fqdn 커맨드를 실행하면 FQDN을 반환한다.

파드 스펙에서 setHostnameAsFQDN: true와 서브도메인 필드가 함께 설정된 경우, kubelet은 해당 파드 네임스페이스의 호스트명에 파드의 FQDN을 기록한다. 이 경우 hostname과 hostname --fqdn 커맨드 모두 파드의 FQDN을 반환한다.

파드의 FQDN은 앞서 설명한 방식과 동일하게 구성된다. 즉, 파드의 spec.hostname(지정된 경우) 또는 metadata.name 필드, spec.subdomain, namespace명, 그리고 클러스터 도메인 접미사로 구성된다.

참고:

리눅스에서 커널의 호스트네임(struct utsname의 nodename)은 최대 64자까지 허용된다.

파드가 이 기능을 활성화하고 FQDN이 64자를 초과하는 경우, 파드는 초기 단계부터 실행에 실패하게 된다. 이때 파드는 Pending 상태(kubectl 기준 ContainerCreating)에 머물며 "Failed to construct FQDN from Pod hostname and cluster domain"와 같은 에러 이벤트를 발생시킨다.

따라서 이 필드를 사용할 때는, 파드의 metadata.name (혹은 spec.hostname)과 spec.subdomain 필드 값의 조합으로 생성된 FQDN이 64자를 넘지 않도록 해야 한다.

파드의 hostnameOverride

기능 상태: Kubernetes v1.35 [beta](enabled by default)

파드 스펙에서 hostnameOverride 값을 설정하면 kubelet은 파드의 호스트네임과 전체 주소 도메인 네임(FQDN)을 조건없이 모두 hostnameOverride 값으로 설정한다.

hostnameOverride 필드는 최대 64자의 길이 제한이 있으며 반드시 RFC 1123에서 정의한 DNS 서브도메인 이름 규칙을 준수해야 한다.

Example:

apiVersion: v1
kind: Pod
metadata:
  name: busybox-2-busybox-example-domain
spec:
  hostnameOverride: busybox-2.busybox.example.domain
  containers:
  - image: busybox:1.28
    command:
      - sleep
      - "3600"
    name: busybox

참고:

이 설정은 파드 내부의 호스트에만 영향을 미치며, 클러스터 DNS 서버의 파드 A 또는 AAAA 레코드에는 영향을 주지 않는다.

hostnameOverride가 hostname, subdomain 필드와 함께 설정된 경우,

파드 내부의 호스트네임은 hostnameOverride 값으로 재정의된다.
클러스터 DNS 서버의 파드 A 및/또는 AAAA 레코드는 여전히 hostname과 subdomain 필드를 기반으로 생성된다.

참고: hostnameOverride가 설정된 경우, hostNetwork와 setHostnameAsFQDN 필드를 동시에 설정할 수 없다. API 서버는 이 조합을 시도하는 생성 요청을 명시적으로 거부한다.

hostnameOverride가 다른 필드(hostname, subdomain, setHostnameAsFQDN, hostNetwork)와 함께 설정되었을 때의 동작 방식에 대한 상세 내용은 KEP-4762 디자인 상세의 표를 참고한다.

1.8 - 사용자 네임스페이스

기능 상태: Kubernetes v1.25 [alpha]

이 페이지에서는 사용자 네임스페이스가 쿠버네티스 파드에서 사용되는 방법에 대해 설명한다. 사용자 네임스페이스는 컨테이너 내에서 실행 중인 사용자와 호스트의 사용자를 분리할 수 있도록 한다.

컨테이너에서 루트(root)로 실행되는 프로세스는 호스트에서 다른 (루트가 아닌) 사용자로 실행될 수 있다. 즉, 프로세스는 사용자 네임스페이스 내부 작업에 대해 특권을 갖지만(privileged) 네임스페이스 외부의 작업에서는 특권을 갖지 않는다.

이러한 기능을 사용하여 훼손(compromised)된 컨테이너가 호스트나 동일한 노드의 다른 파드에 미칠 수 있는 손상을 줄일 수 있다. HIGH 또는 CRITICAL 등급의 일부 보안 취약점은 사용자 네임스페이스가 Active 상태일 때 사용할 수 없다. 사용자 네임스페이스는 일부 미래의 취약점들도 완화시킬 수 있을 것으로 기대된다.

시작하기 전에

🛇 이 항목은 쿠버네티스에 속하지 않는 써드파티 프로젝트 또는 제품의 링크로 연결됩니다. 추가 정보

이것은 리눅스 전용 기능이다. 또한 컨테이너 런타임 (원문, Container Runtime)에서 이 기능을 쿠버네티스 스테이트리스(stateless) 파드와 함께 사용하려면 지원이 필요하다.

CRI-O: v1.25에는 사용자 네임스페이스가 지원된다.
containerd: 1.7 릴리즈에서 지원이 계획돼 있다. 자세한 내용은 containerd 이슈 #7063를 참조한다.

cri-dockerd에서의 지원은 아직 계획되지 않았다.

개요

사용자 네임스페이스는 컨테이너의 사용자를 호스트의 다른 사용자에게 매핑할 수 있는 리눅스 기능이다. 또한 사용자 네임스페이스의 파드에 부여된 기능은 네임스페이스 내부에서만 유효하고 외부에서는 무효하다.

파드는 pod.spec.hostUsers 필드를 false로 설정해 사용자 네임스페이스를 사용하도록 선택할 수 있다.

kubelet은 동일 노드에 있는 두 개의 스테이트리스 파드가 동일한 매핑을 사용하지 않도록 보장하는 방식으로 파드가 매핑된 호스트 UID나 GID를 선택한다.

pod.spec의 runAsUser, runAsGroup, fsGroup 등의 필드는 항상 컨테이너 내의 사용자를 가리킨다.

이 기능을 활성화한 경우 유효한 UID/GID의 범위는 0부터 65535까지이다. 이는 파일 및 프로세스(runAsUser, runAsGroup 등)에 적용된다.

이 범위를 벗어나는 UID/GID를 사용하는 파일은 오버플로 ID, 주로 65534(/proc/sys/kernel/overflowuid와 /proc/sys/kernel/overflowgid에서 설정됨)에 속하는 것으로 간주된다. 그러나 65534 사용자/그룹으로 실행하더라도 이러한 파일을 수정할 수 없다.

루트로 실행돼야 하지만 다른 호스트 네임스페이스나 리소스에 접근하지 않는 대부분의 애플리케이션은 사용자 네임스페이스를 활성화한 경우 변경할 필요 없이 계속 정상적으로 실행돼야 한다.

스테이트리스 파드의 사용자 네임스페이스 이해하기

기본 설정의 여러 컨테이너 런타임(Docker Engine, containerd, CRI-O 등)은 격리를 위해 리눅스 네임스페이스를 사용한다. 다른 기술도 존재하며 위와 같은 런타임에도 사용할 수 있다. (예를 들어, Kata Container는 리눅스 네임스페이스 대신 VM을 사용한다.) 이 페이지는 격리를 위해 리눅스 네임스페이스를 사용하는 컨테이너 런타임에 주안을 둔다.

파드를 생성할 때 기본적으로 컨테이너의 네트워크를 분리하는 네임스페이스, 프로세스 보기를 분리하는 PID 네임스페이스 등 여러 새로운 네임스페이스가 격리에 사용된다. 사용자 네임스페이스를 사용하면 컨테이너의 사용자와 노드의 사용자가 격리된다.

이는 컨테이너가 루트로 실행될 수 있고 호스트의 루트가 아닌 사용자에게 매핑될 수 있다는 것을 의미한다. 컨테이너 내부에서 프로세스는 자신이 루트로 실행된다고 생각하지만 (따라서 apt, yum 등과 같은 도구가 정상적으로 작동) 실제로 프로세스는 호스트에 대한 권한이 없다. 예를 들어, 호스트에서 ps aux를 실행함으로써 컨테이너 프로세스가 어느 사용자에 의해 실행 중인지 확인할 수 있다. 사용자 ps는 컨테이너 안에서 명령 id를 실행하면 나타나는 사용자와 동일하지 않다.

이 추상화는 컨테이너가 호스트로 탈출하는 것과 같은 상황을 제한한다. 컨테이너가 호스트에서 권한이 없는 사용자로 실행 중이기 때문에 호스트에게 수행할 수 있는 작업은 제한된다.

또한, 각 파드의 사용자는 호스트의 서로 겹치지 않는 다른 사용자에게 매핑되므로 다른 파드에 대해서도 수행할 수 있는 작업이 제한된다.

파드에 부여된 기능 또한 파드 사용자 네임스페이스로 제한되는데 대부분 유효하지 않고 심지어 일부는 완전히 무효하다. 다음은 두 가지 예시이다.

CAP_SYS_MODULE은 사용자 네임스페이스를 사용하여 파드에 부여돼도 아무런 효과가 없으며 파드는 커널 모듈을 로드할 수 없다.
CAP_SYS_ADMIN은 파드의 사용자 네임스페이스로 제한되며 네임스페이스 외부에서는 유효하지 않다.

사용자 네임스페이스를 사용하지 않고 루트로 실행되는 컨테이너는 컨테이너 브레이크아웃(container breakout)의 경우 노드에 대한 루트 권한을 가진다. 컨테이너에 일부 기능이 부여된 경우 호스트에서도 해당 기능이 유효하다. 사용자 네임스페이스를 사용할 경우 이 중 어느 것도 사실이 아니다.

사용자 네임스페이스 사용 시 변경사항에 대한 자세한 내용은 man 7 user_namespace를 참조한다.

사용자 네임스페이스를 지원하도록 노드 설정하기

호스트의 파일 및 프로세스에서 0 ~ 65535 범위의 UID/GID를 사용하는 것이 좋다.

kubelet은 파드에 그것보다 더 높은 UID/GID를 할당한다. 따라서 가능한 많은 격리를 보장하려면 호스트의 파일 및 호스트의 프로세스에 사용되는 UID/GID가 0-65535 범위여야 한다.

이 권장 사항은 파드가 호스트의 임의의 파일을 잠재적으로 읽을 수 있는 CVE-2021-25741과 같은 CVE의 영향을 완화하기 위해 중요하다. 파드와 호스트의 UID/GID가 겹치지 않으면 파드가 수행할 수 있는 작업이 제한된다. 즉, 파드 UID/GID가 호스트의 파일 소유자/그룹과 일치하지 않게 된다.

제약 사항

파드에 사용자 네임스페이스를 사용하는 경우 다른 호스트 네임스페이스를 사용할 수 없다. 특히 hostUsers: false를 설정하면 다음 중 하나를 설정할 수 없다.

hostNetwork: true
hostIPC: true
hostPID: true

파드는 볼륨을 전혀 사용하지 않거나 볼륨을 사용하는 경우에는 다음 볼륨 유형만 사용할 수 있다.

configmap
secret
projected
downwardAPI
emptyDir

파드가 이러한 볼륨의 파일을 읽을 수 있도록 하기 위해 파드에 .spec.securityContext.fsGroup을 0으로 지정한 것처럼 볼륨이 생성된다. 이 값이 다른 값으로 지정되면 당연히 이 다른 값이 대신 적용된다.

이로 인해 볼륨의 특정 항목에 대한 defaultMode나 mode가 그룹에 대한 권한 없이 지정되었더라도 이러한 볼륨에 대한 폴더와 파일은 그룹에 대한 권한을 갖는다. 예를 들어 파일에 소유자에 대한 권한만 있는 방식으로 이러한 볼륨을 마운트할 수 없다.

1.9 - 다운워드(Downward) API

실행 중인 컨테이너에 파드 및 컨테이너 필드를 노출하는 두 가지 방법이 있다. 환경 변수를 활용하거나, 그리고 특수한 볼륨 타입으로 채워진 파일을 이용한다. 파드 및 컨테이너 필드를 노출하는 이 두 가지 방법을 다운워드 API라고 한다.

컨테이너가 쿠버네티스에 지나치게 종속되지 않으면서도 자기 자신에 대한 정보를 알고 있으면 유용할 때가 있다. 다운워드 API는 컨테이너가 자기 자신 혹은 클러스터에 대한 정보를, 쿠버네티스 클라이언트나 API 서버 없이도 사용할 수 있게 한다.

예를 들어, 잘 알려진 특정 환경 변수에다가 고유한 식별자를 넣어 사용하는 애플리케이션이 있다고 하자. 해당 애플리케이션에 맞게 작업할 수도 있겠지만, 이는 지루하고 오류가 나기 쉬울뿐더러, 낮은 결합이라는 원칙에도 위배된다. 대신, 파드의 이름을 식별자로 사용하고 잘 알려진 환경 변수에 파드의 이름을 넣는 것도 괜찮은 방법이다.

쿠버네티스에는 실행 중인 컨테이너에 파드 및 컨테이너 필드를 노출하는 두 가지 방법이 있다.

파드 및 컨테이너 필드를 노출하는 이 두 가지 방법을 다운워드 API라고 한다.

사용 가능한 필드

쿠버네티스 API 필드 중 일부만이 다운워드 API를 통해 접근 가능하다. 이 페이지에서는 사용 가능한 필드를 나열한다.

사용 가능한 파드 필드에 대한 정보는 fieldRef를 통해 넘겨줄 수 있다. API 레벨에서, 파드의 spec은 항상 하나 이상의 컨테이너를 정의한다. 사용 가능한 컨테이너 필드에 대한 정보는 resourceFiledRef를 통해 넘겨줄 수 있다.

`fieldRef`를 통해 접근 가능한 정보

대부분의 파드 필드는 환경 변수로써, 또는 다운워드 API 볼륨을 사용하여 컨테이너에 제공할 수 있다. 이런 두 가지 방법을 통해 사용 가능한 필드는 다음과 같다.

metadata.name: 파드의 이름
metadata.namespace: 파드가 속한 네임스페이스
metadata.uid: 파드의 고유 ID
metadata.annotations['<KEY>']: 파드의 어노테이션에서 <KEY>에 해당하는 값 (예를 들어, metadata.annotations['myannotation'])
metadata.labels['<KEY>']: 파드의 레이블에서 <KEY>에 해당하는 문자열 (예를 들어, metadata.labels['mylabel'])
spec.serviceAccountName: 파드의 서비스 어카운트
spec.nodeName: 파드가 실행중인 노드명
status.hostIP: 파드가 할당된 노드의 기본 IP 주소
status.podIP: 파드의 기본 IP 주소 (일반적으로 IPv4 주소)

추가적으로 아래 필드는 환경 변수가 아닌, 다운워드 API 볼륨의 fieldRef로만 접근 가능하다.

metadata.labels: 파드의 모든 레이블로, 한 줄마다 하나의 레이블을 갖는(label-key="escaped-label-value") 형식을 취함
metadata.annotations: 파드의 모든 어노테이션으로, 한 줄마다 하나의 어노테이션을 갖는(annotation-key="escaped-annotation-value") 형식을 취함

`resourceFieldRef`를 통해 접근 가능한 정보

컨테이너 필드는 CPU와 메모리 같은 리소스에 대한 요청 및 제한 값을 제공한다.

resource: limits.cpu: 컨테이너의 CPU 제한
resource: requests.cpu: 컨테이너의 CPU 요청
resource: limits.memory: 컨테이너의 메모리 제한
resource: requests.memory: 컨테이너의 메모리 요청
resource: limits.hugepages-*: 컨테이너의 hugepage 제한 (DownwardAPIHugePages 기능 게이트가 활성화 된 경우)
resource: requests.hugepages-*: 컨테이너의 hugepage 요청 (DownwardAPIHugePages 기능 게이트가 활성화 된 경우)
resource: limits.ephemeral-storage: 컨테이너의 임시 스토리지 제한
resource: requests.ephemeral-storage: 컨테이너의 임시 스토리지 요청

리소스 제한에 대한 참고 정보

컨테이너의 CPU와 메모리 제한을 명시하지 않고 다운워드 API로 이 정보들을 제공하려고 할 경우, kubelet은 기본적으로 노드의 할당 가능량에 기반하여 CPU와 메모리에 할당 가능한 최댓값을 노출시킨다.

다음 내용

자세한 정보는 다운워드API 볼륨를 참고한다.

다운워드 API를 사용하여 파드 및 컨테이너 정보를 노출시켜보자.

2 - 워크로드 관리

쿠버네티스는 워크로드 및 해당 워크로드의 구성 요소를 선언적으로 관리하기 위한 여러 내장 API를 제공한다.

궁극적으로 애플리케이션은 파드 내부의 컨테이너로 실행된다. 하지만, 개별 파드를 관리하는 것은 많은 노력을 필요로 한다. 예를 들어, 파드에 장애가 발생하면 대체하기 위해 새로운 파드를 실행하기를 원할 것이다. 쿠버네티스가 이를 대신해 줄 수 있다.

쿠버네티스 API를 사용하여 파드보다 더 높은 추상화 수준을 나타내는 오브젝트 워크로드를 생성하면 쿠버네티스 컨트롤 플레인이 사용자가 정의한 워크로드 오브젝트 사양에 따라 자동으로 파드 오브젝트를 관리한다.

워크로드 관리를 위한 기본 제공 API는 다음과 같다.

디플로이먼트(Deployment) (및 간접적으로 레플리카셋(ReplicaSet))는 클러스터에서 애플리케이션을 실행하는 가장 일반적인 방법이다. 디플로이먼트는 클러스터에서 스테이트리스 애플리케이션 워크로드를 관리하는 데 적합하며, 디플로이먼트의 모든 파드는 서로 교환 가능하며 필요한 경우 교체할 수 있다. (디플로이먼트는 기존 레플리케이션컨트롤러(ReplicationController) API를 대체한다.)

스테이풀셋(StatefulSet)은 하나 이상의 파드가 동일한 애플리케이션 코드를 실행하도록 관리하며, 이때 각 파드가 고유한 식별자를 유지하도록 보장한다. 이는 파드들이 서로 교체 가능한 것으로 간주되는 디플로이먼트와는 다르다. 스테이풀셋의 가장 일반적인 용도는 파드와 퍼시스턴트 스토리지를 연결하는 것이다. 예를 들어, 각 파드를 퍼시스턴트볼륨(PersistentVolume)과 연결하는 스테이풀셋을 실행할 수 있다. 스테이풀셋에 있는 파드 중 하나에 장애가 발생하면, 쿠버네티스는 동일한 퍼시스턴트볼륨에 연결된 대체 파드를 만든다.

데몬셋(DaemonSet)은 특정 노드에 로컬인 기능을 제공하는 파드를 정의한다. 예를 들어, 해당 노드의 컨테이너가 저장소 시스템에 액세스할 수 있도록 하는 드라이버가 있다. 데몬셋은 드라이버 또는 기타 노드 수준 서비스가 필요한 노드에서 실행되어야 할 때 사용한다. 데몬셋의 각 파드는 기존 Unix/POSIX 서버의 시스템 데몬과 유사한 역할을 수행한다.

데몬셋은 클러스터 운영에 필수적인 요소일 수 있다. 예를 들어, 해당 노드가 클러스터 네트워킹에 액세스할 수 있도록 하는 플러그인과 같은 역할을 할 수 있다. 클러스터 네트워킹 노드 관리에 도움이 될 수도 있고, 실행 중인 컨테이너 플랫폼을 향상시키는 덜 필수적인 기능을 제공할 수도 있다. 데몬셋 (및 해당 파드)은 클러스터의 모든 노드에서 실행하거나, 일부 노드에서만 실행할 수 있다 (예를 들어, GPU가 설치된 노드에만 GPU 가속기 드라이버를 설치).

잡(Job) 및 크론잡(CronJob)을 사용하여 실행이 완료되면 종료되는 작업을 정의할 수 있다. 잡은 일회성 작업을 나타내는 반면, 각 크론잡은 일정에 따라 반복된다.

이 섹션의 다른 주제:

2.1 - 디플로이먼트

디플로이먼트는 애플리케이션 워크로드를 실행하기 위해 여러 파드 집합을 관리하며, 보통 스테이트리스(stateless) 애플리케이션을 대상으로 한다.

디플로이먼트(Deployment) 는 파드와 레플리카셋(ReplicaSet)에 대한 선언적 업데이트를 제공한다.

디플로이먼트에서 의도하는 상태 를 설명하고, 디플로이먼트 컨트롤러 (원문, Controller)는 현재 상태에서 의도하는 상태로 비율을 조정하며 변경한다. 새 레플리카셋을 생성하는 디플로이먼트를 정의하거나 기존 디플로이먼트를 제거하고, 모든 리소스를 새 디플로이먼트에 적용할 수 있다.

참고:

디플로이먼트가 소유하는 레플리카셋은 관리하지 말아야 한다. 사용자의 유스케이스가 다음에 포함되지 않는 경우 쿠버네티스 리포지터리에 이슈를 올릴 수 있다.

유스케이스

다음은 디플로이먼트의 일반적인 유스케이스이다.

레플리카셋을 롤아웃 할 디플로이먼트 생성. 레플리카셋은 백그라운드에서 파드를 생성한다. 롤아웃 상태를 체크해서 성공 여부를 확인한다.
디플로이먼트의 PodTemplateSpec을 업데이트해서 파드의 새로운 상태를 선언한다. 새 레플리카셋이 생성되면, 디플로이먼트는 파드를 기존 레플리카셋에서 새로운 레플리카셋으로 속도를 제어하며 이동하는 것을 관리한다. 각각의 새로운 레플리카셋은 디플로이먼트의 수정 버전에 따라 업데이트한다.
만약 디플로이먼트의 현재 상태가 안정적이지 않은 경우 디플로이먼트의 이전 버전으로 롤백한다. 각 롤백은 디플로이먼트의 수정 버전에 따라 업데이트한다.
더 많은 로드를 위해 디플로이먼트의 스케일 업.
디플로이먼트 롤아웃 일시 중지로 PodTemplateSpec에 여러 수정 사항을 적용하고, 재개하여 새로운 롤아웃을 시작한다.
롤아웃이 막혀있는지를 나타내는 디플로이먼트 상태를 이용.
더 이상 필요 없는 이전 레플리카셋 정리.

디플로이먼트 생성

다음은 디플로이먼트의 예시이다. 예시는 3개의 nginx 파드를 불러오기 위한 레플리카셋을 생성한다.

controllers/nginx-deployment.yaml

apiVersion: apps/v1
kind: Deployment
metadata:
  name: nginx-deployment
  labels:
    app: nginx
spec:
  replicas: 3
  selector:
    matchLabels:
      app: nginx
  template:
    metadata:
      labels:
        app: nginx
    spec:
      containers:
      - name: nginx
        image: nginx:1.14.2
        ports:
        - containerPort: 80

이 예시에 대한 설명은 다음과 같다.

.metadata.name 필드에 따라, nginx-deployment 이름을 가진 디플로이먼트가 생성된다. 이 이름은 이후에 생성되는 레플리카셋과 파드의 기준이 된다. 더 많은 정보를 위해 디플로이먼트 사양 작성를 참고한다.
.spec.replicas 필드에 따라 디플로이먼트는 복제된 파드 3개를 만드는 레플리카셋을 생성한다.
.spec.selector 필드는 생성된 레플리카셋이 관리할 파드를 찾아내는 방법을 정의한다. 이 사례에서는 파드 템플릿에 정의된 레이블(app: nginx)을 선택한다. 그러나 파드 템플릿 자체의 규칙이 만족되는 한, 보다 정교한 선택 규칙의 적용이 가능하다.
참고:
.spec.selector.matchLabels 필드는 {key,value}의 쌍으로 매핑되어 있다. matchLabels 에 매핑된 단일 {key,value}은 matchExpressions 의 요소에 해당하며, key 필드는 "key"에, 그리고 operator는 "In"에 대응되며 value 배열은 "value"만 포함한다. 매칭을 위해서는 matchLabels 와 matchExpressions 의 모든 요건이 충족되어야 한다.
.spec.template 필드에는 다음 하위 필드가 포함되어 있다.
- 파드는 .metadata.labels 필드를 사용해서 app: nginx 라는 레이블을 붙인다.
- 파드 템플릿의 사양 또는 .spec 필드는 파드가 도커 허브의 nginx 1.14.2 버전 이미지를 실행하는 nginx 컨테이너 1개를 실행하는 것을 나타낸다.
- 컨테이너 1개를 생성하고 .spec.containers[0].name 필드를 사용해서 nginx 이름을 붙인다.

시작하기 전에, 쿠버네티스 클러스터가 시작되고 실행 중인지 확인한다. 위의 디플로이먼트를 생성하려면 다음 단계를 따른다.

다음 명령어를 실행해서 디플로이먼트를 생성한다.

kubectl apply -f https://k8s.io/examples/controllers/nginx-deployment.yaml

kubectl get deployments 을 실행해서 디플로이먼트가 생성되었는지 확인한다.

만약 디플로이먼트가 여전히 생성 중이면, 다음과 유사하게 출력된다.

NAME               READY   UP-TO-DATE   AVAILABLE   AGE
nginx-deployment   0/3     0            0           1s

클러스터에서 디플로이먼트를 점검할 때, 다음 필드가 표시된다.

NAME 은 네임스페이스에 있는 디플로이먼트 이름의 목록이다.
READY 는 사용자가 사용할 수 있는 애플리케이션의 레플리카의 수를 표시한다. ready/desired 패턴을 따른다.
UP-TO-DATE 는 의도한 상태를 얻기 위해 업데이트된 레플리카의 수를 표시한다.
AVAILABLE 은 사용자가 사용할 수 있는 애플리케이션 레플리카의 수를 표시한다.
AGE 는 애플리케이션의 실행된 시간을 표시한다.

.spec.replicas 필드에 따라 의도한 레플리카의 수가 3개인지 알 수 있다.

디플로이먼트의 롤아웃 상태를 보려면, kubectl rollout status deployment/nginx-deployment 를 실행한다.
다음과 유사하게 출력된다.
```
Waiting for rollout to finish: 2 out of 3 new replicas have been updated...
deployment "nginx-deployment" successfully rolled out
```
몇 초 후 kubectl get deployments 를 다시 실행한다. 다음과 유사하게 출력된다.
```
NAME               READY   UP-TO-DATE   AVAILABLE   AGE
nginx-deployment   3/3     3            3           18s
```
디플로이먼트에서 3개의 레플리카가 생성되었고, 모든 레플리카는 최신 상태(최신 파드 템플릿을 포함)이며 사용 가능한 것을 알 수 있다.
디플로이먼트로 생성된 레플리카셋(rs)을 보려면, kubectl get rs 를 실행한다. 다음과 유사하게 출력된다.
```
NAME                          DESIRED   CURRENT   READY   AGE
nginx-deployment-75675f5897   3         3         3       18s
```
레플리카셋의 출력에는 다음 필드가 표시된다.
- NAME 은 네임스페이스에 있는 레플리카셋 이름의 목록이다.
- DESIRED 는 디플로이먼트의 생성 시 정의된 의도한 애플리케이션 레플리카 의 수를 표시한다. 이것이 의도한 상태 이다.
- CURRENT 는 현재 실행 중인 레플리카의 수를 표시한다.
- READY 는 사용자가 사용할 수 있는 애플리케이션의 레플리카의 수를 표시한다.
- AGE 는 애플리케이션의 실행된 시간을 표시한다.
레플리카셋의 이름은 항상 [DEPLOYMENT-NAME]-[HASH] 형식으로 된 것을 알 수 있다. 이 이름은 생성된 파드의 기준이 된다.
HASH 문자열은 레플리카셋의 pod-template-hash 레이블과 같다.

각 파드에 자동으로 생성된 레이블을 보려면, kubectl get pods --show-labels 를 실행한다. 다음과 유사하게 출력된다.

NAME                                READY     STATUS    RESTARTS   AGE       LABELS
nginx-deployment-75675f5897-7ci7o   1/1       Running   0          18s       app=nginx,pod-template-hash=75675f5897
nginx-deployment-75675f5897-kzszj   1/1       Running   0          18s       app=nginx,pod-template-hash=75675f5897
nginx-deployment-75675f5897-qqcnn   1/1       Running   0          18s       app=nginx,pod-template-hash=75675f5897

만들어진 레플리카셋은 실행 중인 3개의 nginx 파드를 보장한다.

참고:

디플로이먼트에는 파드 템플릿 레이블과 적절한 셀렉터를 반드시 명시해야 한다 (이 예시에서는 app: nginx).

레이블 또는 셀렉터는 다른 컨트롤러(다른 디플로이먼트와 스테이트풀셋(StatefulSet) 포함)와 겹치지 않아야 한다. 쿠버네티스는 겹치는 것을 막지 않으며, 만약 다중 컨트롤러가 겹치는 셀렉터를 가지는 경우 해당 컨트롤러의 충돌 또는 예기치 않은 동작을 야기할 수 있다.

Pod-template-hash 레이블

주의:

이 레이블은 변경하면 안 된다.

pod-template-hash 레이블은 디플로이먼트 컨트롤러에 의해서 디플로이먼트가 생성 또는 채택한 모든 레플리카셋에 추가된다.

이 레이블은 디플로이먼트의 자식 레플리카셋이 겹치지 않도록 보장한다. 레플리카셋의 PodTemplate 을 해싱하고, 해시 결과를 레플리카셋 셀렉터, 파드 템플릿 레이블 및 레플리카셋 이 가질 수 있는 기존의 모든 파드에 레이블 값으로 추가해서 사용하도록 생성한다.

디플로이먼트 업데이트

참고:

디플로이먼트의 파드 템플릿(즉, .spec.template)이 변경된 경우에만 디플로이먼트의 롤아웃이 트리거(trigger) 된다. 예를 들면 템플릿의 레이블이나 컨테이너 이미지가 업데이트된 경우이다. 디플로이먼트의 스케일링과 같은 다른 업데이트는 롤아웃을 트리거하지 말아야 한다.

다음 단계에 따라 디플로이먼트를 업데이트한다.

nginx:1.14.2 이미지 대신 nginx:1.16.1 이미지를 사용하도록 nginx 파드를 업데이트 한다.
```
kubectl set image deployment.v1.apps/nginx-deployment nginx=nginx:1.16.1
```
또는 다음의 명령어를 사용한다.
```
kubectl set image deployment/nginx-deployment nginx=nginx:1.16.1
```
여기서 deployment/nginx-deployment는 디플로이먼트를, nginx는 업데이트가 이루어질 컨테이너를, 그리고 nginx:1.16.1은 새 이미지와 태그 값을 가리킨다.
다음과 유사하게 출력된다.
```
deployment.apps/nginx-deployment image updated
```
다른 방법으로, 디플로이먼트를 edit 해서 .spec.template.spec.containers[0].image 를 nginx:1.14.2 에서 nginx:1.16.1 로 변경한다.
```
kubectl edit deployment/nginx-deployment
```
다음과 유사하게 출력된다.
```
deployment.apps/nginx-deployment edited
```

롤아웃 상태를 보려면 다음을 실행한다.

kubectl rollout status deployment/nginx-deployment

이와 유사하게 출력된다.

Waiting for rollout to finish: 2 out of 3 new replicas have been updated...

또는

deployment "nginx-deployment" successfully rolled out

업데이트된 디플로이먼트에 대해 자세한 정보 보기

롤아웃이 성공하면 kubectl get deployments 를 실행해서 디플로이먼트를 볼 수 있다. 이와 유사하게 출력된다.
```
NAME               READY   UP-TO-DATE   AVAILABLE   AGE
nginx-deployment   3/3     3            3           36s
```
kubectl get rs 를 실행해서 디플로이먼트가 새 레플리카셋을 생성해서 파드를 업데이트 했는지 볼 수 있고, 새 레플리카셋을 최대 3개의 레플리카로 스케일 업, 이전 레플리카셋을 0개의 레플리카로 스케일 다운한다.
```
kubectl get rs
```
이와 유사하게 출력된다.
```
NAME                          DESIRED   CURRENT   READY   AGE
nginx-deployment-1564180365   3         3         3       6s
nginx-deployment-2035384211   0         0         0       36s
```
get pods 를 실행하면 새 파드만 표시된다.
```
kubectl get pods
```
이와 유사하게 출력된다.
```
NAME                                READY     STATUS    RESTARTS   AGE
nginx-deployment-1564180365-khku8   1/1       Running   0          14s
nginx-deployment-1564180365-nacti   1/1       Running   0          14s
nginx-deployment-1564180365-z9gth   1/1       Running   0          14s
```
다음에 이러한 파드를 업데이트 하려면 디플로이먼트의 파드 템플릿만 다시 업데이트 하면 된다.
디플로이먼트는 업데이트되는 동안 일정한 수의 파드만 중단되도록 보장한다. 기본적으로 적어도 의도한 파드 수의 75% 이상이 동작하도록 보장한다(최대 25% 불가).
또한 디플로이먼트는 의도한 파드 수 보다 더 많이 생성되는 파드의 수를 제한한다. 기본적으로, 의도한 파드의 수 기준 최대 125%까지만 추가 파드가 동작할 수 있도록 제한한다(최대 25% 까지).
예를 들어, 위 디플로이먼트를 자세히 살펴보면 먼저 새로운 파드를 생성한 다음, 이전 파드를 삭제하고, 또 다른 새로운 파드를 만든 것을 볼 수 있다. 충분한 수의 새로운 파드가 나올 때까지 이전 파드를 죽이지 않으며, 충분한 수의 이전 파드들이 죽기 전까지 새로운 파드를 만들지 않는다. 이것은 최소 3개의 파드를 사용할 수 있게 하고, 최대 4개의 파드를 사용할 수 있게 한다. 디플로이먼트의 레플리카 크기가 4인 경우, 파드 숫자는 3개에서 5개 사이이다.

디플로이먼트의 세부 정보 가져오기

kubectl describe deployments

이와 유사하게 출력된다.

Name:                   nginx-deployment
Namespace:              default
CreationTimestamp:      Thu, 30 Nov 2017 10:56:25 +0000
Labels:                 app=nginx
Annotations:            deployment.kubernetes.io/revision=2
Selector:               app=nginx
Replicas:               3 desired | 3 updated | 3 total | 3 available | 0 unavailable
StrategyType:           RollingUpdate
MinReadySeconds:        0
RollingUpdateStrategy:  25% max unavailable, 25% max surge
Pod Template:
  Labels:  app=nginx
   Containers:
    nginx:
      Image:        nginx:1.16.1
      Port:         80/TCP
      Environment:  <none>
      Mounts:       <none>
    Volumes:        <none>
  Conditions:
    Type           Status  Reason
    ----           ------  ------
    Available      True    MinimumReplicasAvailable
    Progressing    True    NewReplicaSetAvailable
  OldReplicaSets:  <none>
  NewReplicaSet:   nginx-deployment-1564180365 (3/3 replicas created)
  Events:
    Type    Reason             Age   From                   Message
    ----    ------             ----  ----                   -------
    Normal  ScalingReplicaSet  2m    deployment-controller  Scaled up replica set nginx-deployment-2035384211 to 3
    Normal  ScalingReplicaSet  24s   deployment-controller  Scaled up replica set nginx-deployment-1564180365 to 1
    Normal  ScalingReplicaSet  22s   deployment-controller  Scaled down replica set nginx-deployment-2035384211 to 2
    Normal  ScalingReplicaSet  22s   deployment-controller  Scaled up replica set nginx-deployment-1564180365 to 2
    Normal  ScalingReplicaSet  19s   deployment-controller  Scaled down replica set nginx-deployment-2035384211 to 1
    Normal  ScalingReplicaSet  19s   deployment-controller  Scaled up replica set nginx-deployment-1564180365 to 3
    Normal  ScalingReplicaSet  14s   deployment-controller  Scaled down replica set nginx-deployment-2035384211 to 0

처음 디플로이먼트를 생성했을 때, 디플로이먼트가 레플리카셋(nginx-deployment-2035384211)을 생성하고 3개의 레플리카로 직접 스케일 업한 것을 볼 수 있다. 디플로이먼트를 업데이트하자, 새 레플리카셋(nginx-deployment-1564180365)을 생성하고, 1개로 스케일 업한 다음 모두 실행될 때까지 대기하였다. 그 뒤 이전 레플리카셋을 2개로 스케일 다운하고 새 레플리카셋을 2개로 스케일 업하여 모든 시점에 대해 최소 3개 / 최대 3개의 파드가 존재하도록 하였다. 이후 지속해서 같은 롤링 업데이트 정책으로 새 레플리카셋은 스케일 업하고 이전 레플리카셋은 스케일 다운한다. 마지막으로 새로운 레플리카셋에 3개의 사용 가능한 레플리카가 구성되며, 이전 레플리카셋은 0개로 스케일 다운된다.

참고:

쿠버네티스가 availableReplicas 수를 계산할 때 종료 중인(terminating) 파드는 포함하지 않으며, 이 수는 replicas - maxUnavailable 와 replicas + maxSurge 사이에 존재한다. 그 결과, 롤아웃 중에는 파드의 수가 예상보다 많을 수 있으며, 종료 중인 파드의 terminationGracePeriodSeconds가 만료될 때까지는 디플로이먼트가 소비하는 총 리소스가 replicas + maxSurge 이상일 수 있다.

롤오버(일명 인-플라이트 다중 업데이트)

디플로이먼트 컨트롤러는 각 시간마다 새로운 디플로이먼트에서 레플리카셋이 의도한 파드를 생성하고 띄우는 것을 주시한다. 만약 디플로이먼트가 업데이트되면, 기존 레플리카셋에서 .spec.selector 레이블과 일치하는 파드를 컨트롤 하지만, 템플릿과 .spec.template 이 불일치하면 스케일 다운이 된다. 결국 새로운 레플리카셋은 .spec.replicas 로 스케일되고, 모든 기존 레플리카셋은 0개로 스케일된다.

만약 기존 롤아웃이 진행되는 중에 디플로이먼트를 업데이트하는 경우 디플로이먼트가 업데이트에 따라 새 레플리카셋을 생성하고, 스케일 업하기 시작한다. 그리고 이전에 스케일 업 하던 레플리카셋에 롤오버 한다. --이것은 기존 레플리카셋 목록에 추가하고 스케일 다운을 할 것이다.

예를 들어 디플로이먼트로 nginx:1.14.2 레플리카를 5개 생성을 한다. 하지만 nginx:1.14.2 레플리카 3개가 생성되었을 때 디플로이먼트를 업데이트해서 nginx:1.16.1 레플리카 5개를 생성성하도록 업데이트를 한다고 가정한다. 이 경우 디플로이먼트는 즉시 생성된 3개의 nginx:1.14.2 파드 3개를 죽이기 시작하고 nginx:1.16.1 파드를 생성하기 시작한다. 이것은 과정이 변경되기 전 nginx:1.14.2 레플리카 5개가 생성되는 것을 기다리지 않는다.

레이블 셀렉터 업데이트

일반적으로 레이블 셀렉터를 업데이트 하는 것을 권장하지 않으며 셀렉터를 미리 계획하는 것을 권장한다. 어떤 경우든 레이블 셀렉터의 업데이트를 해야하는 경우 매우 주의하고, 모든 영향을 파악했는지 확인해야 한다.

참고:

API 버전 apps/v1 에서 디플로이먼트의 레이블 셀렉터는 생성 이후에는 변경할 수 없다.

셀렉터 추가 시 디플로이먼트의 사양에 있는 파드 템플릿 레이블도 새 레이블로 업데이트해야 한다. 그렇지 않으면 유효성 검사 오류가 반환된다. 이 변경은 겹치지 않는 변경으로 새 셀렉터가 이전 셀렉터로 만든 레플리카셋과 파드를 선택하지 않게 되고, 그 결과로 모든 기존 레플리카셋은 고아가 되며, 새로운 레플리카셋을 생성하게 된다.
셀렉터 업데이트는 기존 셀렉터 키 값을 변경하며, 결과적으로 추가와 동일한 동작을 한다.
셀렉터 삭제는 디플로이먼트 셀렉터의 기존 키를 삭제하며 파드 템플릿 레이블의 변경을 필요로 하지 않는다. 기존 레플리카셋은 고아가 아니고, 새 레플리카셋은 생성되지 않는다. 그러나 제거된 레이블은 기존 파드와 레플리카셋에 여전히 존재한다는 점을 참고해야 한다.

디플로이먼트 롤백

때때로 디플로이먼트의 롤백을 원할 수도 있다. 예를 들어 디플로이먼트가 지속적인 충돌로 안정적이지 않은 경우. 기본적으로 모든 디플로이먼트의 롤아웃 기록은 시스템에 남아있어 언제든지 원할 때 롤백이 가능하다 (이 사항은 수정 기록에 대한 상한 수정을 통해서 변경할 수 있다).

참고:

디플로이먼트의 수정 버전은 디플로이먼트 롤아웃시 생성된다. 이는 디플로이먼트 파드 템플릿 (.spec.template)이 변경되는 경우에만 새로운 수정 버전이 생성된다는 것을 의미한다. 예를 들어 템플릿의 레이블 또는 컨테이너 이미지를 업데이트 하는 경우가 있다. 디플로이먼트의 스케일링과 같은 다른 업데이트시 디플로이먼트 수정 버전은 생성되지 않으며 수동-스케일링 또는 자동-스케일링을 동시에 수행할 수 있다. 이는 이전 수정 버전으로 롤백을 하는 경우에 디플로이먼트 파드 템플릿 부분만 롤백된다는 것을 의미한다.

디플로이먼트를 업데이트하는 동안 이미지 이름을 nginx:1.16.1 이 아닌 nginx:1.161 로 입력해서 오타를 냈다고 가정한다.
```
kubectl set image deployment/nginx-deployment nginx=nginx:1.161 
```
이와 유사하게 출력된다.
```
deployment.apps/nginx-deployment image updated
```

롤아웃이 고착 된다. 고착된 롤아웃 상태를 확인할 수 있다.

kubectl rollout status deployment/nginx-deployment

이와 유사하게 출력된다.

Waiting for rollout to finish: 1 out of 3 new replicas have been updated...

Ctrl-C 를 눌러 위의 롤아웃 상태 보기를 중지한다. 고착된 롤아웃 상태에 대한 자세한 정보는 해당 내용을 더 읽어본다.

이전 레플리카는 2개( nginx-deployment-1564180365 과 nginx-deployment-2035384211), 새 레플리카는 1개(nginx-deployment-3066724191)임을 알 수 있다.

kubectl get rs

이와 유사하게 출력된다.

NAME                          DESIRED   CURRENT   READY   AGE
nginx-deployment-1564180365   3         3         3       25s
nginx-deployment-2035384211   0         0         0       36s
nginx-deployment-3066724191   1         1         0       6s

생성된 파드를 보면, 새로운 레플리카셋에 생성된 1개의 파드가 이미지 풀 루프(pull loop)에서 고착된 것을 볼 수 있다.
```
kubectl get pods
```
이와 유사하게 출력된다.
```
NAME                                READY     STATUS             RESTARTS   AGE
nginx-deployment-1564180365-70iae   1/1       Running            0          25s
nginx-deployment-1564180365-jbqqo   1/1       Running            0          25s
nginx-deployment-1564180365-hysrc   1/1       Running            0          25s
nginx-deployment-3066724191-08mng   0/1       ImagePullBackOff   0          6s
```
참고:
디플로이먼트 컨트롤러가 잘못된 롤아웃을 자동으로 중지하고, 새로운 레플리카셋의 스케일 업을 중지한다. 이는 지정한 롤링 업데이트의 파라미터(구체적으로 maxUnavailable)에 따라 달라진다. 쿠버네티스는 기본값으로 25%를 설정한다.

디플로이먼트에 대한 설명 보기

kubectl describe deployment

이와 유사하게 출력된다.

Name:           nginx-deployment
Namespace:      default
CreationTimestamp:  Tue, 15 Mar 2016 14:48:04 -0700
Labels:         app=nginx
Selector:       app=nginx
Replicas:       3 desired | 1 updated | 4 total | 3 available | 1 unavailable
StrategyType:       RollingUpdate
MinReadySeconds:    0
RollingUpdateStrategy:  25% max unavailable, 25% max surge
Pod Template:
  Labels:  app=nginx
  Containers:
    nginx:
    Image:        nginx:1.161
    Port:         80/TCP
    Host Port:    0/TCP
    Environment:  <none>
    Mounts:       <none>
  Volumes:        <none>
Conditions:
  Type           Status  Reason
  ----           ------  ------
  Available      True    MinimumReplicasAvailable
  Progressing    True    ReplicaSetUpdated
OldReplicaSets:     nginx-deployment-1564180365 (3/3 replicas created)
NewReplicaSet:      nginx-deployment-3066724191 (1/1 replicas created)
Events:
  FirstSeen LastSeen    Count   From                    SubObjectPath   Type        Reason              Message
  --------- --------    -----   ----                    -------------   --------    ------              -------
  1m        1m          1       {deployment-controller }                Normal      ScalingReplicaSet   Scaled up replica set nginx-deployment-2035384211 to 3
  22s       22s         1       {deployment-controller }                Normal      ScalingReplicaSet   Scaled up replica set nginx-deployment-1564180365 to 1
  22s       22s         1       {deployment-controller }                Normal      ScalingReplicaSet   Scaled down replica set nginx-deployment-2035384211 to 2
  22s       22s         1       {deployment-controller }                Normal      ScalingReplicaSet   Scaled up replica set nginx-deployment-1564180365 to 2
  21s       21s         1       {deployment-controller }                Normal      ScalingReplicaSet   Scaled down replica set nginx-deployment-2035384211 to 1
  21s       21s         1       {deployment-controller }                Normal      ScalingReplicaSet   Scaled up replica set nginx-deployment-1564180365 to 3
  13s       13s         1       {deployment-controller }                Normal      ScalingReplicaSet   Scaled down replica set nginx-deployment-2035384211 to 0
  13s       13s         1       {deployment-controller }                Normal      ScalingReplicaSet   Scaled up replica set nginx-deployment-3066724191 to 1

이 문제를 해결하려면 디플로이먼트를 안정적인 이전 수정 버전으로 롤백해야 한다.

디플로이먼트의 롤아웃 기록 확인

다음 순서에 따라 롤아웃 기록을 확인한다.

먼저 이 디플로이먼트의 수정 사항을 확인한다.

kubectl rollout history deployment/nginx-deployment

이와 유사하게 출력된다.

deployments "nginx-deployment"
REVISION    CHANGE-CAUSE
1           kubectl apply --filename=https://k8s.io/examples/controllers/nginx-deployment.yaml
2           kubectl set image deployment/nginx-deployment nginx=nginx:1.16.1
3           kubectl set image deployment/nginx-deployment nginx=nginx:1.161


 `CHANGE-CAUSE` 는 수정 생성시 디플로이먼트 주석인 `kubernetes.io/change-cause` 에서 복사한다. 다음에 대해 `CHANGE-CAUSE` 메시지를 지정할 수 있다.

 * 디플로이먼트에 `kubectl annotate deployment/nginx-deployment kubernetes.io/change-cause="image updated to 1.16.1"` 로 주석을 단다.
 * 수동으로 리소스 매니페스트 편집.

2. 각 수정 버전의 세부 정보를 보려면 다음을 실행한다.
 ```shell
 kubectl rollout history deployment/nginx-deployment --revision=2

이와 유사하게 출력된다.

deployments "nginx-deployment" revision 2
  Labels:       app=nginx
          pod-template-hash=1159050644
  Annotations:  kubernetes.io/change-cause=kubectl set image deployment/nginx-deployment nginx=nginx:1.16.1
  Containers:
    nginx:
    Image:      nginx:1.16.1
    Port:       80/TCP
      QoS Tier:
        cpu:      BestEffort
        memory:   BestEffort
    Environment Variables:      <none>
  No volumes.

이전 수정 버전으로 롤백

다음 단계에 따라 디플로이먼트를 현재 버전에서 이전 버전인 버전 2로 롤백한다.

이제 현재 롤아웃의 실행 취소 및 이전 수정 버전으로 롤백 하기로 결정했다.
```
kubectl rollout undo deployment/nginx-deployment
```
이와 유사하게 출력된다.
```
deployment.apps/nginx-deployment rolled back
```
또는 특정 수정 버전으로 롤백하려면 --to-revision 옵션에 해당 수정 버전을 명시한다.
```
kubectl rollout undo deployment/nginx-deployment --to-revision=2
```
이와 유사하게 출력된다.
```
deployment.apps/nginx-deployment rolled back
```
롤아웃 관련 명령에 대한 자세한 내용은 kubectl rollout을 참조한다.
이제 디플로이먼트가 이전 안정 수정 버전으로 롤백 된다. 버전 2로 롤백하기 위해 DeploymentRollback 이벤트가 디플로이먼트 컨트롤러에서 생성되는 것을 볼 수 있다.

만약 롤백에 성공하고, 디플로이먼트가 예상대로 실행되는지 확인하려면 다음을 실행한다.

kubectl get deployment nginx-deployment

이와 유사하게 출력된다.

NAME               READY   UP-TO-DATE   AVAILABLE   AGE
nginx-deployment   3/3     3            3           30m

디플로이먼트의 설명 가져오기.

kubectl describe deployment nginx-deployment

이와 유사하게 출력된다.

Name:                   nginx-deployment
Namespace:              default
CreationTimestamp:      Sun, 02 Sep 2018 18:17:55 -0500
Labels:                 app=nginx
Annotations:            deployment.kubernetes.io/revision=4
                        kubernetes.io/change-cause=kubectl set image deployment/nginx-deployment nginx=nginx:1.16.1
Selector:               app=nginx
Replicas:               3 desired | 3 updated | 3 total | 3 available | 0 unavailable
StrategyType:           RollingUpdate
MinReadySeconds:        0
RollingUpdateStrategy:  25% max unavailable, 25% max surge
Pod Template:
  Labels:  app=nginx
  Containers:
    nginx:
    Image:        nginx:1.16.1
    Port:         80/TCP
    Host Port:    0/TCP
    Environment:  <none>
    Mounts:       <none>
  Volumes:        <none>
Conditions:
  Type           Status  Reason
  ----           ------  ------
  Available      True    MinimumReplicasAvailable
  Progressing    True    NewReplicaSetAvailable
OldReplicaSets:  <none>
NewReplicaSet:   nginx-deployment-c4747d96c (3/3 replicas created)
Events:
  Type    Reason              Age   From                   Message
  ----    ------              ----  ----                   -------
  Normal  ScalingReplicaSet   12m   deployment-controller  Scaled up replica set nginx-deployment-75675f5897 to 3
  Normal  ScalingReplicaSet   11m   deployment-controller  Scaled up replica set nginx-deployment-c4747d96c to 1
  Normal  ScalingReplicaSet   11m   deployment-controller  Scaled down replica set  nginx-deployment-75675f5897 to 2
  Normal  ScalingReplicaSet   11m   deployment-controller  Scaled up replica set nginx-deployment-c4747d96c to 2
  Normal  ScalingReplicaSet   11m   deployment-controller  Scaled down replica set nginx-deployment-75675f5897 to 1
  Normal  ScalingReplicaSet   11m   deployment-controller  Scaled up replica set nginx-deployment-c4747d96c to 3
  Normal  ScalingReplicaSet   11m   deployment-controller  Scaled down replica set nginx-deployment-75675f5897 to 0
  Normal  ScalingReplicaSet   11m   deployment-controller  Scaled up replica set nginx-deployment-595696685f to 1
  Normal  DeploymentRollback  15s   deployment-controller  Rolled back deployment "nginx-deployment" to revision 2
  Normal  ScalingReplicaSet   15s   deployment-controller  Scaled down replica set nginx-deployment-595696685f to 0

디플로이먼트 스케일링

다음 명령어를 사용해서 디플로이먼트의 스케일을 할 수 있다.

kubectl scale deployment/nginx-deployment --replicas=10

이와 유사하게 출력된다.

deployment.apps/nginx-deployment scaled

가령 클러스터에서 horizontal Pod autoscaling를 설정 한 경우 디플로이먼트에 대한 오토스케일러를 설정할 수 있다. 그리고 기존 파드의 CPU 사용률을 기준으로 실행할 최소 파드 및 최대 파드의 수를 선택할 수 있다.

kubectl autoscale deployment/nginx-deployment --min=10 --max=15 --cpu-percent=80

이와 유사하게 출력된다.

deployment.apps/nginx-deployment scaled

비례적 스케일링(Proportional Scaling)

디플로이먼트 롤링업데이트는 여러 버전의 애플리케이션을 동시에 실행할 수 있도록 지원한다. 사용자 또는 오토스케일러가 롤아웃 중에 있는 디플로이먼트 롤링 업데이트를 스케일링 하는 경우(진행중 또는 일시 중지 중), 디플로이먼트 컨트롤러는 위험을 줄이기 위해 기존 활성화된 레플리카셋(파드와 레플리카셋)의 추가 레플리카의 균형을 조절 한다. 이것을 proportional scaling 라 부른다.

예를 들어, 10개의 레플리카를 디플로이먼트로 maxSurge=3, 그리고 maxUnavailable=2 로 실행 한다.

디플로이먼트에 있는 10개의 레플리카가 실행되는지 확인한다.

kubectl get deploy

이와 유사하게 출력된다.

NAME                 DESIRED   CURRENT   UP-TO-DATE   AVAILABLE   AGE
nginx-deployment     10        10        10           10          50s

클러스터 내부에서 확인할 수 없는 새 이미지로 업데이트 된다.

kubectl set image deployment/nginx-deployment nginx=nginx:sometag

이와 유사하게 출력된다.

deployment.apps/nginx-deployment image updated

이미지 업데이트는 레플리카셋 nginx-deployment-1989198191 으로 새로운 롤 아웃이 시작하지만, 위에서 언급한 maxUnavailable 의 요구 사항으로 인해 차단된다. 롤아웃 상태를 확인한다.
```
kubectl get rs
```
이와 유사하게 출력된다.
```
NAME                          DESIRED   CURRENT   READY     AGE
nginx-deployment-1989198191   5         5         0         9s
nginx-deployment-618515232    8         8         8         1m
```
그 다음 디플로이먼트에 대한 새로운 스케일링 요청이 함께 따라온다. 오토스케일러는 디플로이먼트 레플리카를 15로 증가시킨다. 디플로이먼트 컨트롤러는 새로운 5개의 레플리카의 추가를 위한 위치를 결정해야 한다. 만약 비례적 스케일링을 사용하지 않으면 5개 모두 새 레플리카셋에 추가된다. 비례적 스케일링으로 추가 레플리카를 모든 레플리카셋에 걸쳐 분산할 수 있다. 비율이 높을수록 가장 많은 레플리카가 있는 레플리카셋으로 이동하고, 비율이 낮을 수록 적은 레플리카가 있는 레플리카셋으로 이동한다. 남은 것들은 대부분의 레플리카가 있는 레플리카셋에 추가된다. 0개의 레플리카가 있는 레플리카셋은 스케일 업 되지 않는다.

위의 예시에서 기존 레플리카셋에 3개의 레플리카가 추가되고, 2개의 레플리카는 새 레플리카에 추가된다. 결국 롤아웃 프로세스는 새 레플리카가 정상이라고 가정하면 모든 레플리카를 새 레플리카셋으로 이동시킨다. 이를 확인하려면 다음을 실행한다.

kubectl get deploy

이와 유사하게 출력된다.

NAME                 DESIRED   CURRENT   UP-TO-DATE   AVAILABLE   AGE
nginx-deployment     15        18        7            8           7m

롤아웃 상태는 레플리카가 각 레플리카셋에 어떻게 추가되었는지 확인한다.

kubectl get rs

이와 유사하게 출력된다.

NAME                          DESIRED   CURRENT   READY     AGE
nginx-deployment-1989198191   7         7         0         7m
nginx-deployment-618515232    11        11        11        7m

디플로이먼트 롤아웃 일시 중지와 재개

디플로이먼트를 업데이트할 때 (또는 계획할 때), 하나 이상의 업데이트를 트리거하기 전에 해당 디플로이먼트에 대한 롤아웃을 일시 중지할 수 있다. 변경 사항을 적용할 준비가 되면, 디플로이먼트 롤아웃을 재개한다. 이러한 방법으로, 불필요한 롤아웃을 트리거하지 않고 롤아웃 일시 중지와 재개 사이에 여러 수정 사항을 적용할 수 있다.

예를 들어, 생성된 디플로이먼트의 경우

디플로이먼트 상세 정보를 가져온다.

kubectl get deploy

이와 유사하게 출력된다.

NAME      DESIRED   CURRENT   UP-TO-DATE   AVAILABLE   AGE
nginx     3         3         3            3           1m

롤아웃 상태를 가져온다.

kubectl get rs

이와 유사하게 출력된다.

NAME               DESIRED   CURRENT   READY     AGE
nginx-2142116321   3         3         3         1m

다음 명령을 사용해서 일시 중지한다.

kubectl rollout pause deployment/nginx-deployment

이와 유사하게 출력된다.

deployment.apps/nginx-deployment paused

그런 다음 디플로이먼트의 이미지를 업데이트 한다.

kubectl set image deployment/nginx-deployment nginx=nginx:1.16.1

이와 유사하게 출력된다.

deployment.apps/nginx-deployment image updated

새로운 롤아웃이 시작되지 않는다.

kubectl rollout history deployment/nginx-deployment

이와 유사하게 출력된다.

deployments "nginx"
REVISION  CHANGE-CAUSE
1   <none>

기존 레플리카셋이 변경되지 않았는지 확인하기 위해 롤아웃 상태를 출력한다.
```
kubectl get rs
```
이와 유사하게 출력된다.
```
NAME               DESIRED   CURRENT   READY     AGE
nginx-2142116321   3         3         3         2m
```
예를 들어 사용할 리소스를 업데이트하는 것처럼 원하는 만큼 업데이트할 수 있다.
```
kubectl set resources deployment/nginx-deployment -c=nginx --limits=cpu=200m,memory=512Mi
```
이와 유사하게 출력된다.
```
deployment.apps/nginx-deployment resource requirements updated
```
디플로이먼트 롤아웃을 일시 중지하기 전 디플로이먼트의 초기 상태는 해당 기능을 지속한다. 그러나 디플로이먼트 롤아웃이 일시 중지한 상태에서는 디플로이먼트의 새 업데이트에 영향을 주지 않는다.
결국, 디플로이먼트 롤아웃을 재개하고 새로운 레플리카셋이 새로운 업데이트를 제공하는 것을 관찰한다.
```
kubectl rollout resume deployment/nginx-deployment
```
이와 유사하게 출력된다.
```
deployment.apps/nginx-deployment resumed
```

롤아웃이 완료될 때까지 상태를 관찰한다.

kubectl get rs --watch

이와 유사하게 출력된다.

NAME               DESIRED   CURRENT   READY     AGE
nginx-2142116321   2         2         2         2m
nginx-3926361531   2         2         0         6s
nginx-3926361531   2         2         1         18s
nginx-2142116321   1         2         2         2m
nginx-2142116321   1         2         2         2m
nginx-3926361531   3         2         1         18s
nginx-3926361531   3         2         1         18s
nginx-2142116321   1         1         1         2m
nginx-3926361531   3         3         1         18s
nginx-3926361531   3         3         2         19s
nginx-2142116321   0         1         1         2m
nginx-2142116321   0         1         1         2m
nginx-2142116321   0         0         0         2m
nginx-3926361531   3         3         3         20s

롤아웃 최신 상태를 가져온다.

kubectl get rs

이와 유사하게 출력된다.

NAME               DESIRED   CURRENT   READY     AGE
nginx-2142116321   0         0         0         2m
nginx-3926361531   3         3         3         28s

참고:

일시 중지된 디플로이먼트를 재개할 때까지 롤백할 수 없다.

디플로이먼트 상태

디플로이먼트는 라이프사이클 동안 다양한 상태로 전환된다. 이는 새 레플리카셋을 롤아웃하는 동안 진행 중이 될 수 있고, 완료이거나 진행 실패일 수 있다.

디플로이먼트 진행 중

쿠버네티스는 다음 작업중 하나를 수행할 때 디플로이먼트를 진행 중 으로 표시한다.

디플로이먼트로 새 레플리카셋을 생성.
디플로이먼트로 새로운 레플리카셋을 스케일 업.
디플로이먼트로 기존 레플리카셋을 스케일 다운.
새 파드가 준비되거나 이용할 수 있음(최소 준비 시간(초) 동안 준비됨).

롤아웃이 "진행 중" 상태가 되면, 디플로이먼트 컨트롤러는 디플로이먼트의 .status.conditions에 다음 속성을 포함하는 컨디션을 추가한다.

type: Progressing
status: "True"
reason: NewReplicaSetCreated | reason: FoundNewReplicaSet | reason: ReplicaSetUpdated

kubectl rollout status 를 사용해서 디플로이먼트의 진행사황을 모니터할 수 있다.

디플로이먼트 완료

쿠버네티스는 다음과 같은 특성을 가지게 되면 디플로이먼트를 완료 로 표시한다.

디플로이먼트과 관련된 모든 레플리카가 지정된 최신 버전으로 업데이트 되었을 때. 즉, 요청한 모든 업데이트가 완료되었을 때.
디플로이먼트와 관련한 모든 레플리카를 사용할 수 있을 때.
디플로이먼트에 대해 이전 복제본이 실행되고 있지 않을 때.

롤아웃이 "완료" 상태가 되면, 디플로이먼트 컨트롤러는 디플로이먼트의 .status.conditions에 다음 속성을 포함하는 컨디션을 추가한다.

type: Progressing
status: "True"
reason: NewReplicaSetAvailable

이 Progressing 컨디션은 새로운 롤아웃이 시작되기 전까지는 "True" 상태값을 유지할 것이다. 레플리카의 가용성이 변경되는 경우에도(이 경우 Available 컨디션에 영향을 미침) 컨디션은 유지된다.

kubectl rollout status 를 사용해서 디플로이먼트가 완료되었는지 확인할 수 있다. 만약 롤아웃이 성공적으로 완료되면 kubectl rollout status 는 종료 코드로 0이 반환된다.

kubectl rollout status deployment/nginx-deployment

이와 유사하게 출력된다.

Waiting for rollout to finish: 2 of 3 updated replicas are available...
deployment "nginx-deployment" successfully rolled out

그리고 kubectl rollout 의 종료 상태는 0(success)이다.

echo $?

디플로이먼트 실패

디플로이먼트시 새 레플리카셋인 완료되지 않은 상태에서는 배포를 시도하면 고착될 수 있다. 이 문제는 다음 몇 가지 요인으로 인해 발생한다.

할당량 부족
준비성 프로브(readiness probe)의 실패
이미지 풀 에러
권한 부족
범위 제한
애플리케이션 런타임의 잘못된 구성

이 조건을 찾을 수 있는 한 가지 방법은 디플로이먼트 스펙에서 데드라인 파라미터를 지정하는 것이다 (.spec.progressDeadlineSeconds). .spec.progressDeadlineSeconds 는 (디플로이먼트 상태에서) 디플로이먼트의 진행이 정지되었음을 나타내는 디플로이먼트 컨트롤러가 대기하는 시간(초)를 나타낸다.

다음 kubectl 명령어로 progressDeadlineSeconds 를 설정해서 컨트롤러가 10분 후 디플로이먼트 롤아웃에 대한 진행 상태의 부족에 대한 리포트를 수행하게 한다.

kubectl patch deployment/nginx-deployment -p '{"spec":{"progressDeadlineSeconds":600}}'

이와 유사하게 출력된다.

deployment.apps/nginx-deployment patched

만약 데드라인을 넘어서면 디플로이먼트 컨트롤러는 디플로이먼트의 .status.conditions 속성에 다음의 디플로이먼트 컨디션(DeploymentCondition)을 추가한다.

type: Progressing
status: "False"
reason: ProgressDeadlineExceeded

이 컨디션은 일찍 실패할 수도 있으며 이러한 경우 ReplicaSetCreateError를 이유로 상태값을 "False"로 설정한다. 또한, 디플로이먼트 롤아웃이 완료되면 데드라인은 더 이상 고려되지 않는다.

컨디션 상태에 대한 자세한 내용은 쿠버네티스 API 규칙을 참고한다.

참고:

쿠버네티스는 reason: ProgressDeadlineExceeded 과 같은 상태 조건을 보고하는 것 이외에 정지된 디플로이먼트에 대해 조치를 취하지 않는다. 더 높은 수준의 오케스트레이터는 이를 활용할 수 있으며, 예를 들어 디플로이먼트를 이전 버전으로 롤백할 수 있다.

참고:

만약 디플로이먼트 롤아웃을 일시 중지하면 쿠버네티스는 지정된 데드라인과 비교하여 진행 상황을 확인하지 않는다. 롤아웃 중에 디플로이먼트 롤아웃을 안전하게 일시 중지하고, 데드라인을 넘기도록 하는 조건을 트리거하지 않고 재개할 수 있다.

설정한 타임아웃이 낮거나 일시적으로 처리될 수 있는 다른 종료의 에러로 인해 디플로이먼트에 일시적인 에러가 발생할 수 있다. 예를 들어, 할당량이 부족하다고 가정해보자. 만약 디플로이먼트를 설명하려면 다음 섹션을 확인한다.

kubectl describe deployment nginx-deployment

이와 유사하게 출력된다.

<...>
Conditions:
  Type            Status  Reason
  ----            ------  ------
  Available       True    MinimumReplicasAvailable
  Progressing     True    ReplicaSetUpdated
  ReplicaFailure  True    FailedCreate
<...>

만약 kubectl get deployment nginx-deployment -o yaml 을 실행하면 디플로이먼트 상태는 다음과 유사하다.

status:
  availableReplicas: 2
  conditions:
  - lastTransitionTime: 2016-10-04T12:25:39Z
    lastUpdateTime: 2016-10-04T12:25:39Z
    message: Replica set "nginx-deployment-4262182780" is progressing.
    reason: ReplicaSetUpdated
    status: "True"
    type: Progressing
  - lastTransitionTime: 2016-10-04T12:25:42Z
    lastUpdateTime: 2016-10-04T12:25:42Z
    message: Deployment has minimum availability.
    reason: MinimumReplicasAvailable
    status: "True"
    type: Available
  - lastTransitionTime: 2016-10-04T12:25:39Z
    lastUpdateTime: 2016-10-04T12:25:39Z
    message: 'Error creating: pods "nginx-deployment-4262182780-" is forbidden: exceeded quota:
      object-counts, requested: pods=1, used: pods=3, limited: pods=2'
    reason: FailedCreate
    status: "True"
    type: ReplicaFailure
  observedGeneration: 3
  replicas: 2
  unavailableReplicas: 2

결국, 디플로이먼트 진행 데드라인을 넘어서면, 쿠버네티스는 진행 컨디션의 상태와 이유를 업데이트한다.

Conditions:
  Type            Status  Reason
  ----            ------  ------
  Available       True    MinimumReplicasAvailable
  Progressing     False   ProgressDeadlineExceeded
  ReplicaFailure  True    FailedCreate

디플로이먼트를 스케일 다운하거나, 실행 중인 다른 컨트롤러를 스케일 다운하거나, 네임스페이스에서 할당량을 늘려서 할당량이 부족한 문제를 해결할 수 있다. 만약 할당량 컨디션과 디플로이먼트 롤아웃이 완료되어 디플로이먼트 컨트롤러를 만족한다면 성공한 컨디션의 디플로이먼트 상태가 업데이트를 볼 수 있다(status: "True" 와 reason: NewReplicaSetAvailable).

Conditions:
  Type          Status  Reason
  ----          ------  ------
  Available     True    MinimumReplicasAvailable
  Progressing   True    NewReplicaSetAvailable

type: Available 과 status: "True" 는 디플로이먼트가 최소한의 가용성을 가지고 있는 것을 의미한다. 최소한의 가용성은 디플로이먼트 계획에 명시된 파라미터에 의해 결정된다. type: Progressing 과 status: "True" 는 디플로이먼트가 롤아웃 도중에 진행 중 이거나, 성공적으로 완료되었으며, 진행 중 최소한으로 필요한 새로운 레플리카를 이용 가능하다는 것이다. (자세한 내용은 특정 조건의 이유를 참조한다. 이 경우 reason: NewReplicaSetAvailable 는 배포가 완료되었음을 의미한다.)

kubectl rollout status 를 사용해서 디플로이먼트의 진행이 실패되었는지 확인할 수 있다. kubectl rollout status 는 디플로이먼트의 진행 데드라인을 초과하면 0이 아닌 종료 코드를 반환한다.

kubectl rollout status deployment/nginx-deployment

이와 유사하게 출력된다.

Waiting for rollout to finish: 2 out of 3 new replicas have been updated...
error: deployment "nginx" exceeded its progress deadline

그리고 kubectl rollout 의 종료 상태는 1(error를 의미함)이다.

echo $?

실패한 디플로이먼트에서의 운영

완료된 디플로이먼트에 적용되는 모든 행동은 실패한 디플로이먼트에도 적용된다. 디플로이먼트 파드 템플릿에서 여러 개의 수정사항을 적용해야하는 경우 스케일 업/다운 하거나, 이전 수정 버전으로 롤백하거나, 일시 중지할 수 있다.

정책 초기화

디플로이먼트의 .spec.revisionHistoryLimit 필드를 설정해서 디플로이먼트에서 유지해야 하는 이전 레플리카셋의 수를 명시할 수 있다. 나머지는 백그라운드에서 가비지-수집이 진행된다. 기본적으로 10으로 되어 있다.

참고:

명시적으로 이 필드를 0으로 설정하면 그 결과로 디플로이먼트의 기록을 전부 초기화를 하고, 디플로이먼트는 롤백할 수 없게 된다.

디플로이먼트가 오직 완료 상태에 도달한 이후에 초기화는 시작된다. .spec.revisionHistoryLimit 값을 0으로 설정하더라도, 롤아웃이 발생하면 쿠버네티스가 이전 레플리카셋을 제거하기 전에 반드시 새로운 레플리카셋을 먼저 생성한다.

.spec.revisionHistoryLimit 값을 0이 아닌 값으로 설정하더라도, 실제 레플리카셋 개수가 설정한 제한을 초과할 수 있다. 예를 들어, 파드가 무한 충돌(crash looping)상태에 빠지고, 시간이 지나면서 여러 번 롤링 업데이트 이벤트가 발생하면, 디플로이먼트가 완전한 상태에 도달하지 못하기 때문에 .spec.revisionHistoryLimit 값보다 더 많은 레플리카셋이 생성될 수 있다.

카나리 디플로이먼트

만약 디플로이먼트를 이용해서 일부 사용자 또는 서버에 릴리스를 롤아웃 하기 위해서는 리소스 관리에 설명된 카나리 패던에 따라 각 릴리스 마다 하나씩 여러 디플로이먼트를 생성할 수 있다.

디플로이먼트 사양 작성

다른 모든 쿠버네티스 설정과 마찬가지로 디플로이먼트에는 .apiVersion, .kind 그리고 .metadata 필드가 필요하다. 설정 파일 작업에 대한 일반적인 내용은 애플리케이션 배포하기, 컨테이너 구성하기 그리고 kubectl을 사용해서 리소스 관리하기 문서를 참조한다.

컨트롤 플레인이 디플로이먼트를 위해 새로운 파드를 생성할 때, 디플로이먼트의 .metadata.name은 해당 파드의 이름을 짓는 기준의 일부가 된다. 디플로이먼트 오브젝트의 이름은 유효한 DNS 서브도메인 값이어야 한다. 그렇지 않으면 파드 호스트네임을 위한 예상치못한 결과를 초래할 수 있다. 최상의 호환성을 위해, 이름은 보다 제한적인 규칙을 따르는 DNS 라벨 형식을 따르는 것이 좋다.

디플로이먼트에는 .spec 섹션도 필요하다.

파드 템플릿

.spec.template 과 .spec.selector 은 .spec 에서 유일한 필수 필드이다.

.spec.template 는 파드 템플릿이다. 이것은 파드와 정확하게 동일한 스키마를 가지고 있고, 중첩된 것을 제외하면 apiVersion 과 kind 를 가지고 있지 않는다.

파드에 필요한 필드 외에 디플로이먼트 파드 템플릿은 적절한 레이블과 적절한 재시작 정책을 명시해야 한다. 레이블의 경우 다른 컨트롤러와 겹치지 않도록 해야 한다. 자세한 것은 셀렉터를 참조한다.

.spec.template.spec.restartPolicy 에는 오직 Always 만 허용되고, 명시되지 않으면 기본값이 된다.

레플리카

.spec.replicas 은 필요한 파드의 수를 지정하는 선택적 필드이다. 이것의 기본값은 1이다.

예를 들어 kubectl scale deployment deployment --replicas=X 명령으로 디플로이먼트의 크기를 수동으로 조정한 뒤, 매니페스트를 이용하여 디플로이먼트를 업데이트하면(예: kubectl apply -f deployment.yaml 실행), 수동으로 설정했던 디플로이먼트의 크기가 오버라이드된다.

HorizontalPodAutoscaler(또는 수평 스케일링을 위한 유사 API)가 디플로이먼트 크기를 관리하고 있다면, .spec.replicas 를 설정해서는 안 된다.

대신, 쿠버네티스 컨트롤 플레인이 .spec.replicas 필드를 자동으로 관리한다.

셀렉터

.spec.selector 는 디플로이먼트의 대상이 되는 파드에 대해 레이블 셀렉터를 지정하는 필수 필드이다.

.spec.selector 는 .spec.template.metadata.labels 과 일치해야 하며, 그렇지 않으면 API에 의해 거부된다.

API 버전 apps/v1 에서는 .spec.selector 와 .metadata.labels 이 설정되지 않으면 .spec.template.metadata.labels 은 기본 설정되지 않는다. 그래서 이것들은 명시적으로 설정되어야 한다. 또한 apps/v1 에서는 디플로이먼트를 생성한 후에는 .spec.selector 이 변경되지 않는 점을 참고한다.

디플로이먼트는 템플릿의 .spec.template 와 다르거나 파드의 수가 .spec.replicas 를 초과할 경우 셀렉터와 일치하는 레이블을 가진 파드를 종료할 수 있다. 파드의 수가 의도한 수량보다 적을 경우 .spec.template 에 맞는 새 파드를 띄운다.

참고:

다른 디플로이먼트를 생성하거나, 레플리카셋 또는 레플리케이션컨트롤러와 같은 다른 컨트롤러를 사용해서 직접적으로 레이블과 셀렉터가 일치하는 다른 파드를 생성하지 말아야 한다. 만약 이렇게 하면 첫 번째 디플로이먼트는 다른 파드를 만들었다고 생각한다. 쿠버네티스는 이 일을 막지 않는다.

만약 셀렉터가 겹치는 컨트롤러가 어러 개 있는 경우, 컨트롤러는 서로 싸우고 올바르게 작동하지 않는다.

전략

.spec.strategy 는 이전 파드를 새로운 파드로 대체하는 전략을 명시한다. .spec.strategy.type 은 "재생성" 또는 "롤링업데이트"가 될 수 있다. "롤링업데이트"가 기본값이다.

디플로이먼트 재생성

기존의 모든 파드는 .spec.strategy.type==Recreate 이면 새 파드가 생성되기 전에 죽는다.

참고:

이렇게 하면 업그레이드를 생성하기 전에 파드 종료를 보장할 수 있다. 디플로이먼트를 업그레이드하면, 이전 버전의 모든 파드가 즉시 종료된다. 신규 버전의 파드가 생성되기 전에 성공적으로 제거가 완료되기를 대기한다. 파드를 수동으로 삭제하면, 라이프사이클은 레플리카셋에 의해 제어되며(이전 파드가 여전히 종료 상태에 있는 경우에도) 교체용 파드가 즉시 생성된다. 파드에 대해 "최대" 보장이 필요한 경우 스테이트풀셋의 사용을 고려해야 한다.

디플로이먼트 롤링 업데이트

디플로이먼트는 .spec.strategy.type==RollingUpdate 이면 파드를 롤링 업데이트 방식으로 업데이트 한다. maxUnavailable 와 maxSurge 를 명시해서 롤링 업데이트 프로세스를 제어할 수 있다.

최대 불가(Max Unavailable)

.spec.strategy.rollingUpdate.maxUnavailable 은 업데이트 프로세스 중에 사용할 수 없는 최대 파드의 수를 지정하는 선택적 필드이다. 이 값은 절대 숫자(예: 5) 또는 의도한 파드 비율(예: 10%)이 될 수 있다. 절대 값은 내림해서 백분율로 계산한다. 만약 .spec.strategy.rollingUpdate.maxSurge 가 0이면 값이 0이 될 수 없다. 기본 값은 25% 이다.

예를 들어 이 값을 30%로 설정하면 롤링업데이트 시작시 즉각 이전 레플리카셋의 크기를 의도한 파드 중 70%를 스케일 다운할 수 있다. 새 파드가 준비되면 기존 레플리카셋을 스케일 다운할 수 있으며, 업데이트 중에 항상 사용 가능한 전체 파드의 수는 의도한 파드의 수의 70% 이상이 되도록 새 레플리카셋을 스케일 업할 수 있다.

최대 서지(Max Surge)

.spec.strategy.rollingUpdate.maxSurge 는 의도한 파드의 수에 대해 생성할 수 있는 최대 파드의 수를 지정하는 선택적 필드이다. 이 값은 절대 숫자(예: 5) 또는 의도한 파드 비율(예: 10%)이 될 수 있다. MaxUnavailable 값이 0이면 이 값은 0이 될 수 없다. 절대 값은 올림해서 백분율로 계산한다. 기본 값은 25% 이다.

예를 들어 이 값을 30%로 설정하면 롤링업데이트 시작시 새 레플리카셋의 크기를 즉시 조정해서 기존 및 새 파드의 전체 갯수를 의도한 파드의 130%를 넘지 않도록 한다. 기존 파드가 죽으면 새로운 래플리카셋은 스케일 업할 수 있으며, 업데이트하는 동안 항상 실행하는 총 파드의 수는 최대 의도한 파드의 수의 130%가 되도록 보장한다.

다음은 maxUnavailable 및 maxSurge 값을 사용하는 롤링 업데이트 디플로이먼트 예시이다.

apiVersion: apps/v1
kind: Deployment
metadata:
 name: nginx-deployment
 labels:
   app: nginx
spec:
 replicas: 3
 selector:
   matchLabels:
     app: nginx
 template:
   metadata:
     labels:
       app: nginx
   spec:
     containers:
     - name: nginx
       image: nginx:1.14.2
       ports:
       - containerPort: 80
 strategy:
   type: RollingUpdate
   rollingUpdate:
     maxUnavailable: 1

apiVersion: apps/v1
kind: Deployment
metadata:
 name: nginx-deployment
 labels:
   app: nginx
spec:
 replicas: 3
 selector:
   matchLabels:
     app: nginx
 template:
   metadata:
     labels:
       app: nginx
   spec:
     containers:
     - name: nginx
       image: nginx:1.14.2
       ports:
       - containerPort: 80
 strategy:
   type: RollingUpdate
   rollingUpdate:
     maxSurge: 1

apiVersion: apps/v1
kind: Deployment
metadata:
 name: nginx-deployment
 labels:
   app: nginx
spec:
 replicas: 3
 selector:
   matchLabels:
     app: nginx
 template:
   metadata:
     labels:
       app: nginx
   spec:
     containers:
     - name: nginx
       image: nginx:1.14.2
       ports:
       - containerPort: 80
 strategy:
   type: RollingUpdate
   rollingUpdate:
     maxSurge: 1
     maxUnavailable: 1

진행 기한 시간(초)

.spec.progressDeadlineSeconds 는 디플로어먼트가 표면적으로 type: Progressing, status: "False"의 상태 그리고 리소스가 reason: ProgressDeadlineExceeded 상태로 진행 실패를 보고하기 전에 디플로이먼트가 진행되는 것을 대기시키는 시간(초)를 명시하는 선택적 필드이다. 디플로이먼트 컨트롤러는 디플로이먼트를 계속 재시도 한다. 기본값은 600(초)이다. 미래에 자동화된 롤백이 구현된다면 디플로이먼트 컨트롤러는 상태를 관찰하고, 그 즉시 디플로이먼트를 롤백할 것이다.

만약 명시된다면 이 필드는 .spec.minReadySeconds 보다 커야 한다.

최소 대기 시간(초)

.spec.minReadySeconds 는 새롭게 생성된 파드의 컨테이너가 어떤 것과도 충돌하지 않고 사 용할 수 있도록 준비되어야 하는 최소 시간(초)을 지정하는 선택적 필드이다. 이 기본 값은 0이다(파드는 준비되는 즉시 사용할 수 있는 것으로 간주됨). 파드가 준비되었다고 간주되는 시기에 대한 자세한 내용은 컨테이너 프로브를 참조한다.

파드 종료

기능 상태: Kubernetes v1.35 [beta](enabled by default)

API 서버와 kube-controller-manager에 DeploymentReplicaSetTerminatingReplicas 기능 게이트를 설정하여 활성화할 수 있다.

삭제나 스케일 다운으로 인해 Terminating 상태가 된 파드는 종료까지 오랜 시간이 걸릴 수 있으며, 그 기간 동안 추가적인 리소스를 사용할 수 있다. 그 결과 전체 파드 수가 일시적으로 .spec.replicas 값을 초과할 수 있다. 종료 중인 상태의 파드는 디플로이먼트의 .status.terminatingReplicas 필드를 통해 추적할 수 있다.

수정 버전 기록 제한

디플로이먼트의 수정 버전 기록은 자신이 컨트롤하는 레플리카셋에 저장된다.

.spec.revisionHistoryLimit 은 롤백을 허용하기 위해 보존할 이전 레플리카셋의 수를 지정하는 선택적 필드이다. 이 이전 레플리카셋은 etcd 의 리소스를 소비하고, kubectl get rs 의 결과를 가득차게 만든다. 각 디플로이먼트의 구성은 디플로이먼트의 레플리카셋에 저장된다. 이전 레플리카셋이 삭제되면 해당 디플로이먼트 수정 버전으로 롤백할 수 있는 기능이 사라진다. 기본적으로 10개의 기존 레플리카셋이 유지되지만 이상적인 값은 새로운 디플로이먼트의 빈도와 안정성에 따라 달라진다.

더욱 구체적으로 이 필드를 0으로 설정하면 레플리카가 0이 되며 이전 레플리카셋이 정리된다. 이 경우, 새로운 디플로이먼트 롤아웃을 취소할 수 없다. 새로운 디플로이먼트 롤아웃은 수정 버전 이력이 정리되기 때문이다.

일시 정지

.spec.paused 는 디플로이먼트를 일시 중지나 재개하기 위한 선택적 부울 필드이다. 일시 중지 된 디플로이먼트와 일시 중지 되지 않은 디플로이먼트 사이의 유일한 차이점은 일시 중지된 디플로이먼트는 PodTemplateSpec에 대한 변경 사항이 일시중지 된 경우 새 롤아웃을 트리거 하지 않는다. 디플로이먼트는 생성시 기본적으로 일시 중지되지 않는다.

다음 내용

파드에 대해 배운다.
디플로이먼트를 사용해서 스테이트리스 애플리케이션을 구동한다.
디플로이먼트 API를 이해하기 위해서 Deployment 오브젝트 정의를 읽는다.
PodDisruptionBudget과 이를 사용해서 어떻게 중단 중에 애플리케이션 가용성을 관리할 수 있는지에 대해 읽는다.
kubectl을 사용하여 디플로이먼트 생성하기.

2.2 - 레플리카셋

레플리카셋의 목적은 레플리카 파드 집합의 실행을 항상 안정적으로 유지하는 것이다. 이처럼 레플리카셋은 보통 명시된 동일 파드 개수에 대한 가용성을 보증하는데 사용한다.

레플리카셋의 작동 방식

레플리카셋을 정의하는 필드는 획득 가능한 파드를 식별하는 방법이 명시된 셀렉터, 유지해야 하는 파드 개수를 명시하는 레플리카의 개수, 그리고 레플리카 수 유지를 위해 생성하는 신규 파드에 대한 데이터를 명시하는 파드 템플릿을 포함한다. 그러면 레플리카셋은 필드에 지정된 설정을 충족하기 위해 필요한 만큼 파드를 만들고 삭제한다. 레플리카셋이 새로운 파드를 생성해야 할 경우, 명시된 파드 템플릿을 사용한다.

레플리카셋은 파드의 metadata.ownerReferences 필드를 통해 파드에 연결되며, 이는 현재 오브젝트가 소유한 리소스를 명시한다. 레플리카셋이 가지고 있는 모든 파드의 ownerReferences 필드는 해당 파드를 소유한 레플리카셋을 식별하기 위한 소유자 정보를 가진다. 이 링크를 통해 레플리카셋은 자신이 유지하는 파드의 상태를 확인하고 이에 따라 관리 한다.

레플리카셋은 셀렉터를 이용해서 필요한 새 파드를 식별한다. 만약 파드에 OwnerReference가 없거나, OwnerReference가 컨트롤러 (원문, Controller) 가 아니고 레플리카셋의 셀렉터와 일치한다면 레플리카셋이 즉각 파드를 가지게 될 것이다.

레플리카셋을 사용하는 시기

레플리카셋은 지정된 수의 파드 레플리카가 항상 실행되도록 보장한다. 그러나 디플로이먼트는 레플리카셋을 관리하고 다른 유용한 기능과 함께 파드에 대한 선언적 업데이트를 제공하는 상위 개념이다. 따라서 별도의 사용자 정의(custom) 업데이트 오케스트레이션이 필요한 경우 또는 업데이트가 전혀 필요 없는 경우가 아니라면, 레플리카셋을 직접 사용하기보다는 디플로이먼트를 사용하는 것을 권장한다.

이는 레플리카셋 오브젝트를 직접 조작할 필요가 없다는 것을 의미한다. 대신 디플로이먼트를 이용하고 사양 부분에서 애플리케이션을 정의하면 된다.

예시

controllers/frontend.yaml

apiVersion: apps/v1
kind: ReplicaSet
metadata:
  name: frontend
  labels:
    app: guestbook
    tier: frontend
spec:
  # 케이스에 따라 레플리카를 수정한다.
  replicas: 3
  selector:
    matchLabels:
      tier: frontend
  template:
    metadata:
      labels:
        tier: frontend
    spec:
      containers:
      - name: php-redis
        image: gcr.io/google_samples/gb-frontend:v3

이 매니페스트를 frontend.yaml에 저장하고 쿠버네티스 클러스터에 적용하면 정의되어 있는 레플리카셋이 생성되고 레플리카셋이 관리하는 파드가 생성된다.

kubectl apply -f https://kubernetes.io/examples/controllers/frontend.yaml

현재 배포된 레플리카셋을 확인할 수 있다.

kubectl get rs

그리고 생성된 프런트엔드를 볼 수 있다.

NAME       DESIRED   CURRENT   READY   AGE
frontend   3         3         3       6s

또한 레플리카셋의 상태를 확인할 수 있다.

kubectl describe rs/frontend

출력은 다음과 유사할 것이다.

Name:         frontend
Namespace:    default
Selector:     tier=frontend
Labels:       app=guestbook
              tier=frontend
Annotations:  kubectl.kubernetes.io/last-applied-configuration:
                {"apiVersion":"apps/v1","kind":"ReplicaSet","metadata":{"annotations":{},"labels":{"app":"guestbook","tier":"frontend"},"name":"frontend",...
Replicas:     3 current / 3 desired
Pods Status:  3 Running / 0 Waiting / 0 Succeeded / 0 Failed
Pod Template:
  Labels:  tier=frontend
  Containers:
   php-redis:
    Image:        gcr.io/google_samples/gb-frontend:v3
    Port:         <none>
    Host Port:    <none>
    Environment:  <none>
    Mounts:       <none>
  Volumes:        <none>
Events:
  Type    Reason            Age   From                   Message
  ----    ------            ----  ----                   -------
  Normal  SuccessfulCreate  117s  replicaset-controller  Created pod: frontend-wtsmm
  Normal  SuccessfulCreate  116s  replicaset-controller  Created pod: frontend-b2zdv
  Normal  SuccessfulCreate  116s  replicaset-controller  Created pod: frontend-vcmts

마지막으로 파드가 올라왔는지 확인할 수 있다.

kubectl get pods

다음과 유사한 파드 정보를 볼 수 있다.

NAME             READY   STATUS    RESTARTS   AGE
frontend-b2zdv   1/1     Running   0          6m36s
frontend-vcmts   1/1     Running   0          6m36s
frontend-wtsmm   1/1     Running   0          6m36s

또한 파드들의 소유자 참조 정보가 해당 프런트엔드 레플리카셋으로 설정되어 있는지 확인할 수 있다. 확인을 위해서는 실행 중인 파드 중 하나의 yaml을 확인한다.

kubectl get pods frontend-b2zdv -o yaml

메타데이터의 ownerReferences 필드에 설정되어 있는 프런트엔드 레플리카셋의 정보가 다음과 유사하게 나오는 것을 볼 수 있다.

apiVersion: v1
kind: Pod
metadata:
  creationTimestamp: "2020-02-12T07:06:16Z"
  generateName: frontend-
  labels:
    tier: frontend
  name: frontend-b2zdv
  namespace: default
  ownerReferences:
  - apiVersion: apps/v1
    blockOwnerDeletion: true
    controller: true
    kind: ReplicaSet
    name: frontend
    uid: f391f6db-bb9b-4c09-ae74-6a1f77f3d5cf
...

템플릿을 사용하지 않는 파드의 획득

단독(bare) 파드를 생성하는 것에는 문제가 없지만, 단독 파드가 레플리카셋의 셀렉터와 일치하는 레이블을 가지지 않도록 하는 것을 강력하게 권장한다. 그 이유는 레플리카셋이 소유하는 파드가 템플릿에 명시된 파드에만 국한되지 않고, 이전 섹션에서 명시된 방식에 의해서도 다른 파드의 획득이 가능하기 때문이다.

이전 프런트엔드 레플리카셋 예제와 다음의 매니페스트에 명시된 파드를 가져와 참조한다.

pods/pod-rs.yaml

apiVersion: v1
kind: Pod
metadata:
  name: pod1
  labels:
    tier: frontend
spec:
  containers:
  - name: hello1
    image: gcr.io/google-samples/hello-app:2.0

---

apiVersion: v1
kind: Pod
metadata:
  name: pod2
  labels:
    tier: frontend
spec:
  containers:
  - name: hello2
    image: gcr.io/google-samples/hello-app:1.0

기본 파드는 소유자 관련 정보에 컨트롤러(또는 오브젝트)를 가지지 않기 때문에 프런트엔드 레플리카셋의 셀렉터와 일치하면 즉시 레플리카셋에 소유된다.

프런트엔드 레플리카셋이 배치되고 초기 파드 레플리카가 셋업된 이후에, 레플리카 수 요구 사항을 충족시키기 위해서 신규 파드를 생성한다고 가정해보자.

kubectl apply -f https://kubernetes.io/examples/pods/pod-rs.yaml

새로운 파드는 레플리카셋에 의해 인식되며 레플리카셋이 필요한 수량을 초과하면 즉시 종료된다.

파드를 가져온다.

kubectl get pods

결과에는 새로운 파드가 이미 종료되었거나 종료가 진행 중인 것을 보여준다.

NAME             READY   STATUS        RESTARTS   AGE
frontend-b2zdv   1/1     Running       0          10m
frontend-vcmts   1/1     Running       0          10m
frontend-wtsmm   1/1     Running       0          10m
pod1             0/1     Terminating   0          1s
pod2             0/1     Terminating   0          1s

파드를 먼저 생성한다.

kubectl apply -f https://kubernetes.io/examples/pods/pod-rs.yaml

그 다음 레플리카셋을 생성한다.

kubectl apply -f https://kubernetes.io/examples/controllers/frontend.yaml

레플리카셋이 해당 파드를 소유한 것을 볼 수 있으며 새 파드 및 기존 파드의 수가 레플리카셋이 필요로 하는 수와 일치할 때까지 사양에 따라 신규 파드만 생성한다. 파드를 가져온다.

kubectl get pods

다음 출력에서 볼 수 있다.

NAME             READY   STATUS    RESTARTS   AGE
frontend-hmmj2   1/1     Running   0          9s
pod1             1/1     Running   0          36s
pod2             1/1     Running   0          36s

이러한 방식으로 레플리카셋은 템플릿을 사용하지 않는 파드를 소유하게 된다.

레플리카셋 매니페스트 작성하기

레플리카셋은 모든 쿠버네티스 API 오브젝트와 마찬가지로 apiVersion, kind, metadata 필드가 필요하다. 레플리카셋에 대한 kind 필드의 값은 항상 레플리카셋이다.

레플리카셋 오브젝트의 이름은 유효한 DNS 서브도메인 이름이어야 한다.

레플리카셋도 .spec 섹션이 필요하다.

파드 템플릿

.spec.template은 레이블을 붙이도록 되어 있는 파드 템플릿이다. 우리는 frontend.yaml 예제에서 tier: frontend이라는 레이블을 하나 가지고 있다. 이 파드를 다른 컨트롤러가 취하지 않도록 다른 컨트롤러의 셀렉터와 겹치지 않도록 주의해야 한다.

템플릿의 재시작 정책 필드인 .spec.template.spec.restartPolicy는 기본값인 Always만 허용된다.

파드 셀렉터

.spec.selector 필드는 레이블 셀렉터이다. 앞서 논의한 것처럼 이 레이블은 소유될 가능성이 있는 파드를 식별하는데 사용된다. 우리 frontend.yaml 예제에서의 셀렉터는 다음과 같다.

matchLabels:
  tier: frontend

레플리카셋에서 .spec.template.metadata.labels는 spec.selector과 일치해야 하며 그렇지 않으면 API에 의해 거부된다.

참고:

2개의 레플리카셋이 동일한 .spec.selector필드를 지정한 반면, 다른 .spec.template.metadata.labels와 .spec.template.spec 필드를 명시한 경우, 각 레플리카셋은 다른 레플리카셋이 생성한 파드를 무시한다.

레플리카

.spec.replicas를 설정해서 동시에 동작하는 파드의 수를 지정할 수 있다. 레플리카셋은 파드의 수가 일치하도록 생성 및 삭제한다.

만약 .spec.replicas를 지정하지 않으면 기본값은 1이다.

레플리카셋 작업

레플리카셋과 해당 파드 삭제

레플리카셋 및 모든 파드를 삭제하려면 kubectl delete를 사용한다. 가비지 수집기는 기본적으로 종속되어 있는 모든 파드를 자동으로 삭제한다.

REST API 또는 client-go 라이브러리를 이용할 때는 -d 옵션으로 propagationPolicy를 Background또는 Foreground로 설정해야 한다. 예시:

kubectl proxy --port=8080
curl -X DELETE  'localhost:8080/apis/apps/v1/namespaces/default/replicasets/frontend' \
> -d '{"kind":"DeleteOptions","apiVersion":"v1","propagationPolicy":"Foreground"}' \
> -H "Content-Type: application/json"

레플리카셋만 삭제하기

kubectl delete에 --cascade=orphan 옵션을 사용하여 연관 파드에 영향을 주지 않고 레플리카셋을 삭제할 수 있다. REST API 또는 client-go 라이브러리를 이용할 때는 propagationPolicy에 Orphan을 설정해야 한다. 예시:

kubectl proxy --port=8080
curl -X DELETE  'localhost:8080/apis/apps/v1/namespaces/default/replicasets/frontend' \
> -d '{"kind":"DeleteOptions","apiVersion":"v1","propagationPolicy":"Orphan"}' \
> -H "Content-Type: application/json"

원본이 삭제되면 새 레플리카셋을 생성해서 대체할 수 있다. 기존 .spec.selector와 신규 .spec.selector가 같으면 새 레플리카셋은 기존 파드를 선택한다. 하지만 신규 레플리카셋은 기존 파드를 신규 레플리카셋의 새롭고 다른 파드 템플릿에 일치시키는 작업을 수행하지는 않는다. 컨트롤 방식으로 파드를 새로운 사양으로 업데이트 하기 위해서는 디플로이먼트를 이용하면 된다. 이는 레플리카셋이 롤링 업데이트를 직접적으로 지원하지 않기 때문이다.

레플리카셋에서 파드 격리

레이블을 변경하면 레플리카셋에서 파드를 제거할 수 있다. 이 방식은 디버깅과 데이터 복구 등을 위해 서비스에서 파드를 제거하는 데 사용할 수 있다. 이 방식으로 제거된 파드는 자동으로 교체된다( 레플리카의 수가 변경되지 않는다고 가정한다).

레플리카셋의 스케일링

레플리카셋을 손쉽게 스케일 업 또는 다운하는 방법은 단순히 .spec.replicas 필드를 업데이트하면 된다. 레플리카셋 컨트롤러는 일치하는 레이블 셀렉터가 있는 파드가 의도한 수 만큼 가용하고 운영 가능하도록 보장한다.

스케일 다운할 때, 레플리카셋 컨트롤러는 스케일 다운할 파드의 우선순위를 정하기 위해 다음의 기준으로 가용 파드를 정렬하여 삭제할 파드를 결정한다.

Pending 상태인 (+ 스케줄링할 수 없는) 파드가 먼저 스케일 다운된다.
controller.kubernetes.io/pod-deletion-cost 어노테이션이 설정되어 있는 파드에 대해서는, 낮은 값을 갖는 파드가 먼저 스케일 다운된다.
더 많은 레플리카가 있는 노드의 파드가 더 적은 레플리카가 있는 노드의 파드보다 먼저 스케일 다운된다.
파드 생성 시간이 다르면, 더 최근에 생성된 파드가 이전에 생성된 파드보다 먼저 스케일 다운된다. (LogarithmicScaleDown 기능 게이트가 활성화되어 있으면 생성 시간이 정수 로그 스케일로 버킷화된다)

모든 기준에 대해 동등하다면, 스케일 다운할 파드가 임의로 선택된다.

파드 삭제 비용

기능 상태: Kubernetes v1.22 [beta]

controller.kubernetes.io/pod-deletion-cost 어노테이션을 이용하여, 레플리카셋을 스케일 다운할 때 어떤 파드부터 먼저 삭제할지에 대한 우선순위를 설정할 수 있다.

이 어노테이션은 파드에 설정되어야 하며, [-2147483647, 2147483647] 범위를 갖는다. 이 어노테이션은 하나의 레플리카셋에 있는 다른 파드와의 상대적 삭제 비용을 나타낸다. 삭제 비용이 낮은 파드는 삭제 비용이 높은 파드보다 삭제 우선순위가 높다.

파드에 대해 이 값을 명시하지 않으면 기본값은 0이다. 음수로도 설정할 수 있다. 유효하지 않은 값은 API 서버가 거부한다.

이 기능은 베타 상태이며 기본적으로 활성화되어 있다. kube-apiserver와 kube-controller-manager에 대해 PodDeletionCost 기능 게이트를 이용하여 비활성화할 수 있다.

참고:

이 기능은 best-effort 방식으로 동작하므로, 파드 삭제 순서를 보장하지는 않는다.
이 값을 자주 바꾸는 것은 피해야 한다 (예: 메트릭 값에 따라 변경). apiserver에서 많은 양의 파드 업데이트를 동반하기 때문이다.

사용 예시

한 애플리케이션 내의 여러 파드는 각각 사용률이 다를 수 있다. 스케일 다운 시, 애플리케이션은 사용률이 낮은 파드를 먼저 삭제하고 싶을 수 있다. 파드를 자주 업데이트하는 것을 피하기 위해, 애플리케이션은 controller.kubernetes.io/pod-deletion-cost 값을 스케일 다운하기 전에 1회만 업데이트해야 한다 (파드 사용률에 비례하는 값으로 설정). 이 방식은 Spark 애플리케이션의 드라이버 파드처럼 애플리케이션이 스스로 다운스케일링을 수행하는 경우에 유효하다.

레플리카셋을 Horizontal Pod Autoscaler 대상으로 설정

레플리카셋은 Horizontal Pod Autoscalers (HPA)의 대상이 될 수 있다. 즉, 레플리카셋은 HPA에 의해 오토스케일될 수 있다. 다음은 이전에 만든 예시에서 만든 레플리카셋을 대상으로 하는 HPA 예시이다.

controllers/hpa-rs.yaml

apiVersion: autoscaling/v1
kind: HorizontalPodAutoscaler
metadata:
  name: frontend-scaler
spec:
  scaleTargetRef:
    apiVersion: apps/v1
    kind: ReplicaSet
    name: frontend
  minReplicas: 3
  maxReplicas: 10
  targetCPUUtilizationPercentage: 50

이 매니페스트를 hpa-rs.yaml로 저장한 다음 쿠버네티스 클러스터에 적용하면 CPU 사용량에 따라 파드가 복제되는 오토스케일 레플리카셋 HPA가 생성된다.

kubectl apply -f https://k8s.io/examples/controllers/hpa-rs.yaml

또는 kubectl autoscale 커맨드을 사용해서 동일한 작업을 할 수 있다. (그리고 더 쉽다!)

kubectl autoscale rs frontend --max=10 --min=3 --cpu=50%

레플리카셋의 대안

디플로이먼트(권장)

디플로이먼트는 레플리카셋을 소유하거나 업데이트를 하고, 파드의 선언적인 업데이트와 서버측 롤링 업데이트를 할 수 있는 오브젝트이다. 레플리카셋은 단독으로 사용할 수 있지만, 오늘날에는 주로 디플로이먼트로 파드의 생성과 삭제 그리고 업데이트를 오케스트레이션하는 메커니즘으로 사용한다. 디플로이먼트를 이용해서 배포할 때 생성되는 레플리카셋을 관리하는 것에 대해 걱정하지 않아도 된다. 디플로이먼트는 레플리카셋을 소유하거나 관리한다. 따라서 레플리카셋을 원한다면 디플로이먼트를 사용하는 것을 권장한다.

기본 파드

사용자가 직접 파드를 생성하는 경우와는 다르게, 레플리카셋은 노드 장애 또는 노드의 커널 업그레이드와 같은 관리 목적의 중단 등 어떤 이유로든 종료되거나 삭제된 파드를 교체한다. 이런 이유로 애플리케이션이 단일 파드가 필요하더라도 레플리카셋을 이용하는 것을 권장한다. 레플리카셋을 프로세스 관리자와 비교해서 생각해본다면, 레플리카셋은 단일 노드에서의 개별 프로세스들이 아닌 다수의 노드에 걸쳐있는 다수의 파드를 관리하는 것이다. 레플리카셋은 로컬 컨테이너의 재시작을 노드에 있는 Kubelet과 같은 에이전트에게 위임한다.

잡

스스로 종료되는 것이 예상되는 파드의 경우에는 레플리카셋 대신 잡을 이용한다 (즉, 배치 잡).

데몬셋

머신 모니터링 또는 머신 로깅과 같은 머신-레벨의 기능을 제공하는 파드를 위해서는 레플리카셋 대신 데몬셋을 사용한다. 이러한 파드의 수명은 머신의 수명과 연관되어 있고, 머신에서 다른 파드가 시작하기 전에 실행되어야 하며, 머신의 재부팅/종료가 준비되었을 때, 해당 파드를 종료하는 것이 안전하다.

레플리케이션 컨트롤러

레플리카셋은 레플리케이션 컨트롤러를 계승하였다. 이 두 개의 용도는 동일하고, 유사하게 동작하며, 레플리케이션 컨트롤러가 레이블 사용자 가이드에 설명된 설정-기반의 셀렉터의 요건을 지원하지 않는다는 점을 제외하면 유사하다. 따라서 레플리카셋이 레플리케이션 컨트롤러보다 선호된다.

다음 내용

파드에 대해 배운다.
디플로이먼트에 대해 배운다.
레플리카셋에 의존해서 동작하는 디플로이먼트로 스테이트리스 애플리케이션을 실행한다.
ReplicaSet는 쿠버네티스 REST API의 상위-수준 리소스이다. 레플리카셋 API에 대해 이해하기 위해 ReplicaSet 오브젝트 정의를 읽는다.
PodDisruptionBudget과 이를 사용해서 어떻게 중단 중에 애플리케이션 가용성을 관리할 수 있는지에 대해 읽는다.

2.3 - 스테이트풀셋

스테이풀셋은 파드 그룹을 실행하고 각 파드에 대해 고정된 식별자를 유지한다. 이는 영구 저장소 또는 안정적이고 고유한 네트워크 신원이 필요한 애플리케이션을 관리하는 데 유용하다.

스테이트풀셋은 애플리케이션의 스테이트풀을 관리하는데 사용하는 워크로드 API 오브젝트이다.

파드 집합의 디플로이먼트와 스케일링을 관리하며, 파드들의 순서 및 고유성을 보장한다 .

디플로이먼트와 유사하게, 스테이트풀셋은 동일한 컨테이너 스펙을 기반으로 둔 파드들을 관리한다. 디플로이먼트와는 다르게, 스테이트풀셋은 각 파드의 독자성을 유지한다. 이 파드들은 동일한 스팩으로 생성되었지만, 서로 교체는 불가능하다. 다시 말해, 각각은 재스케줄링 간에도 지속적으로 유지되는 식별자를 가진다.

스토리지 볼륨을 사용해서 워크로드에 지속성을 제공하려는 경우, 솔루션의 일부로 스테이트풀셋을 사용할 수 있다. 스테이트풀셋의 개별 파드는 장애에 취약하지만, 퍼시스턴트 파드 식별자는 기존 볼륨을 실패한 볼륨을 대체하는 새 파드에 더 쉽게 일치시킬 수 있다.

스테이트풀셋 사용

스테이트풀셋은 다음 중 하나 또는 이상이 필요한 애플리케이션에 유용하다.

안정된, 고유한 네트워크 식별자.
안정된, 지속성을 갖는 스토리지.
순차적인, 정상 배포(graceful deployment)와 스케일링.
순차적인, 자동 롤링 업데이트.

위의 안정은 파드의 (재)스케줄링 전반에 걸친 지속성과 같은 의미이다. 만약 애플리케이션이 안정적인 식별자 또는 순차적인 배포, 삭제 또는 스케일링이 필요하지 않으면, 스테이트리스 레플리카셋(ReplicaSet)을 제공하는 워크로드 오브젝트를 사용해서 애플리케이션을 배포해야 한다. 디플로이먼트 또는 레플리카셋과 같은 컨트롤러가 스테이트리스 요구에 더 적합할 수 있다.

제한사항

파드에 지정된 스토리지는 관리자에 의해 퍼시스턴트 볼륨 프로비저너 를 기반으로 하는 스토리지 클래스 를 요청해서 프로비전하거나 사전에 프로비전이 되어야 한다.
스테이트풀셋을 삭제 또는 스케일 다운해도 스테이트풀셋과 연관된 볼륨이 삭제되지 않는다. 이는 일반적으로 스테이트풀셋과 연관된 모든 리소스를 자동으로 제거하는 것보다 더 중요한 데이터의 안전을 보장하기 위함이다.
스테이트풀셋은 현재 파드의 네트워크 신원을 책임지고 있는 헤드리스 서비스 가 필요하다. 사용자가 이 서비스를 생성할 책임이 있다.
스테이트풀셋은 스테이트풀셋의 삭제 시 파드의 종료에 대해 어떠한 보증을 제공하지 않는다. 스테이트풀셋에서는 파드가 순차적이고 정상적으로 종료(graceful termination)되도록 하려면, 삭제 전 스테이트풀셋의 스케일을 0으로 축소할 수 있다.
롤링 업데이트와 기본 파드 관리 정책 (OrderedReady)를 함께 사용시 복구를 위한 수동 개입이 필요한 파손 상태로 빠질 수 있다.

구성 요소

아래의 예시에서는 스테이트풀셋의 구성요소를 보여 준다.

apiVersion: v1
kind: Service
metadata:
  name: nginx
  labels:
    app: nginx
spec:
  ports:
  - port: 80
    name: web
  clusterIP: None
  selector:
    app: nginx
---
apiVersion: apps/v1
kind: StatefulSet
metadata:
  name: web
spec:
  selector:
    matchLabels:
      app: nginx # .spec.template.metadata.labels 와 일치해야 한다
  serviceName: "nginx"
  replicas: 3 # 기본값은 1
  minReadySeconds: 10 # 기본값은 0
  template:
    metadata:
      labels:
        app: nginx # .spec.selector.matchLabels 와 일치해야 한다
    spec:
      terminationGracePeriodSeconds: 10
      containers:
      - name: nginx
        image: registry.k8s.io/nginx-slim:0.8
        ports:
        - containerPort: 80
          name: web
        volumeMounts:
        - name: www
          mountPath: /usr/share/nginx/html
  volumeClaimTemplates:
  - metadata:
      name: www
    spec:
      accessModes: [ "ReadWriteOnce" ]
      storageClassName: "my-storage-class"
      resources:
        requests:
          storage: 1Gi

참고:

이 예제에서는 편의를 위해 ReadWriteOnce 접근 모드를 사용한다. 운영 환경에서는 쿠버네티스 프로젝트에서 ReadWriteOncePod 액세스 모드를 사용할 것을 권장한다.

위의 예시에서:

nginx라는 이름의 헤드리스 서비스는 네트워크 도메인을 제어하는 데 사용된다.
web이라는 이름의 스테이트풀셋은 Spec(사양)을 가지며, 이는 nginx 컨테이너의 복제본 3개가 각각 고유한 파드에서 실행될 것을 지시한다.
volumeClaimTemplates 은 퍼시스턴트 볼륨 프로비저너에서 프로비전한 퍼시스턴트볼륨(PersistentVolume)을 사용해서 안정적인 스토리지를 제공한다.

스테이트풀셋 오브젝트의 이름은 유효한 DNS 레이블이어야 한다.

파드 셀렉터

스테이트풀셋의 .spec.selector 필드는 .spec.template.metadata.labels 레이블과 일치하도록 설정해야 한다. 해당되는 파드 셀렉터를 찾지 못하면 스테이트풀셋 생성 과정에서 검증 오류가 발생한다.

볼륨 클레임 템플릿

.spec.volumeClaimTemplates 필드를 설정하여 퍼시스턴트볼륨클레임(PersistentVolumeClaim)을 생성할 수 있다. 다음 두 조건 중 하나를 만족하면 스테이풀셋에 안정적인 스토리지를 제공한다.

볼륨 클레임에 지정된 스토리지클래스가 동적 프로비저닝을 사용하도록 설정되어 있다.
클러스터에 올바른 스토리지클래스와 충분한 저장 공간을 가진 퍼시스트볼륨(PersistentVolume)이 이미 존재하는 경우에 해당한다.

최소 준비 시간 초

기능 상태: Kubernetes v1.25 [stable]

.spec.minReadySeconds 는 파드가 사용 가능(available)이라고 간주될 수 있도록 파드의 모든 컨테이너가 문제 없이 실행되고 준비되는 최소 시간(초)을 나타내는 선택적인 필드이다. 롤링 업데이트 전략을 사용할 때 롤아웃 진행 상황을 확인하는 데 사용된다. 이 필드의 기본값은 0이다(이 경우, 파드가 Ready 상태가 되면 바로 사용 가능하다고 간주된다). 파드가 언제 사용 가능하다고 간주되는지에 대한 자세한 정보는 컨테이너 프로브(probe)를 참고한다.

파드 신원

스테이트풀셋 파드는 순서, 안정적인 네트워크 신원 그리고 안정적인 스토리지로 구성되는 고유한 신원을 가진다. 신원은 파드가 어떤 노드에 있고, (재)스케줄과도 상관없이 파드에 붙어있다.

순서 색인

N개의 레플리카가 있는 스테이트풀셋은 스테이트풀셋에 있는 각 파드에 0에서 N-1 까지의 정수가 순서대로 할당되며 해당 스테이트풀셋 내에서 고유 하다. 기본적으로 파드는 0부터 N-1까지의 순서대로 할당된다. 또한, 스테이풀셋 컨트롤러는 apps.kubernetes.io/pod-index과 같은 인덱스 값을 가진 파드 레이블을 추가한다.

시작 순서

기능 상태: Kubernetes v1.31 [stable](enabled by default)

.spec.ordinals은 각 파드에 할당할 순서에 대한 정수값을 설정할 수 있게 해주는 선택적인 필드로, 기본값은 nil이다. 이 필드를 사용하기 위해서는 다음과 같은 옵션들을 설정할 수 있다.

.spec.ordinals.start: 만약 .spec.ordinals.start 필드가 세팅되지 않을 경우, 파드는 .spec.ordinals.start 부터 .spec.ordinals.start + .spec.replicas - 1의 순서대로 할당된다.

안정적인 네트워크 신원

스테이트풀셋의 각 파드는 스테이트풀셋의 이름과 파드의 순번에서 호스트 이름을 얻는다. 호스트 이름을 구성하는 패턴은 $(statefulset name)-$(ordinal) 이다. 위의 예시에서 생성된 3개 파드의 이름은 web-0,web-1,web-2 이다. 스테이트풀셋은 스테이트풀셋에 있는 파드의 도메인을 제어하기위해 헤드리스 서비스를 사용할 수 있다. 이 서비스가 관리하는 도메인은 $(service name).$(namespace).svc.cluster.local 의 형식을 가지며, 여기서 "cluster.local"은 클러스터 도메인이다. 각 파드는 생성되면 $(podname).$(governing service domain) 형식을 가지고 일치되는 DNS 서브도메인을 가지며, 여기서 거버닝 서비스(governing service)는 스테이트풀셋의 serviceName 필드에 의해 정의된다.

클러스터에서 DNS가 구성된 방식에 따라, 새로 실행된 파드의 DNS 이름을 즉시 찾지 못할 수 있다. 이 동작은 클러스터의 다른 클라이언트가 파드가 생성되기 전에 파드의 호스트 이름에 대한 쿼리를 이미 보낸 경우에 발생할 수 있다. 네거티브 캐싱(DNS에서 일반적)은 이전에 실패한 조회 결과가 파드가 실행된 후에도 적어도 몇 초 동안 기억되고 재사용됨을 의미한다.

파드를 생성한 후 즉시 파드를 검색해야 하는 경우, 몇 가지 옵션이 있다.

DNS 조회에 의존하지 않고 쿠버네티스 API를 직접(예를 들어 watch 사용) 쿼리한다.
쿠버네티스 DNS 공급자의 캐싱 시간(일반적으로 CoreDNS의 컨피그맵을 편집하는 것을 의미하며, 현재 30초 동안 캐시함)을 줄인다.

제한사항 섹션에서 언급한 것처럼 사용자는 파드의 네트워크 신원을 책임지는 헤드리스 서비스를 생성할 책임이 있다.

여기 클러스터 도메인, 서비스 이름, 스테이트풀셋 이름을 선택을 하고, 그 선택이 스테이트풀셋 파드의 DNS이름에 어떻게 영향을 주는지에 대한 약간의 예시가 있다.

클러스터 도메인	서비스 (ns/이름)	스테이트풀셋 (ns/이름)	스테이트풀셋 도메인	파드 DNS	파드 호스트 이름
cluster.local	default/nginx	default/web	nginx.default.svc.cluster.local	web-{0..N-1}.nginx.default.svc.cluster.local	web-{0..N-1}
cluster.local	foo/nginx	foo/web	nginx.foo.svc.cluster.local	web-{0..N-1}.nginx.foo.svc.cluster.local	web-{0..N-1}
kube.local	foo/nginx	foo/web	nginx.foo.svc.kube.local	web-{0..N-1}.nginx.foo.svc.kube.local	web-{0..N-1}

참고:

클러스터 도메인이 달리 구성된 경우가 아니라면 cluster.local로 설정된다.

안정된 스토리지

스테이트풀셋에 정의된 VolumeClaimTemplate 항목마다, 각 파드는 하나의 퍼시스턴트볼륨클레임을 받는다. 위의 nginx 예시에서 각 파드는 my-storage-class 라는 스토리지 클래스와 1 GiB의 프로비전된 스토리지를 가지는 단일 퍼시스턴트볼륨을 받게 된다. 만약 스토리지 클래스가 명시되지 않은 경우, 기본 스토리지 클래스가 사용된다. 파드가 노드에서 스케줄 혹은 재스케줄이 되면 파드의 volumeMounts 는 퍼시스턴트볼륨 클레임과 관련된 퍼시스턴트볼륨이 마운트 된다. 참고로, 파드 퍼시스턴트볼륨 클레임과 관련된 퍼시스턴트볼륨은 파드 또는 스테이트풀셋이 삭제되더라도 삭제되지 않는다. 이것은 반드시 수동으로 해야 한다.

파드 이름 레이블

스테이트풀셋 컨트롤러 가 파드를 생성할 때 파드 이름으로 statefulset.kubernetes.io/pod-name 레이블이 추가된다. 이 레이블로 스테이트풀셋의 특정 파드에 서비스를 연결할 수 있다.

파드 인덱스 레이블

기능 상태: Kubernetes v1.32 [stable](enabled by default)

스테이풀셋 컨트롤러가 파드를 만들 때, 새로운 파드는 apps.kubernetes.io/pod-index로 레이블링 된다. 이 레이블의 값은 파드의 인덱스 순서이다. 이 레이블을 사용하면 특정 파드 인덱스로 트래픽을 라우팅하고, 파드 인덱스 레이블을 사용하여 로그/메트릭을 필터링하는 등의 작업을 수행할 수 있다. 기능 게이트 PodIndexLabel 은 이 기능을 위해 기본적으로 활성화되고 잠겨 있으며, 이를 비활성화하려면 사용자는 서버 에뮬레이션 버전 v1.31을 사용해야 한다.

디플로이먼트와 스케일링 보증

N개의 레플리카가 있는 스테이트풀셋이 파드를 배포할 때 연속해서 {0..N-1}의 순서로 생성한다.
파드가 삭제될 때는 {N-1..0}의 순서인 역순으로 종료된다.
파드에 스케일링 작업을 적용하기 전에 모든 선행 파드가 Running 및 Ready 상태여야 한다.
파드가 종료되기 전에 모든 후속 파드가 완전히 종료 되어야 한다.

스테이트풀셋은 pod.Spec.TerminationGracePeriodSeconds 을 0으로 명시해서는 안된다. 이 방법은 안전하지 않으며, 사용하지 않기를 강권한다. 자세한 설명은 스테이트풀셋 파드 강제 삭제를 참고한다.

위의 nginx 예시가 생성될 때 web-0, web-1, web-2 순서로 3개 파드가 배포된다. web-1은 web-0이 Running 및 Ready 상태가 되기 전에는 배포되지 않으며, web-2 도 web-1이 Running 및 Ready 상태가 되기 전에는 배포되지 않는다. 만약 web-1이 Running 및 Ready 상태가 된 이후, web-2가 시작되기 전에 web-0이 실패하게 된다면, web-2는 web-0이 성공적으로 재시작이되고, Running 및 Ready 상태가 되기 전까지 시작되지 않는다.

만약 사용자가 배포된 예제의 스테이트풀셋을 replicas=1 으로 패치해서 스케일한 경우 web-2가 먼저 종료된다. web-1은 web-2가 완전히 종료 및 삭제되기 전까지 정지되지 않는다. 만약 web-2의 종료 및 완전히 중지되고, web-1이 종료되기 전에 web-0이 실패할 경우 web-1은 web-0이 Running 및 Ready 상태가 되기 전까지 종료되지 않는다.

파드 관리 정책

스테이트풀셋의 .spec.podManagementPolicy 필드를 통해 고유성 및 신원 보증을 유지하면서 순차 보증을 완화한다.

OrderedReady 파드 관리

OrderedReady 파드 관리는 스테이트풀셋의 기본이다. 이것은 디플로이먼트와 스케일 보증에 설명되어 있는 동작을 구현한다.

Parallel 파드 관리

Parallel 파드 관리는 스테이트풀셋 컨트롤러에게 모든 파드를 병렬로 실행 또는 종료하게 한다. 그리고 다른 파드의 실행이나 종료에 앞서 파드가 Running 및 Ready 상태가 되거나 완전히 종료되기를 기다리지 않는다. 이 옵션은 오직 스케일링 작업에 대한 동작에만 영향을 미친다. 업데이트는 영향을 받지 않는다.

업데이트 전략

스테이트풀셋의 .spec.updateStrategy 필드는 스테이트풀셋의 파드에 대한 컨테이너, 레이블, 리소스의 요청/제한 그리고 주석에 대한 자동화된 롤링 업데이트를 구성하거나 비활성화할 수 있다. 두 가지 가능한 전략이 있다.

OnDelete(삭제시): 스테이트풀셋의 .spec.updateStrategy.type 은 OnDelete 를 설정하며, 스테이트풀셋 컨트롤러는 스테이트풀셋의 파드를 자동으로 업데이트하지 않는다. 사용자는 컨트롤러가 스테이트풀셋의 .spec.template를 반영하는 수정된 새로운 파드를 생성하도록 수동으로 파드를 삭제해야 한다.
RollingUpdate(롤링 업데이트): RollingUpdate 업데이트 전략은 스테이트풀셋의 파드에 대한 롤링 업데이트를 구현한다. 기본 업데이트 전략이다.

롤링 업데이트

스테이트풀셋에 롤링 업데이트 가 .spec.updateStrategy.type 에 설정되면 스테이트풀셋 컨트롤러는 스테이트풀셋의 각 파드를 삭제 및 재생성한다. 이 과정에서 똑같이 순차적으로 파드가 종료되고(가장 큰 순서 색인에서부터에서 작은 순서 색인쪽으로), 각 파드의 업데이트는 한 번에 하나씩 한다.

쿠버네티스 컨트롤 플레인은 이전 버전을 업데이트 하기 전에, 업데이트된 파드가 실행 및 준비될 때까지 기다린다. .spec.minReadySeconds(최소 준비 시간 초 참조)를 설정한 경우, 컨트롤 플레인은 파드가 준비 상태로 전환된 후 해당 시간을 추가로 기다린 후 이동한다.

파티션 롤링 업데이트

롤링 업데이트 의 업데이트 전략은 .spec.updateStrategy.rollingUpdate.partition 를 명시해서 파티션 할 수 있다. 만약 파티션을 명시하면 스테이트풀셋의 .spec.template 가 업데이트 될 때 부여된 수가 파티션보다 크거나 같은 모든 파드가 업데이트 된다. 파티션보다 작은 수를 가진 모든 파드는 업데이트 되지 않으며, 삭제 된 경우라도 이전 버전에서 재생성된다. 만약 스테이트풀셋의 .spec.updateStrategy.rollingUpdate.partition 이 .spec.replicas 보다 큰 경우 .spec.template 의 업데이트는 해당 파드에 전달하지 않는다. 대부분의 케이스는 파티션을 사용할 필요가 없지만 업데이트를 준비하거나, 카나리의 롤 아웃 또는 단계적인 롤 아웃을 행하려는 경우에는 유용하다.

최대 사용 불가능(unavailable) 파드 수

기능 상태: Kubernetes v1.24 [alpha]

.spec.updateStrategy.rollingUpdate.maxUnavailable 필드를 명시하여, 업데이트 과정에서 사용 불가능(unavailable) 파드를 최대 몇 개까지 허용할 것인지를 조절할 수 있다. 값은 절대값(예: 5) 또는 목표 파드 퍼센티지(예: 10%)로 명시할 수 있다. 절대값은 퍼센티지 값으로 계산한 뒤 올림하여 얻는다. 이 필드는 0일 수 없다. 기본값은 1이다.

이 필드는 0 에서 replicas - 1 사이 범위에 있는 모든 파드에 적용된다. 이 범위 내에 사용 불가능한 파드가 있으면, maxUnavailable로 집계된다.

참고:

maxUnavailable 필드는 현재 알파 단계이며 MaxUnavailableStatefulSet 기능 게이트가 활성화된 API 서버에서만 동작한다.

강제 롤백

기본 파드 관리 정책 (OrderedReady)과 함께 롤링 업데이트를 사용할 경우 직접 수동으로 복구를 해야하는 고장난 상태가 될 수 있다.

만약 파드 템플릿을 Running 및 Ready 상태가 되지 않는 구성으로 업데이트하는 경우(예시: 잘못된 바이너리 또는 애플리케이션-레벨 구성 오류로 인한) 스테이트풀셋은 롤아웃을 중지하고 기다린다.

이 상태에서는 파드 템플릿을 올바른 구성으로 되돌리는 것으로 충분하지 않다. 알려진 이슈로 인해 스테이트풀셋은 손상된 파드가 준비(절대 되지 않음)될 때까지 기다리며 작동하는 구성으로 되돌아가는 시도를 하기 전까지 기다린다.

템플릿을 되돌린 이후에는 스테이트풀셋이 이미 잘못된 구성으로 실행하려고 시도한 모든 파드를 삭제해야 한다. 그러면 스테이트풀셋은 되돌린 템플릿을 사용해서 파드를 다시 생성하기 시작한다.

수정 내역

컨트롤러리비전(ControllerRevision)은 스테이풀셋 컨트롤러와 같은 컨트롤러에서 구성 변경 내역을 추적하는 데 사용되는 쿠버네티스 API 리소스이다.

스테이풀셋은 컨트롤러리비전을 사용하여 수정 내역을 유지 관리하고 롤백 및 버전 추적을 활성화한다.

스테이풀셋이 컨트롤러리비전을 사용하여 변경 사항을 추적하는 방법

스테이풀셋의 파드 템플릿(spec.template)을 업데이트하면 스테이풀셋 컨트롤러는 다음을 수행한다.

새 컨트롤러리비전 오브젝트를 준비한다.
파드 템플릿 및 메타 데이터의 스냅샷을 저장한다.
증분 수정 번호를 할당한다.

주요 속성

키 속성 및 기타 세부 정보는 컨트롤러리비전에서 확인할 수 있다.

수정 내역 관리

.spec.revisionHistoryLimit을 사용하여 보관된 수정 내역을 제어한다.

apiVersion: apps/v1
kind: StatefulSet
metadata:
  name: webapp
spec:
  revisionHistoryLimit: 5  # 최근 수정 내역 5개 유지
  # ... 다른 사양 필드 ...

기본값: 지정하지 않으면 수정 내역 10개가 유지된다
정리: 제한을 초과하면 가장 오래된 수정 내역이 가비지 컬렉션된다

롤백 수행

다음 명령을 사용하여 이전 구성으로 되돌릴 수 있다.

# 수정 내역 보기
kubectl rollout history statefulset/webapp

# 특정 수정 내역으로 롤백 
kubectl rollout undo statefulset/webapp --to-revision=3

이렇게 하면 다음이 수행된다.

리비전 3의 파드 템플릿을 적용한다.
업데이트된 리비전 번호로 새 컨트롤러리비전을 생성한다.

컨트롤러리비전 검사

관련된 컨트롤러리비전을 보려면,

# 스테이풀셋에 대한 모든 리비전 사항을 나열한다.
kubectl get controllerrevisions -l app.kubernetes.io/name=webapp

# 특정 리비전의 자세한 구성 보기
kubectl get controllerrevision/webapp-3 -o yaml

모범 사례

보존 정책

대부분의 워크로드에 대해 revisionHistoryLimit을 5–10 사이로 설정한다.
심층 롤백 기록 이 필요한 경우에만 늘린다.

모니터링

다음을 사용하여 정기적으로 개정 내용을 확인한다.
```
kubectl get controllerrevisions
```
급격한 개정 횟수 증가 알림

피해야 할 사항

컨트롤러리비전 오브젝트를 수동으로 편집하지 않는다.
리비전을 백업 메커니즘으로 사용하지 않는다(실제 백업 도구를 사용한다).
revisionHistoryLimit: 0 (롤백 기능을 비활성화한다).

퍼시스턴트볼륨클레임 유보

기능 상태: Kubernetes v1.32 [stable](enabled by default)

선택적 필드인 .spec.persistentVolumeClaimRetentionPolicy 는 스테이트풀셋의 생애주기동안 PVC를 삭제할 것인지, 삭제한다면 어떻게 삭제하는지를 관리한다. 이 필드를 사용하려면 API 서버와 컨트롤러 매니저에 StatefulSetAutoDeletePVC 기능 게이트를 활성화해야 한다. 활성화 시, 각 스테이트풀셋에 대해 두 가지 정책을 설정할 수 있다.

whenDeleted: 스테이트풀셋이 삭제될 때 적용될 볼륨 유보 동작을 설정한다.
whenScaled: 스테이트풀셋의 레플리카 수가 줄어들 때, 예를 들면 스테이트풀셋을 스케일 다운할 때 적용될 볼륨 유보 동작을 설정한다.

설정 가능한 각 정책에 대해, 그 값을 Delete 또는 Retain 으로 설정할 수 있다.

Delete: volumeClaimTemplate 스테이트풀셋으로부터 생성된 PVC는 정책에 영향을 받는 각 파드에 대해 삭제된다. whenDeleted 가 이 값으로 설정되어 있으면 volumeClaimTemplate 으로부터 생성된 모든 PVC는 파드가 삭제된 뒤에 삭제된다. whenScaled 가 이 값으로 설정되어 있으면 스케일 다운된 파드 레플리카가 삭제된 뒤, 삭제된 파드에 해당되는 PVC만 삭제된다.
Retain (기본값): 파드가 삭제되어도 volumeClaimTemplate 으로부터 생성된 PVC는 영향을 받지 않는다. 이는 이 신기능이 도입되기 전의 기본 동작이다.

이러한 정책은 파드의 삭제가 스테이트풀셋 삭제 또는 스케일 다운으로 인한 것일 때에만 적용됨에 유의한다. 예를 들어, 스테이트풀셋의 파드가 노드 실패로 인해 실패했고, 컨트롤 플레인이 대체 파드를 생성했다면, 스테이트풀셋은 기존 PVC를 유지한다. 기존 볼륨은 영향을 받지 않으며, 새 파드가 실행될 노드에 클러스터가 볼륨을 연결(attach)한다.

정책의 기본값은 Retain 이며, 이는 이 신기능이 도입되기 전의 스테이트풀셋 기본 동작이다.

다음은 정책 예시이다.

apiVersion: apps/v1
kind: StatefulSet
...
spec:
  persistentVolumeClaimRetentionPolicy:
    whenDeleted: Retain
    whenScaled: Delete
...

스테이트풀셋 컨트롤러는 자신이 소유한 PVC에 소유자 정보(reference)를 추가하며, 파드가 종료된 이후에는 가비지 콜렉터가 이 정보를 삭제한다. 이로 인해 PVC가 삭제되기 전에 (그리고 유보 정책에 따라, 매칭되는 기반 PV와 볼륨이 삭제되기 전에) 파드가 모든 볼륨을 깨끗하게 언마운트할 수 있다. whenDeleted 정책을 Delete 로 설정하면, 해당 스테이트풀셋에 연결된 모든 PVC에 스테이트풀셋 인스턴스의 소유자 정보가 기록된다.

whenScaled 정책은 파드가 스케일 다운되었을 때에만 PVC를 삭제하며, 파드가 다른 원인으로 삭제되면 PVC를 삭제하지 않는다. 조정 상황 발생 시, 스테이트풀셋 컨트롤러는 목표 레플리카 수와 클러스터 상의 실제 파드 수를 비교한다. 레플리카 카운트보다 큰 ID를 갖는 스테이트풀셋 파드는 부적격 판정을 받으며 삭제 대상으로 표시된다. whenScaled 정책이 Delete 이면, 부적격 파드는 삭제되기 전에, 연결된 스테이트풀셋 템플릿 PVC의 소유자로 지정된다. 이로 인해, 부적격 파드가 종료된 이후에만 PVC가 가비지 콜렉트된다.

이는 곧 만약 컨트롤러가 강제 종료되어 재시작되면, 파드의 소유자 정보가 정책에 적합하게 업데이트되기 전에는 어떤 파드도 삭제되지 않을 것임을 의미한다. 만약 컨트롤러가 다운된 동안 부적격 파드가 강제로 삭제되면, 컨트롤러가 강제 종료된 시점에 따라 소유자 정보가 설정되었을 수도 있고 설정되지 않았을 수도 있다. 소유자 정보가 업데이트되기까지 몇 번의 조정 절차가 필요할 수 있으며, 따라서 일부 부적격 파드는 소유자 정보 설정을 완료하고 나머지는 그러지 못했을 수 있다. 이러한 이유로, 컨트롤러가 다시 켜져서 파드를 종료하기 전에 소유자 정보를 검증할 때까지 기다리는 것을 추천한다. 이것이 불가능하다면, 관리자는 PVC의 소유자 정보를 확인하여 파드가 강제 삭제되었을 때 해당되는 오브젝트가 삭제되도록 해야 한다.

레플리카

.spec.replicas 은 필요한 파드의 수를 지정하는 선택적 필드이다. 기본값은 1이다.

HorizontalPodAutoscaler(또는 수평 스케일링을 위한 유사 API)가 디플로이먼트 크기를 관리하고 있다면, .spec.replicas 를 설정해서는 안 된다. 대신, 쿠버네티스 컨트롤 플레인이 .spec.replicas 필드를 자동으로 관리한다.

다음 내용

파드에 대해 배운다.
스테이트풀셋을 사용하는 방법을 알아본다.
- 스테이트풀셋 애플리케이션 배포 예제를 따라한다.
- 스테이트풀셋으로 카산드라 배포 예제를 따라한다.
- 복제된 스테이트풀셋 애플리케이션 구동하기 예제를 따라한다.
- 스테이트풀셋 확장하기에 대해 배운다.
- 스테이트풀셋을 삭제하면 어떤 일이 수반되는지를 배운다.
- 스토리지의 볼륨을 사용하는 파드 구성을 하는 방법을 배운다.
- 스토리지로 퍼시스턴트볼륨을 사용하도록 파드 설정하는 방법을 배운다.
StatefulSet은 쿠버네티스 REST API의 상위-수준 리소스이다. 스테이트풀셋 API에 대해 이해하기 위해 StatefulSet 오브젝트 정의를 읽는다.
PodDisruptionBudget과 이를 사용해서 어떻게 중단 중에 애플리케이션 가용성을 관리할 수 있는지에 대해 읽는다.

2.4 - 데몬셋

데몬셋은 노드 로컬 기능을 제공하는 파드를 정의한다. 이러한 파드는 네트워킹 도우미 도구처럼 클러스터 운영에 필수적인 기능일 수도 있고 애드온의 일부일 수도 있다.

데몬셋 은 모든(또는 일부) 노드가 파드의 사본을 실행하도록 보장한다. 노드가 클러스터에 추가되면 파드도 추가된다. 노드가 클러스터에서 제거되면 해당 파드는 가비지(garbage)로 수집된다. 데몬셋을 삭제하면 데몬셋이 생성한 파드들이 정리된다.

데몬셋의 일부 대표적인 용도는 다음과 같다.

모든 노드에서 클러스터 스토리지 데몬 실행
모든 노드에서 로그 수집 데몬 실행
모든 노드에서 노드 모니터링 데몬 실행

단순한 케이스에서는, 각 데몬 유형의 처리를 위해서 모든 노드를 커버하는 하나의 데몬셋이 사용된다. 더 복잡한 구성에서는 단일 유형의 데몬에 여러 데몬셋을 사용할 수 있지만, 각기 다른 하드웨어 유형에 따라 서로 다른 플래그, 메모리, CPU 요구가 달라진다.

데몬셋 사양 작성

데몬셋 생성

YAML 파일에 데몬셋 명세를 작성할 수 있다. 예를 들어 아래 daemonset.yaml 파일은 fluentd-elasticsearch 도커 이미지를 실행하는 데몬셋을 설명한다.

controllers/daemonset.yaml

apiVersion: apps/v1
kind: DaemonSet
metadata:
  name: fluentd-elasticsearch
  namespace: kube-system
  labels:
    k8s-app: fluentd-logging
spec:
  selector:
    matchLabels:
      name: fluentd-elasticsearch
  template:
    metadata:
      labels:
        name: fluentd-elasticsearch
    spec:
      tolerations:
      # 이 톨러레이션(toleration)은 데몬셋이 컨트롤 플레인 노드에서 실행될 수 있도록 만든다.
      # 컨트롤 플레인 노드가 이 파드를 실행해서는 안 되는 경우, 이 톨러레이션을 제거한다.
      - key: node-role.kubernetes.io/control-plane
        operator: Exists
        effect: NoSchedule
      - key: node-role.kubernetes.io/master
        operator: Exists
        effect: NoSchedule
      containers:
      - name: fluentd-elasticsearch
        image: quay.io/fluentd_elasticsearch/fluentd:v5.0.1
        resources:
          limits:
            memory: 200Mi
          requests:
            cpu: 100m
            memory: 200Mi
        volumeMounts:
        - name: varlog
          mountPath: /var/log
      terminationGracePeriodSeconds: 30
      volumes:
      - name: varlog
        hostPath:
          path: /var/log

YAML 파일을 기반으로 데몬셋을 생성한다.

kubectl apply -f https://k8s.io/examples/controllers/daemonset.yaml

필수 필드

다른 모든 쿠버네티스 설정과 마찬가지로 데몬셋에는 apiVersion, kind 그리고 metadata 필드가 필요하다. 일반적인 설정파일 작업에 대한 정보는 스테이트리스 애플리케이션 실행하기와 kubectl을 사용한 오브젝트 관리를 참고한다.

데몬셋 오브젝트의 이름은 유효한 DNS 서브도메인 이름이어야 한다.

데몬셋에는 .spec 섹션도 필요하다.

파드 템플릿

.spec.template 는 .spec 의 필수 필드 중 하나이다.

.spec.template 는 파드 템플릿이다. 이것은 중첩되어 있다는 점과 apiVersion 또는 kind 를 가지지 않는 것을 제외하면 파드와 정확히 같은 스키마를 가진다.

데몬셋의 파드 템플릿에는 파드의 필수 필드 외에도 적절한 레이블이 명시되어야 한다(파드 셀렉터를 본다).

데몬셋의 파드 템플릿의 RestartPolicy는 Always 를 가져야 하며, 명시되지 않은 경우 기본으로 Always가 된다.

파드 셀렉터

.spec.selector 필드는 파드 셀렉터이다. 이것은 잡의 .spec.selector 와 같은 동작을 한다.

.spec.template의 레이블과 매치되는 파드 셀렉터를 명시해야 한다. 또한, 한 번 데몬셋이 만들어지면 .spec.selector 는 바꿀 수 없다. 파드 셀렉터를 변형하면 의도치 않게 파드가 고아가 될 수 있으며, 이는 사용자에게 혼란을 주는 것으로 밝혀졌다.

.spec.selector 는 다음 2개의 필드로 구성된 오브젝트이다.

matchLabels - 레플리케이션컨트롤러의 .spec.selector 와 동일하게 작동한다.
matchExpressions - 키, 값 목록 그리고 키 및 값에 관련된 연산자를 명시해서 보다 정교한 셀렉터를 만들 수 있다.

2개의 필드가 명시되면 두 필드를 모두 만족하는 것(ANDed)이 결과가 된다.

.spec.selector 는 .spec.template.metadata.labels 와 일치해야 한다. 이 둘이 서로 일치하지 않는 구성은 API에 의해 거부된다.

오직 일부 노드에서만 파드 실행

만약 .spec.template.spec.nodeSelector 를 명시하면 데몬셋 컨트롤러는 노드 셀렉터와 일치하는 노드에 파드를 생성한다. 마찬가지로 .spec.template.spec.affinity 를 명시하면 데몬셋 컨트롤러는 노드 어피니티와 일치하는 노드에 파드를 생성한다. 만약 둘 중 하나를 명시하지 않으면 데몬셋 컨트롤러는 모든 노드에서 파드를 생성한다.

데몬 파드가 스케줄 되는 방법

데몬셋은 자격이 되는 모든 노드에서 파드 사본이 실행하도록 보장한다. 데몬셋 컨트롤러는 각 적격한 노드에 파드를 생성하고 파드의 spec.affinity.nodeAffinity 필드를 추가하여 대상 호스트와 일치시킨다. 파드가 생성되면 일반적으로 기본 스케줄러가 작업을 인계받아 .spec.nodeName 필드를 설정하여 파드를 대상 호스트에 바인딩한다. 새 파드가 노드에 맞지 않으면 기본 스케줄러가 새 파드의 우선순위에 따라 기존 파드 중 일부를 선점(제거)할 수 있다.

참고:

데몬셋 파드가 각 노드에서 실행되는 것이 중요한 경우, 데몬셋의 .spec.template.spec.priorityClassName 을 더 높은 우선순위를 가진 프라이어리티클래스(PriorityClass)로 설정하여 이러한 축출이 발생하도록 하는 것이 좋다.

사용자는 데몬셋의 .spec.template.spec.schedulerName 필드를 설정하여 데몬셋의 파드에 다른 스케줄러를 지정할 수 있다.

.spec.template.spec.affinity.nodeAffinity 필드(지정된 경우)에 지정된 원래 노드 어피니티는 데몬셋 컨트롤러가 적격 노드를 평가할 때 고려되지만, 생성된 파드에서는 적격 노드의 이름과 일치하는 노드 어피니티로 대체된다.

nodeAffinity:
  requiredDuringSchedulingIgnoredDuringExecution:
    nodeSelectorTerms:
    - matchFields:
      - key: metadata.name
        operator: In
        values:
        - target-host-name

테인트(taints)와 톨러레이션(tolerations)

데몬셋 컨트롤러는 데몬셋 파드에 톨러레이션 세트를 자동으로 추가한다.

데몬셋 파드를 위한 톨러레이션
톨러레이션 키	영향	설명
`node.kubernetes.io/not-ready`	`NoExecute`	데몬셋 파드는 상태가 좋지 않거나 파드를 수용할 준비가 되지 않은 노드에 스케줄링 될 수 있다. 이러한 노드에서 실행중인 데몬셋 파드는 제거되지 않는다.
`node.kubernetes.io/unreachable`	`NoExecute`	데몬셋 파드는 노드 컨트롤러에서 접근할 수 없는 노드에 예약될 수 있다. 이러한 노드에서 실행 중인 데몬셋 파드는 제거되지 않는다.
`node.kubernetes.io/disk-pressure`	`NoSchedule`	데몬셋 파드는 디스크 압박 문제가 있는 노드에 예약될 수 있다.
`node.kubernetes.io/memory-pressure`	`NoSchedule`	데몬셋 파드는 메모리 부족 문제가 있는 노드에 예약될 수 있다.
`node.kubernetes.io/pid-pressure`	`NoSchedule`	데몬셋 파드는 프로세스 부족 문제가 있는 노드에 예약될 수 있다.
`node.kubernetes.io/unschedulable`	`NoSchedule`	데몬셋 파드는 예약할 수 없는 노드에 예약될 수 있다.
`node.kubernetes.io/network-unavailable`	`NoSchedule`	호스트 네트워킹을 요청하는 데몬셋 파드에만 추가되었다, 즉, `spec.hostNetwork: true`를 가진 파드이다. 이러한 데몬셋 파드는 네트워크를 사용할 수 없는 노드에 예약될 수 있다.

데몬셋의 파드 템플릿에서 정의하여, 데몬셋의 파드에 자체 톨러레이션을 추가할 수도 있다.

데몬셋 컨트롤러가 node.kubernetes.io/unschedulable:NoSchedule 톨러레이션을 자동으로 설정하므로, 쿠버네티스는 unschedulable 로 표시된 노드에서 데몬셋 파드를 실행할 수 있다.

데몬셋을 사용하여 클러스터 네트워킹과 같은 중요한 노드 수준 기능을 제공하는 경우, 쿠버네티스가 데몬셋 파드를 노드가 준비되기 전에 노드에 배치하는 것이 도움이 된다. 예를 들어, 이러한 특별한 허용 범위가 없으면 네트워크 플러그인이 실행 중이 아니기 때문에 노드가 준비 완료로 표시되지 않고, 동시에 노드가 아직 준비되지 않았기 때문에 네트워크 플레인이 해당 노드에서 실행되지 않는 교착 상태에 빠질 수 있다.

데몬 파드와 통신

데몬셋의 파드와 통신할 수 있는 몇 가지 패턴은 다음과 같다.

푸시(Push): 데몬셋의 파드는 통계 데이터베이스와 같은 다른 서비스로 업데이트를 보내도록 구성되어 있다. 그들은 클라이언트들을 가지지 않는다.
노드IP와 알려진 포트: 데몬셋의 파드는 호스트 포트를 사용할 수 있으며, 노드IP를 통해 파드에 접근할 수 있다. 클라이언트는 노드IP 목록을 어떻게든지 알고 있으며, 관례에 따라 포트를 알고 있다.
DNS: 동일한 파드 셀렉터로 헤드리스 서비스를 만들고, 그 다음에 엔드포인트 리소스를 사용해서 데몬셋을 찾거나 DNS에서 여러 A레코드를 검색한다.
서비스: 동일한 파드 셀렉터로 서비스를 생성하고, 서비스를 사용해서 임의의 노드의 데몬에 도달한다. 서비스 내부 트래픽 정책을 사용하여 동일한 노드에 있는 파드로 제한한다.

데몬셋 업데이트

만약 노드 레이블이 변경되면, 데몬셋은 새로 일치하는 노드에 즉시 파드를 추가하고, 새로 일치하지 않는 노드에서 파드를 삭제한다.

사용자는 데몬셋이 생성하는 파드를 수정할 수 있다. 그러나 파드는 모든 필드가 업데이트 되는 것을 허용하지 않는다. 또한 데몬셋 컨트롤러는 다음에 노드(동일한 이름으로)가 생성될 때 원본 템플릿을 사용한다.

사용자는 데몬셋을 삭제할 수 있다. 만약 kubectl 에서 --cascade=orphan 를 명시하면 파드는 노드에 남게 된다. 이후에 동일한 셀렉터로 새 데몬셋을 생성하면, 새 데몬셋은 기존 파드를 채택한다. 만약 파드를 교체해야 하는 경우 데몬셋은 updateStrategy 에 따라 파드를 교체한다.

사용자는 데몬셋에서 롤링 업데이트를 수행할 수 있다.

데몬셋의 대안

초기화 스크립트

데몬 프로세스를 직접 노드에서 시작해서 실행하는 것도 당연히 가능하다. (예: init, upstartd 또는 systemd 를 사용). 이 방법도 문제는 전혀 없다. 그러나 데몬셋을 통해 데몬 프로세스를 실행하면 몇 가지 장점이 있다.

애플리케이션과 동일한 방법으로 데몬 로그를 모니터링하고 관리할 수 있다.
데몬 및 애플리케이션과 동일한 구성 언어와 도구(예: 파드 템플릿, kubectl).
리소스 제한이 있는 컨테이너에서 데몬을 실행하면 애플리케이션 컨테이너와 데몬간의 격리가 강화된다. 그러나 데몬을 파드가 아닌 컨테이너에서 실행하여 이를 달성할 수도 있다.

베어(Bare) 파드

직접적으로 파드를 실행할 특정한 노드를 명시해서 파드를 생성할 수 있다. 그러나 데몬셋은 노드 장애 또는 커널 업그레이드와 같이 변경사항이 많은 노드 유지보수의 경우를 비롯하여 어떠한 이유로든 삭제되거나 종료된 파드를 교체한다. 따라서 개별 파드를 생성하는 것보다는 데몬셋을 사용해야 한다.

스태틱(static) 파드

Kubelet이 감시하는 특정 디렉터리에 파일을 작성하여 파드를 생성할 수 있다. 이것을 스태틱 파드라고 한다. 데몬셋과는 다르게 스태틱 파드는 kubectl 또는 다른 쿠버네티스 API 클라이언트로 관리할 수 없다. 스태틱 파드는 API 서버에 의존하지 않기 때문에 클러스터를 초기 구동(bootstraping)하는 경우에 유용하다. 또한 스태틱 파드는 향후에 사용 중단될 수 있다.

디플로이먼트

데몬셋은 파드를 생성하고 해당 파드에서는 프로세스가 종료되지 않을 것으로 예상한다(예: 웹 서버, 스토리지 서버)는 점에서 디플로이먼트와 유사하다.

파드가 실행되는 호스트를 정확하게 제어하는 것보다 레플리카의 수를 스케일링 업 및 다운하고, 업데이트 롤아웃이 더 중요한 프런트 엔드와 같은 것은 스테이트리스 서비스의 디플로이먼트를 사용한다. 데몬셋이 특정 노드에서 다른 파드가 올바르게 실행되도록 하는 노드 수준 기능을 제공한다면, 파드 사본이 항상 모든 호스트 또는 특정 호스트에서 실행되는 것이 중요한 경우에 데몬셋을 사용한다.

예를 들어, 네트워크 플러그인은 데몬셋으로 실행되는 컴포넌트를 포함할 수 있다. 데몬셋 컴포넌트는 작동 중인 노드가 정상적인 클러스터 네트워킹을 할 수 있도록 한다.

다음 내용

파드에 대해 배운다.
- 쿠버네티스 컨트롤 플레인 컴포넌트를 기동하는데 유용한 스태틱 파드에 대해 배운다.
데몬셋을 어떻게 사용하는지 알아본다.
- 데몬셋 롤링 업데이트 수행하기
- 데몬셋 롤백하기 (예를 들어, 롤 아웃이 예상대로 동작하지 않은 경우).
쿠버네티스가 파드를 노드에 할당하는 방법을 이해한다.
데몬셋으로 구동되곤 하는, 디바이스 플러그인과 애드온에 대해 배운다.
DaemonSet은 쿠버네티스 REST API에서 상위 수준 리소스이다. 데몬셋 API에 대해 이해하기 위해 DaemonSet 오브젝트 정의를 읽는다.

2.5 - 잡

잡은 한 번 실행되어 완료된 후 종료되는 일회성 작업을 나타낸다.

잡은 하나 이상의 파드를 생성하고 지정된 수의 파드가 성공적으로 종료될 때까지 계속해서 파드의 실행을 재시도한다. 파드가 성공적으로 완료되면, 해당 잡은 성공적으로 완료된 개수를 추적한다. 지정된 수가 성공 완료에 도달하면, 작업(즉, 잡)이 완료된다. 잡을 삭제하면 해당 잡이 생성하였던 파드를 정리한다. 잡을 일시 중지하면 잡이 다시 재개될 때까지 활성 파드를 삭제한다.

간단한 사례는 잡 오브젝트를 하나 생성해서 파드 하나를 안정적으로 실행하고 완료하는 것이다. 첫 번째 파드가 실패 또는 삭제된 경우(예로는 노드 하드웨어의 실패 또는 노드 재부팅) 잡 오브젝트는 새로운 파드를 기동시킨다.

잡을 사용하면 여러 파드를 병렬로 실행할 수도 있다.

잡을 스케줄 기반으로 실행하고 싶다면(단일 작업이든, 여러 작업의 병렬 수행이든), 크론잡(CronJob)을 참고한다.

예시 잡 실행하기

다음은 잡 설정 예시이다. 예시는 파이(π)의 2000 자리까지 계산해서 출력한다. 이를 완료하는 데 약 10초가 소요된다.

controllers/job.yaml

apiVersion: batch/v1
kind: Job
metadata:
  name: pi
spec:
  template:
    spec:
      containers:
      - name: pi
        image: perl:5.34.0
        command: ["perl",  "-Mbignum=bpi", "-wle", "print bpi(2000)"]
      restartPolicy: Never
  backoffLimit: 4

이 명령으로 예시를 실행할 수 있다.

kubectl apply -f https://kubernetes.io/examples/controllers/job.yaml

출력 결과는 다음과 같다.

job.batch/pi created

kubectl 을 사용해서 잡 상태를 확인한다.

kubectl describe job pi
kubectl get job pi -o yaml


Name:           pi
Namespace:      default
Selector:       batch.kubernetes.io/controller-uid=c9948307-e56d-4b5d-8302-ae2d7b7da67c
Labels:         batch.kubernetes.io/controller-uid=c9948307-e56d-4b5d-8302-ae2d7b7da67c
                batch.kubernetes.io/job-name=pi
                ...
Annotations:    batch.kubernetes.io/job-tracking: ""
Parallelism:    1
Completions:    1
Start Time:     Mon, 02 Dec 2019 15:20:11 +0200
Completed At:   Mon, 02 Dec 2019 15:21:16 +0200
Duration:       65s
Pods Statuses:  0 Running / 1 Succeeded / 0 Failed
Pod Template:
  Labels:  batch.kubernetes.io/controller-uid=c9948307-e56d-4b5d-8302-ae2d7b7da67c
           batch.kubernetes.io/job-name=pi
  Containers:
   pi:
    Image:      perl:5.34.0
    Port:       <none>
    Host Port:  <none>
    Command:
      perl
      -Mbignum=bpi
      -wle
      print bpi(2000)
    Environment:  <none>
    Mounts:       <none>
  Volumes:        <none>
Events:
  Type    Reason            Age   From            Message
  ----    ------            ----  ----            -------
  Normal  SuccessfulCreate  21s   job-controller  Created pod: pi-xf9p4
  Normal  Completed         18s   job-controller  Job completed


apiVersion: batch/v1
kind: Job
metadata:
  annotations: batch.kubernetes.io/job-tracking: ""
             ...  
  creationTimestamp: "2022-11-10T17:53:53Z"
  generation: 1
  labels:
    batch.kubernetes.io/controller-uid: 863452e6-270d-420e-9b94-53a54146c223
    batch.kubernetes.io/job-name: pi
  name: pi
  namespace: default
  resourceVersion: "4751"
  uid: 204fb678-040b-497f-9266-35ffa8716d14
spec:
  backoffLimit: 4
  completionMode: NonIndexed
  completions: 1
  parallelism: 1
  selector:
    matchLabels:
      batch.kubernetes.io/controller-uid: 863452e6-270d-420e-9b94-53a54146c223
  suspend: false
  template:
    metadata:
      creationTimestamp: null
      labels:
        batch.kubernetes.io/controller-uid: 863452e6-270d-420e-9b94-53a54146c223
        batch.kubernetes.io/job-name: pi
    spec:
      containers:
      - command:
        - perl
        - -Mbignum=bpi
        - -wle
        - print bpi(2000)
        image: perl:5.34.0
        imagePullPolicy: IfNotPresent
        name: pi
        resources: {}
        terminationMessagePath: /dev/termination-log
        terminationMessagePolicy: File
      dnsPolicy: ClusterFirst
      restartPolicy: Never
      schedulerName: default-scheduler
      securityContext: {}
      terminationGracePeriodSeconds: 30
status:
  active: 1
  ready: 0
  startTime: "2022-11-10T17:53:57Z"
  uncountedTerminatedPods: {}

kubectl get pods 를 사용해서 잡의 완료된 파드를 본다.

잡에 속하는 모든 파드를 기계적으로 읽을 수 있는 양식으로 나열하려면, 다음과 같은 명령을 사용할 수 있다.

pods=$(kubectl get pods --selector=batch.kubernetes.io/job-name=pi --output=jsonpath='{.items[*].metadata.name}')
echo $pods

출력 결과는 다음과 같다.

pi-5rwd7

여기서 셀렉터는 해당 잡의 셀렉터와 동일하다. --output=jsonpath 옵션은 반환된 목록에서 각 파드의 이름을 가져오는 표현식을 지정한다.

파드 중 하나의 표준 출력을 본다.

kubectl logs $pods

잡의 로그를 확인하는 또 다른 방법은 다음과 같다.

kubectl logs jobs/pi

출력 결과는 다음과 같다.

3.1415926535897932384626433832795028841971693993751058209749445923078164062862089986280348253421170679821480865132823066470938446095505822317253594081284811174502841027019385211055596446229489549303819644288109756659334461284756482337867831652712019091456485669234603486104543266482133936072602491412737245870066063155881748815209209628292540917153643678925903600113305305488204665213841469519415116094330572703657595919530921861173819326117931051185480744623799627495673518857527248912279381830119491298336733624406566430860213949463952247371907021798609437027705392171762931767523846748184676694051320005681271452635608277857713427577896091736371787214684409012249534301465495853710507922796892589235420199561121290219608640344181598136297747713099605187072113499999983729780499510597317328160963185950244594553469083026425223082533446850352619311881710100031378387528865875332083814206171776691473035982534904287554687311595628638823537875937519577818577805321712268066130019278766111959092164201989380952572010654858632788659361533818279682303019520353018529689957736225994138912497217752834791315155748572424541506959508295331168617278558890750983817546374649393192550604009277016711390098488240128583616035637076601047101819429555961989467678374494482553797747268471040475346462080466842590694912933136770289891521047521620569660240580381501935112533824300355876402474964732639141992726042699227967823547816360093417216412199245863150302861829745557067498385054945885869269956909272107975093029553211653449872027559602364806654991198818347977535663698074265425278625518184175746728909777727938000816470600161452491921732172147723501414419735685481613611573525521334757418494684385233239073941433345477624168625189835694855620992192221842725502542568876717904946016534668049886272327917860857843838279679766814541009538837863609506800642251252051173929848960841284886269456042419652850222106611863067442786220391949450471237137869609563643719172874677646575739624138908658326459958133904780275901

잡 사양 작성하기

다른 모든 쿠버네티스 설정과 마찬가지로, 잡에도 apiVersion, kind, metadata 필드가 필요하다.

컨트롤 플레인이 잡에 대한 새로운 파드를 생성할 때, 잡의 .metadata.name은 해당 파드의 이름을 지정하는 기준의 일부이다. 잡의 이름은 유효한 DNS 서브도메인 값이어야 하지만, 이로 인해 파드 호스트네임에 예상하지 못한 결과가 발생할 수 있다. 최상의 호환성을 위해서 이름은 DNS 레이블의 더 제한적인 규칙을 따라야 한다. 이름이 DNS 서브도메인인 경우에도 이름은 63자를 넘지 않아야 한다.

잡에는 .spec 섹션도 필요하다.

잡 레이블

잡 레이블에는 job-name과 controller-uid 앞에 batch.kubernetes.io/ 접두사가 붙는다.

파드 템플릿

.spec.template 은 .spec 의 유일한 필수 필드이다.

.spec.template 은 파드 템플릿이다. 이것은 중첩되어 있으며 apiVersion 또는 kind 가 없다는 것을 제외한다면 파드와 정확하게 같은 스키마를 가지고 있다.

추가로 잡의 파드 템플릿은 파드의 필수 필드 외에도 적절한 레이블(파드 셀렉터를 본다)과 적절한 재시작 정책을 명시해야 한다.

Never 또는 OnFailure 와 같은 RestartPolicy만 허용된다.

파드 셀렉터

.spec.selector 필드는 선택 사항이다. 대부분의 케이스에서 지정해서는 안된다. 자신의 파드 셀렉터를 지정하기 섹션을 참고한다.

잡에 대한 병렬 실행

잡으로 실행하기에 적합한 작업 유형은 크게 세 가지가 있다.

비-병렬(Non-parallel) 잡:
- 일반적으로, 파드가 실패하지 않은 한, 하나의 파드만 시작된다.
- 파드가 성공적으로 종료하자마자 즉시 잡이 완료된다.
고정적(fixed)인 완료 횟수 를 가진 병렬 잡:
- .spec.completions 에 0이 아닌 양수 값을 지정한다.
- 잡은 전체 작업을 나타내며, .spec.completions 성공한 파드가 있을 때 완료된다.
- .spec.completionMode="Indexed" 를 사용할 때, 각 파드는 0에서 .spec.completions-1 범위 내의 서로 다른 인덱스를 가져온다.
작업 큐(queue) 가 있는 병렬 잡:
- .spec.completions 를 지정하지 않고, .spec.parallelism 를 기본으로 한다.
- 파드는 각자 또는 외부 서비스 간에 조정을 통해 각각의 작업을 결정해야 한다. 예를 들어 파드는 작업 큐에서 최대 N 개의 항목을 일괄로 가져올(fetch) 수 있다.
- 각 파드는 모든 피어들의 작업이 완료되었는지 여부를 독립적으로 판단할 수 있으며, 결과적으로 전체 잡이 완료되게 한다.
- 잡에 속한 파드 중 어느 하나라도 성공적으로 종료되면, 새로운 파드는 더 이상 생성되지 않는다.
- 하나 이상의 파드가 성공적으로 종료되고, 모든 파드가 종료되면 잡은 성공적으로 완료된다.
- 성공적으로 종료된 파드가 하나라도 생긴 경우, 다른 파드들은 해당 작업을 지속하지 않아야 하며 어떠한 출력도 작성하면 안 된다. 파드들은 모두 종료되는 과정에 있어야 한다.

비-병렬 잡은 .spec.completions 와 .spec.parallelism 모두를 설정하지 않은 채로 둘 수 있다. 이때 둘 다 설정하지 않은 경우 1이 기본으로 설정된다.

고정적인 완료 횟수 잡은 .spec.completions 을 필요한 완료 횟수로 설정해야 한다. .spec.parallelism 을 설정할 수 있고, 설정하지 않으면 1이 기본으로 설정된다.

작업 큐 잡은 .spec.completions 를 설정하지 않은 상태로 두고, .spec.parallelism 을 음수가 아닌 정수로 설정해야 한다.

다른 유형의 잡을 사용하는 방법에 대한 더 자세한 정보는 잡 패턴 섹션을 본다.

병렬 처리 제어하기

요청된 병렬 처리(.spec.parallelism)는 음수가 아닌 값으로 설정할 수 있다. 만약 지정되지 않은 경우에는 1이 기본이 된다. 만약 0으로 지정되면 병렬 처리가 증가할 때까지 사실상 일시 중지된다.

실제 병렬 처리(모든 인스턴스에서 실행되는 파드의 수)는 여러가지 이유로 요청된 병렬 처리보다 많거나 적을 수 있다.

고정적인 완료 횟수(fixed completion count) 잡의 경우, 병렬로 실행 중인 파드의 수는 남은 완료 수를 초과하지 않는다. .spec.parallelism 의 더 큰 값은 사실상 무시된다.
작업 큐 잡은 파드가 성공한 이후에 새로운 파드가 시작되지 않는다. 그러나 나머지 파드는 완료될 수 있다.
만약 잡 컨트롤러 가 반응할 시간이 없는 경우
만약 잡 컨트롤러가 어떤 이유(ResourceQuota 의 부족, 권한 부족 등)로든 파드 생성에 실패한 경우, 요청한 것보다 파드 수가 적을 수 있다.
잡 컨트롤러는 동일한 잡에서 과도하게 실패한 이전 파드들로 인해 새로운 파드의 생성을 조절할 수 있다.
파드가 정상적으로(gracefully) 종료되면, 중지하는데 시간이 소요된다.

완료 모드

기능 상태: Kubernetes v1.24 [stable]

완료 횟수가 고정적인 완료 횟수 즉, null이 아닌 .spec.completions 가 있는 잡은 .spec.completionMode 에 지정된 완료 모드를 가질 수 있다.

NonIndexed (기본값): .spec.completions 가 성공적으로 완료된 파드가 있는 경우 잡이 완료된 것으로 간주된다. 즉, 각 파드 완료는 서로 상동하다(homologous). .spec.completions 가 null인 잡은 암시적으로 NonIndexed 상태가 된다.
Indexed: 잡의 파드는 연결된 완료 인덱스를 0에서 .spec.completions-1 까지 가져온다. 이 인덱스는 다음의 네 가지 메카니즘으로 얻을 수 있다.
- 파드 어노테이션 batch.kubernetes.io/job-completion-index.
- 파드 레이블 batch.kubernetes.io/job-completion-index (v1.28 이상). 참고 이 레이블을 사용하려면 기능 게이트 PodIndexLabel을 활성화해서 하며 기본적으로 활성화되어 있다.
- 파드 호스트네임의 일부로 $(job-name)-$(index) 형태를 따른다. 인덱스된(Indexed) 잡과 서비스를 결합하여 사용하고 있다면, 잡에 속한 파드는 DNS를 이용하여 서로를 디스커버 하기 위해 사전에 결정된 호스트네임을 사용할 수 있다. 이를 어떻게 설정하는지에 대해 궁금하다면, 파드 간 통신이 활성화된 잡을 확인한다.
- 컨테이너화된 태스크의 경우, 환경 변수 JOB_COMPLETION_INDEX에 있다.
각 인덱스에 대해 성공적으로 완료된 파드가 하나 있으면 작업이 완료된 것으로 간주된다. 이 모드를 사용하는 방법에 대한 자세한 내용은 정적 작업 할당을 통한 병렬 처리를 위한 색인된 잡을 참고한다.

참고:

드물지만, 다양한 이유(노드 장애, kubelet 재시작 또는 파드 제거 등)로 동일한 인덱스에 대해 여러 파드가 시작될 수 있다. 이 경우, 성공적으로 완료된 첫 번째 파드만 완료 횟수에 포함되고 잡 상태가 업데이트된다. 동일한 인덱스에 대해 실행 중이거나 완료된 다른 파드는 감지되는 즉시 잡 컨트롤러에 의해 삭제된다.

파드와 컨테이너 장애 처리하기

파드 내 컨테이너는 프로세스가 0이 아닌 종료 코드로 종료되었거나 컨테이너 메모리 제한을 초과해서 죽는 등의 여러가지 이유로 실패할 수 있다. 만약 이런 상황이 발생하고 .spec.template.spec.restartPolicy = "OnFailure" 라면 파드는 노드에 그대로 유지되지만, 컨테이너는 다시 실행된다. 따라서 프로그램은 로컬에서 재시작될 때의 케이스를 다루거나 .spec.template.spec.restartPolicy = "Never" 로 지정해야 한다. 더 자세한 정보는 파드 라이프사이클의 restartPolicy 를 본다.

파드가 노드에서 내보내지는 경우(노드 업그레이드, 재부팅, 삭제 등) 또는 파드의 컨테이너가 실패 되고 .spec.template.spec.restartPolicy = "Never" 로 설정됨과 같은 여러 이유로 전체 파드가 실패할 수 있다. 파드가 실패하면 잡 컨트롤러는 새 파드를 시작한다. 이 의미는 애플리케이션이 새 파드에서 재시작될 때 이 케이스를 처리해야 한다는 점이다. 특히, 이전 실행으로 인한 임시파일, 잠금, 불완전한 출력 그리고 이와 유사한 것들을 처리해야 한다.

기본적으로 파드의 실패는 .spec.backoffLimit 제한값으로 계산되며, 자세한 내용은 파드 백오프(backoff) 실패 정책을 확인한다. 그러나, 잡의 파드 실패 정책을 설정하여 파드의 실패 수준을 조절하여 사용할 수도 있다.

또한, .spec.backoffLimitPerIndex 필드를 설정하여 인덱싱된 작업의 각 인덱스에 대해 파드 실패 횟수를 독립적으로 계산하도록 선택할 수 있다. (자세한 내용은 인덱스당 백오프 제한를 참조한다)

.spec.parallelism = 1, .spec.completions = 1 그리고 .spec.template.spec.restartPolicy = "Never" 를 지정하더라도 같은 프로그램을 두 번 시작하는 경우가 있다는 점을 참고한다.

.spec.parallelism 과 .spec.completions 를 모두 1보다 크게 지정한다면 한번에 여러 개의 파드가 실행될 수 있다. 따라서 파드는 동시성에 대해서도 관대(tolerant)해야 한다.

.spec.podFailurePolicy 필드를 지정하면 작업 컨트롤러는 종료되는 파드(.metadata.deletionTimestamp 필드가 설정된 파드)가 종료될 때까지 (.status.phase가 Failed 또는 Succeeded일 때까지) 해당 파드를 실패로 간주하지 않는다. 그러나, 잡 컨트롤러는 파드가 명백히 종료되었다고 판단하면 곧바로 대체 파드를 생성한다. 파드가 한 번 종료되면, 잡 컨트롤러는 방금 종료된 파드를 고려하여 관련 작업에 대해 .backoffLimit과 .podFailurePolicy를 평가한다.

이러한 조건들이 하나라도 충족되지 않을 경우, 잡 컨트롤러는 종료 중인 파드가 추후 phase: "Succeded"로 종료된다고 할지라도, 해당 파드를 실패한 파드로 즉시 간주한다.

파드 백오프(backoff) 실패 정책

구성에 논리적 오류가 포함되어 있어서 몇 회의 재시도 이후에 잡이 실패되도록 만들어야 하는 경우가 있다. 이렇게 하려면 .spec.backoffLimit의 값에 재시도(잡을 실패로 처리하기 이전까지) 횟수를 설정한다.

.spec.backoffLimit은 인덱스당 백오프 제한(인덱싱된 작업에만 해당)이 지정되어 있지 않은 이상 6을 기본값으로 설정한다. .spec.backoffLimitPerIndex가 지정되면 .spec.backoffLimit는 기본적으로 2147483647 (MaxInt32)로 설정된다.

잡에 연계된 실패 상태 파드는 6분 내에서 지수적으로 증가하는 백-오프 지연(10초, 20초, 40초 ...)을 적용하여, 잡 컨트롤러에 의해 재생성된다.

재시도 횟수는 다음 두 가지 방법으로 계산된다.

.status.phase = "Failed"인 파드의 수.
restartPolicy = "OnFailure"를 사용하는 경우, .status.phase가 Pending이거나 Running인 파드의 모든 컨테이너에서 재시도 횟수.

두 계산 중 하나라도 .spec.backoffLimit에 도달하면, 잡이 실패한 것으로 간주한다.

참고:

만약 잡에 restartPolicy = "OnFailure" 가 있는 경우 잡 백오프 한계에 도달하면 잡을 실행 중인 파드가 종료된다. 이로 인해 잡 실행 파일의 디버깅이 더 어려워질 수 있다. 디버깅하거나 로깅 시스템을 사용할 때는 restartPolicy = "Never" 로 설정하여
실패한 작업의 결과를 실수로 손실되지 않도록 방지하는 것이 좋다.

인덱스당 백오프 제한

기능 상태: Kubernetes v1.33 [stable](enabled by default)

인덱스 잡을 실행할 때, 각 인덱스에 대해 파드 실패에 대한 재시도를 독립적으로 처리하도록 선택할 수 있다. 이렇게 하려면, .spec.backoffLimitPerIndex를 설정하여 인덱스당 최대 파드 실패 횟수를 지정한다.

인덱스당 백오프 한도를 초과하면, 쿠버네티스는 해당 인덱스를 실패한 것으로 간주하고 이를 .status.failedIndexes 필드에 추가한다. 성공적으로 실행된 파드가 있는 성공한 인덱스는 backoffLimitPerIndex 필드 설정 여부와 관계없이 .status.completedIndexes 필드에 기록된다.

실패한 인덱스는 다른 인덱스의 실행을 방지하지 않는다. 인덱스당 백오프 제한을 지정한 잡에 대해 모든 인덱스가 완료된 이후, 해당 인덱스 중 하나라도 실패하면, 작업 컨트롤러는 상태에 실패 조건을 설정하여 전체 작업을 실패로 표시한다. 잡은 일부, 어쩌면 거의 모든 인덱스가 성공적으로 처리되었더라도 실패로 표시된다.

.spec.maxFailedIndexes 필드를 설정하여 실패로 표시되는 인덱스의 최대 개수를 제한할 수도 있다. 실패한 인덱스 수가 maxFailedIndexes 필드를 초과하면, 잡 컨트롤러는 해당 잡에 대해 실행 중인 모든 파드를 종료한다. 모든 파드가 종료되면, 작업 컨트롤러는 잡 상태에 실패 조건을 설정하여 전체 작업을 실패로 표시한다.

backoffLimitPerIndex를 정의하는 Job에 대한 매니페스트의 예는 다음과 같다.

/controllers/job-backoff-limit-per-index-example.yaml

apiVersion: batch/v1
kind: Job
metadata:
  name: job-backoff-limit-per-index-example
spec:
  completions: 10
  parallelism: 3
  completionMode: Indexed  # required for the feature
  backoffLimitPerIndex: 1  # maximal number of failures per index
  maxFailedIndexes: 5      # maximal number of failed indexes before terminating the Job execution
  template:
    spec:
      restartPolicy: Never # required for the feature
      containers:
      - name: example
        image: python
        command:           # The jobs fails as there is at least one failed index
                           # (all even indexes fail in here), yet all indexes
                           # are executed as maxFailedIndexes is not exceeded.
        - python3
        - -c
        - |
          import os, sys
          print("Hello world")
          if int(os.environ.get("JOB_COMPLETION_INDEX")) % 2 == 0:
            sys.exit(1)

위 예에서 작업 컨트롤러는 각 인덱스에 대해 한 번의 재시작을 허용한다. 실패한 인덱스의 총 개수가 5개를 초과하면 전체 작업이 종료된다.

작업이 완료되면 작업 상태는 다음과 같다.

kubectl get -o yaml job job-backoff-limit-per-index-example

  status:
    completedIndexes: 1,3,5,7,9
    failedIndexes: 0,2,4,6,8
    succeeded: 5          # 5개의 성공 인덱스 각각에 대해 1개의 성공 파드
    failed: 10            # 5개의 실패한 인덱스 각각에 대해 2개의 실패한 파드(1회 재시도)
    conditions:
    - message: Job has failed indexes
      reason: FailedIndexes
      status: "True"
      type: FailureTarget
    - message: Job has failed indexes
      reason: FailedIndexes
      status: "True"
      type: Failed

잡 컨트롤러는 FailureTarget 잡 조건을 추가하여 잡의 종료와 정리를 유발한다. 모든 잡 파드가 종료되면, 잡 컨트롤러는 Failed 조건을 추가한다. reason 및 message 값은 FailureTarget 잡 조건과 동일하다. 자세한 내용은 잡 파드 종료를 참조한다.

또한, 인덱스별 백오프와 함께 파드 실패 정책을 사용할 수도 있다. 인덱스별 백오프를 사용할 때, 인덱스 내에서 불필요한 재시도를 방지할 수 있는 새로운 FailIndex 잡이 제공된다.

파드 실패 정책

기능 상태: Kubernetes v1.31 [stable](enabled by default)

.spec.podFailurePolicy 필드로 정의된 파드 실패 정책을 사용하면 클러스터가 컨테이너 종료 코드와 파드 조건에 따라 파드 실패를 처리할 수 있다.

경우에 따라 파드 실패를 처리할 때 잡의 .spec.backoffLimit를 기반으로 하는 파드 백오프 실패 정책에서 제공하는 제어보다 더 나은 제어가 필요할 수 있다. 다음은 몇 가지 사용 사례이다.

불필요한 파드 재시작을 방지하여 워크로드 실행 비용을 최적화하기 위해 파드 중 하나가 소프트웨어 버그를 나타내는 종료 코드와 함께 실패하면 작업을 종료할 수 있다.
중단이 발생하더라도 작업이 완료되도록 하려면 중단으로 인해 발생한 파드 실패(예: 선점, API-시작 축출 또는 테인트 기반 제거)를 무시하여 .spec.backoffLimit 재시도 한도에 포함되지 않도록 할 수 있다.

위 사용 사례를 충족하도록 .spec.podFailurePolicy 필드에서 파드 실패 정책을 구성할 수 있다. 이 정책은 컨테이너 종료 코드와 파드 조건에 따라 파드 실패를 처리할 수 있습니다.

podFailurePolicy를 정의하는 잡에 대한 매니페스트는 다음과 같다.

/controllers/job-pod-failure-policy-example.yaml

apiVersion: batch/v1
kind: Job
metadata:
  name: job-pod-failure-policy-example
spec:
  completions: 12
  parallelism: 3
  template:
    spec:
      restartPolicy: Never
      containers:
      - name: main
        image: docker.io/library/bash:5
        command: ["bash"]        # FailJob 액션을 트리거시키는 버그를 만들어내는 예제 명령어
        args:
        - -c
        - echo "Hello world!" && sleep 5 && exit 42
  backoffLimit: 6
  podFailurePolicy:
    rules:
    - action: FailJob
      onExitCodes:
        containerName: main      # 선택 사항
        operator: In             # [In / NotIn] 중 하나
        values: [42]
    - action: Ignore             # [Ignore, FailJob, Count] 중 하나
      onPodConditions:
      - type: DisruptionTarget   # 파드의 중단을 나타냄

위 예에서 파드 실패 정책의 첫 번째 규칙은 main 컨테이너가 종료 코드 42로 실패하면 잡을 실패로 표시해야 한다고 명시한다. main 컨테이너에 적용되는 규칙은 다음과 같다.

종료 코드 0은 컨테이너가 성공했음을 의미한다
종료 코드 42는 전체 잡이 실패했음을 의미한다
다른 종료 코드는 컨테이너가 실패했으며, 따라서 전체 파드가 실패했음을 나타냅니다. 총 재시작 횟수가 backoffLimit 미만이면 파드가 다시 생성된다. backoffLimit에 도달하면 전체 작업이 실패한 것이다.

참고:

파드 템플릿이 restartPolicy: Never를 지정하므로 kubelet은 해당 파의 main 컨테이너를 다시 시작하지 않는다.

파드 실패 정책의 두 번째 규칙에서, DisruptionTarget 조건을 가진 실패한 파드에 대해 Ignore 작업을 지정하여 파드 중단이 .spec.backoffLimit 재시도 한도에 포함되지 않도록 한다.

참고:

파드 실패 정책 또는 파드 백오프 실패 정책으로 인해 작업이 실패하고 작업이 여러 파드를 실행 중인 경우, 쿠버네티스는 해당 작업에서 아직 보류 중이거나 실행 중인 모든 파드를 종료한다.

API의 몇 가지 요구 사항과 의미는 다음과 같다.

잡에 .spec.podFailurePolicy 필드를 사용하려면, 해당 잡의 파드 템플릿을 .spec.restartPolicy을 Never로 설정하여 정의해야 한다.
spec.podFailurePolicy.rules에 지정한 파드 실패 정책 규칙은 순서대로 평가된다. 규칙이 파드 실패와 일치하면 나머지 규칙은 무시된다. 파드 실패와 일치하는 규칙이 없는 경우, 기본 처리 방식이 적용된다.
spec.podFailurePolicy.rules[*].onExitCodes.containerName에 규칙 이름을 지정하여 특정 컨테이너로 규칙을 제한할 수 있다. 규칙을 지정하지 않으면 모든 컨테이너에 적용된다. 규칙을 지정하는 경우, 파드 템플릿의 컨테이너 이름 중 하나 또는 initContainer 이름과 일치해야 한다.
파드 실패 정책이 spec.podFailurePolicy.rules[*].action과 일치할 때 수행할 작업을 지정할 수 있다. 가능한 값은 다음과 같다.
- FailJob: 파드의 잡을 실패로 표시하고 실행 중인 모든 파드를 종료해야 함을 나타낸다.
- Ignore: .spec.backoffLimit에 대한 카운터를 증가시키지 않고 대체 파드를 생성해야 함을 나타낸다.
- Count: 파드를 기본 방식으로 처리해야 함을 나타낸다. .spec.backoffLimit에 대한 카운터를 증가시켜야 한다.
- FailIndex: 실패한 파드의 인덱스 내에서 불필요한 재시도를 방지하려면 인덱스당 백오프 제한과 함께 이 작업을 사용한다.

참고:

podFailurePolicy를 사용하면 잡 컨트롤러는 Failed 단계에 있는 파드만 매칭한다. 삭제 타임스탬프가 있고 종료 단계(Failed 또는 Succeeded)에 있지 않은 파드는 아직 종료 중인 것으로 간주된다. 이는 종료 중인 파드는 종료 단계에 도달할 때까지 추적 파이널라이저를 유지한다. 쿠버네티스 1.27부터 Kubelet은 삭제된 파드를 종료 단계로 전환한다 (파드의 단계 참조). 이를 통해 삭제된 파드의 파이널라이저가 잡 컨트롤러에 의해 제거된다.

참고:

쿠버네티스 v1.28부터 파드 실패 정책이 사용되면, 잡 컨트롤러는 해당 파드가 최종 Failed 단계에 도달한 후에만 종료 파드를 다시 생성한다. 이 동작은 podReplacementPolicy: Failed와 유사하다. 자세한 내용은 파드 교체 정책을 참조한다.

podFailurePolicy를 사용하고 파드가 FailJob 잡과 규칙을 일치시켜 잡이 실패하면, 잡 컨트롤러는 FailureTarget 조건을 추가하여 잡 종료 프로세스를 트리거한다. 자세한 내용은 잡의 종료와 정리를 참조한다.

성공 정책

인덱싱된 잡을 생성할 때, .spec.successPolicy를 사용하여 성공한 파드를 기준으로 작업이 성공적으로 선언될 수 있는 시점을 정의할 수 있다.

기본적으로 잡은 성공한 파드의 개수가 .spec.completions와 같을 때 성공한다. 다음과 같은 상황에서는 잡 성공 선언에 대한 추가 제어가 필요할 수 있다.

다양한 매개변수로 시뮬레이션을 실행할 때, 전체 잡이 성공하기 위해 모든 시뮬레이션이 성공할 필요는 없다.
리더-워커 패턴을 따른 경우, 리더의 성공 여부만이 작업의 성공 또는 실패를 결정한다. MPI와 PyTorch 등과 같은 프레임워크가 이러한 예이다.

.spec.successPolicy 필드에서 위의 사용 사례를 충족하도록 성공 정책을 구성할 수 있다. 이 정책은 성공한 파드를 기반으로 잡 성공을 처리할 수 있다. 잡이 성공 정책을 충족하면 잡 컨트롤러는 남아있는 파드를 종료한다. 성공 정책은 규칙에 의해 정의된다. 각 규칙은 다음 형식 중 하나를 가질 수 있다.

succeededIndexes만 지정하는 경우, succeededIndexes에 지정된 모든 인덱스가 성공하면 잡 컨트롤러가 잡을 성공으로 표시한다. succeededIndexes는 0과 .spec.completions-1 사이의 간격 목록이어야 한다.
succeededCount만 지정하는 경우, 성공한 인덱스 수가 succeededCount에 도달하면 잡 컨트롤러가 잡을 성공으로 표시한다.
succeededIndexes와 succeededCount를 모두 지정하는 경우, succeededIndexes에 지정된 인덱스 하위 집합에서 성공한 인덱스 수가 succeededCount에 도달하면 잡 컨트롤러가 작업을 성공으로 표시한다.

.spec.successPolicy.rules에 여러 규칙을 지정하면 잡 컨트롤러는 규칙을 순서대로 평가한다. 작업이 규칙을 충족하면, 잡 컨트롤러는 나머지 규칙을 무시한다.

successPolicy가 있는 잡에 대한 매니페스트는 다음과 같다.

/controllers/job-success-policy.yaml

apiVersion: batch/v1
kind: Job
metadata:
  name: job-success
spec:
  parallelism: 10
  completions: 10
  completionMode: Indexed # Required for the success policy
  successPolicy:
    rules:
      - succeededIndexes: 0,2-3
        succeededCount: 1
  template:
    spec:
      containers:
      - name: main
        image: python
        command:          # Provided that at least one of the Pods with 0, 2, and 3 indexes has succeeded,
                          # the overall Job is a success.
          - python3
          - -c
          - |
            import os, sys
            if os.environ.get("JOB_COMPLETION_INDEX") == "2":
              sys.exit(0)
            else:
              sys.exit(1)            
      restartPolicy: Never

위 예에서는 succeededIndexes와 succeededCount를 모두 지정했다. 따라서, 잡 컨트롤러는 지정된 인덱스 0, 2 또는 3 중 하나라도 성공하면 잡을 성공으로 간주하고 남아 있는 파드를 종료한다. 성공 정책을 충족한 잡은 SuccessCriteriaMet 조건이 설정되고 이유는 SuccessPolicy 로 설정된다. 이후 남은 파드들의 삭제가 진행되면, 잡은 Complete 컨디션을 가지게 된다.

succeededIndexes는 하이픈으로 구분된 간격으로 표시된다. 숫자는 시리즈의 첫 번째 요소와 마지막 요소로 표시되며 하이픈으로 구분된다.

참고:

성공 정책과 .spec.backoffLimit 및 .spec.podFailurePolicy와 같은 종료 정책을 모두 지정하는 경우 잡이 두 정책 중 하나를 충족하면, 작업이 두 정책 중 하나를 충족하면 작업 컨트롤러는 종료 정책을 존중하고 성공 정책은 무시한다.

잡의 종료와 정리

잡이 완료되면 파드가 더 이상 생성되지도 않지만, 일반적으로는 삭제되지도 않는다.
이를 유지하면 완료된 파드의 로그를 계속 보며 에러, 경고 또는 다른 기타 진단 출력을 확인할 수 있다. 잡 오브젝트는 완료된 후에도 상태를 볼 수 있도록 남아 있다. 상태를 확인한 후 이전 잡을 삭제하는 것은 사용자의 몫이다. kubectl 로 잡을 삭제할 수 있다 (예: kubectl delete jobs/pi 또는 kubectl delete -f ./job.yaml). kubectl 을 사용해서 잡을 삭제하면 생성된 모든 파드도 함께 삭제된다.

기본적으로 파드의 실패(restartPolicy=Never) 또는 컨테이너가 오류(restartPolicy=OnFailure)로 종료되지 않는 한, 잡은 중단되지 않고 실행되고 이때 위에서 설명했던 .spec.backoffLimit 까지 연기된다. .spec.backoffLimit 에 도달하면 잡은 실패로 표기되고 실행 중인 모든 파드는 종료된다.

잡을 종료하는 또 다른 방법은 유효 데드라인을 설정하는 것이다. 잡의 .spec.activeDeadlineSeconds 필드를 초 단위로 설정하면 된다. activeDeadlineSeconds 는 생성된 파드의 수에 관계 없이 잡의 기간에 적용된다. 잡이 activeDeadlineSeconds 에 도달하면, 실행 중인 모든 파드가 종료되고 잡의 상태는 reason: DeadlineExceeded 와 함께 type: Failed 가 된다.

잡의 .spec.activeDeadlineSeconds 는 .spec.backoffLimit 보다 우선한다는 점을 참고한다. 따라서 하나 이상 실패한 파드를 재시도하는 잡은 backoffLimit 에 도달하지 않은 경우에도 activeDeadlineSeconds 에 지정된 시간 제한에 도달하면 추가 파드를 배포하지 않는다.

예시:

apiVersion: batch/v1
kind: Job
metadata:
  name: pi-with-timeout
spec:
  backoffLimit: 5
  activeDeadlineSeconds: 100
  template:
    spec:
      containers:
      - name: pi
        image: perl:5.34.0
        command: ["perl", "-Mbignum=bpi", "-wle", "print bpi(2000)"]
      restartPolicy: Never

잡의 사양과 잡의 파드 템플릿 사양에는 모두 activeDeadlineSeconds 필드가 있다는 점을 참고한다. 이 필드를 적절한 레벨로 설정해야 한다.

restartPolicy 는 잡 자체에 적용되는 것이 아니라 파드에 적용된다는 점을 유념한다. 잡의 상태가 type: Failed 이 되면, 잡의 자동 재시작은 없다. 즉, .spec.activeDeadlineSeconds 와 .spec.backoffLimit 로 활성화된 잡의 종료 메커니즘은 영구적인 잡의 실패를 유발하며 이를 해결하기 위해 수동 개입이 필요하다.

터미널 잡 조건

잡은 2가지 가능한 터미널 상태가 있고, 각 상태에는 해당 잡 조건이 있다.

성공: 잡 조건 Complete
실패: 잡 조건 Failed

잡은 다음과 같은 이유로 실패한다.

파드 실패 횟수가 잡 사양에 지정된 .spec.backoffLimit을 초과했다. 자세한 내용은 파드 백오프 실패 정책을 참조한다.
작업 런타임이 지정된 .spec.activeDeadlineSeconds를 초과한다.
.spec.backoffLimitPerIndex를 사용하는 인덱싱된 잡에서 인덱스가 실패했다. 자세한 내용은 인덱스당 백오프 제한을 참조한다.
잡에서 실패한 인덱스 수가 지정된 spec.maxFailedIndexes를 초과했다. 자세한 내용은 인덱스당 백오프 제한을 참조한다.
실패한 파드는 .spec.podFailurePolicy의 FailJob 잡이 있는 규칙과 일치한다. 파드 실패 정책 규칙이 실패 평가에 어떤 영향을 미칠 수 있는지에 대한 자세한 내용은 파드 실패 정책을 참조한다.

잡은 다음과 같은 이유로 성공한다.

성공한 파드 수가 지정된 .spec.completions에 도달했다.
.spec.successPolicy에 지정된 기준이 충족되었다. 자세한 내용은 성공 정책을 참조한다.

쿠버네티스 v1.31 이상에서는 잡 컨트롤러가 잡 파드가 종료될 때까지 Failed 또는 Complete라는 터미널 조건 추가를 지연한다.

쿠버네티스 v1.30 이하 버전에서는 잡 프로세스 종료가 트리거 되고 모든 파드 파이널라이저가 제거되는 즉시 잡 컨트롤러가 Complete 또는 Failed 잡 종료 조건을 추가했다. 그러나, 종료 조건이 추가되는 순간 일부 파드는 여전히 실행 중이거나 종료 중이었다.

Kubernetes v1.31 이상에서는 컨트롤러가 모든 파드가 종료된 후 에만 잡 종료 조건을 추가한다. JobManagedBy 또는 JobPodReplacementPolicy 기능 게이트(둘 다 기본적으로 활성화됨)를 사용하여 이 동작을 제어할 수 있다.

잡 파드 종료

잡 컨트롤러는 잡이 성공 또는 실패 기준을 충족하면 파드 종료를 트리거하기 위해 잡에 FailureTarget 조건 또는 SuccessCriteriaMet 조건을 추가한다.

terminationGracePeriodSeconds와 같은 요소는 잡 컨트롤러가 FailureTarget 조건이나 SuccessCriteriaMet 조건을 추가하는 순간부터 모든 잡 파트가 종료되고 잡 컨트롤러가 터미널 잡 조건(Failed 또는 Complete)을 추가하는 순간까지의 시간을 증가시킬 수 있다.

FailureTarget 또는 SuccessCriteriaMet 조건을 사용하면 컨트롤러가 최종 조건을 추가할 때까지 기다리지 않고도 작업이 실패했는지 성공했는지 평가할 수 있다.

예를 들어, 실패한 잡을 대체하는 대체 잡을 언제 생성할지 결정할 수 있다. FailureTarget 조건이 나타날 때 실패한 잡을 대체하면 대체 잡이 더 빨리 실행되지만, 실패한 잡과 대체 잡의 파드가 동시에 실행되어 추가 컴퓨팅 리소스를 사용하게 될 수 있다.

또는 클러스터의 리소스 용량이 제한된 경우 작업에 실패 조건이 나타날 때까지 기다릴 수 있고 이렇게 하면 교체 작업이 지연되지만 실패한 모든 파드가 제거될 때까지 기다려 리소스를 절약할 수 있다.

완료된 잡 자동 정리

완료된 잡은 일반적으로 시스템에서 더 이상 필요로 하지 않는다. 시스템 내에 이를 유지한다면 API 서버에 부담이 된다. 만약 크론잡과 같은 상위 레벨 컨트롤러가 잡을 직접 관리하는 경우, 지정된 용량 기반 정리 정책에 따라 크론잡이 잡을 정리할 수 있다.

완료된 잡을 위한 TTL 메커니즘

기능 상태: Kubernetes v1.23 [stable]

완료된 잡 (Complete 또는 Failed)을 자동으로 정리하는 또 다른 방법은 잡의 .spec.ttlSecondsAfterFinished 필드를 지정해서 완료된 리소스에 대해 TTL 컨트롤러에서 제공하는 TTL 메커니즘을 사용하는 것이다.

TTL 컨트롤러는 잡을 정리하면 잡을 계단식으로 삭제한다. 즉, 잡과 함께 파드와 같은 종속 오브젝트를 삭제한다. 잡을 삭제하면 파이널라이저(finalizer)와 같은 라이프사이클 보증이 보장되는 것을 참고한다.

예시:

apiVersion: batch/v1
kind: Job
metadata:
  name: pi-with-ttl
spec:
  ttlSecondsAfterFinished: 100
  template:
    spec:
      containers:
      - name: pi
        image: perl:5.34.0
        command: ["perl", "-Mbignum=bpi", "-wle", "print bpi(2000)"]
      restartPolicy: Never

pi-with-ttl 잡은 완료 후 100 초 이후에 자동으로 삭제될 수 있다.

만약 필드를 0 으로 설정하면, 잡이 완료된 직후에 자동으로 삭제되도록 할 수 있다. 만약 필드를 설정하지 않으면, 이 잡이 완료된 후에 TTL 컨트롤러에 의해 정리되지 않는다.

참고:

ttlSecondsAfterFinished 필드를 설정하는 것을 권장하는데, 이는 관리되지 않는 잡(직접 생성한, 크론잡 등 다른 워크로드 API를 통해 간접적으로 생성하지 않은 잡)의 기본 삭제 정책이 orphanDependents(관리되지 않는 잡이 완전히 삭제되어도 해당 잡에 의해 생성된 파드를 남겨둠)이기 때문이다. 삭제된 잡의 파드가 실패하거나 완료된 뒤 컨트롤 플레인이 언젠가 가비지 콜렉션을 한다고 해도, 이렇게 남아 있는 파드는 클러스터의 성능을 저하시키거나 최악의 경우에는 이 성능 저하로 인해 클러스터가 중단될 수도 있다.

리밋 레인지(Limit Range)와 리소스 쿼터를 사용하여 특정 네임스페이스가 사용할 수 있는 자원량을 제한할 수 있다.

잡 패턴

잡 오브젝트는 독립적이지만 관련된 작업 항목 집합의 병렬 처리를 지원한다. 여기에는 전송할 이메일들, 렌더링할 프레임, 코드 변환이 필요한 파일, NoSQL 데이터베이스에서의 키 범위 스캔 등이 있다.

복잡한 시스템에는 여러 개의 다른 작업 항목 집합이 있을 수 있다. 여기서는 사용자와 함께 관리하려는 하나의 작업 항목 집합 — 배치 잡 을 고려하고 있다.

병렬 계산에는 몇몇 다른 패턴이 있으며 각각의 장단점이 있다. 트레이드오프는 다음과 같다.

모든 작업 항목에 대해 하나의 잡 객체를 사용하는 것과 달리, 각 작업 항목에 대해 하나의 잡 객체를 사용한다. 작업 항목당 하나의 잡을 사용하면 사용자와 시스템에 많은 잡 객체를 관리해야 하는 부담이 발생한다. 많은 수의 잡 객체 관리에 있어 모든 작업 항목에 대해 하나의 잡을 사용하는 것이 더 좋다.
생성된 파드의 수는 잡 항목의 수와 동일하지만 각 파드는 여러 잡 항목을 처리할 수 있다. 파드의 수가 잡 항목의 수와 같으면 일반적으로 파드는 기존 코드와 컨테이너를 수정할 필요가 적다. 각 파드가 여러 작업 항목을 처리하는 것이 항목 수가 많을 때 더 좋다.
여러 접근 방식이 작업 큐를 사용한다. 이를 위해서는 큐 서비스를 실행하고, 작업 큐를 사용하도록 기존 프로그램이나 컨테이너를 수정해야 한다. 다른 접근 방식들은 기존에 컨테이너화된 애플리케이션에 보다 쉽게 적용할 수 있다.
잡이 헤드리스 서비스와 연결된 경우 잡 내의 파드가 서로 통신하여 계산에 협업할 수 있도록 할 수 있다.

여기에 트레이드오프가 요약되어 있고, 2열에서 4열까지가 위의 트레이드오프에 해당한다. 패턴 이름은 예시와 더 자세한 설명을 위한 링크이다.

패턴	단일 잡 오브젝트	작업 항목보다 파드가 적은가?	수정되지 않은 앱을 사용하는가?
작업 항목 당 파드가 있는 큐	✓		때때로
가변 파드 수를 가진 큐	✓	✓
정적 작업 할당을 사용한 인덱싱된 잡	✓		✓
파드 간 통신을 위한 잡	✓	때때로	때때로
잡 템플릿 확장			✓

.spec.completions 로 완료를 지정할 때, 잡 컨트롤러에 의해 생성된 각 파드는 동일한 사양을 갖는다.
이 의미는 작업의 모든 파드는 동일한 명령 줄과 동일한 이미지, 동일한 볼륨, (거의) 동일한 환경 변수를 가진다는 점이다. 이 패턴은 파드가 다른 작업을 수행하도록 배열하는 다른 방법이다.

이 표는 각 패턴에 필요한 .spec.parallelism 그리고 .spec.completions 설정을 보여준다. 여기서 W 는 작업 항목의 수이다.

패턴	`.spec.completions`	`.spec.parallelism`
작업 항목 당 파드가 있는 큐	W	any
가변 파드 수를 가진 큐	null	any
정적 작업 할당을 사용한 인덱싱된 잡	W	any
파드 간 통신을 위한 잡	W	W
잡 템플릿 확장	1	1이어야 함

고급 사용법

잡 일시 중지

기능 상태: Kubernetes v1.24 [stable]

잡이 생성되면, 잡 컨트롤러는 잡의 요구 사항을 충족하기 위해 즉시 파드 생성을 시작하고 잡이 완료될 때까지 계속한다. 그러나, 잡의 실행을 일시적으로 중단하고 나중에 재개하거나, 잡을 중단 상태로 생성하고 언제 시작할지를 커스텀 컨트롤러가 나중에 결정하도록 하고 싶을 수도 있다.

잡을 일시 중지하려면, 잡의 .spec.suspend 필드를 true로 업데이트할 수 있다. 이후에, 다시 재개하려면, false로 업데이트한다. .spec.suspend 로 설정된 잡을 생성하면 일시 중지된 상태로 생성된다.

쿠버네티스 1.35 이상에서는 MutableSchedulingDirectivesForSuspendedJobs 기능 게이트가 활성화되면 잡 일시 중지 시 .status.startTime 필드가 지워진다.

잡이 일시 중지에서 재개되면, 해당 .status.startTime 필드가 현재 시간으로 재설정된다. 즉, 잡이 일시 중지 및 재개되면 .spec.activeDeadlineSeconds 타이머가 중지되고 재설정된다.

잡을 일시 중지하면, Completed 상태가 아닌 모든 실행중인 파드가 SIGTERM 시그널로 종료된다. 파드의 정상 종료 기간이 적용되며 사용자의 파드는 이 기간 동안에 이 시그널을 처리해야 한다. 나중에 진행 상황을 저장하거나 변경 사항을 취소하는 작업이 포함될 수 있다. 이 방법으로 종료된 파드는 잡의 completions 수에 포함되지 않는다.

일시 중지된 상태의 잡 정의 예시는 다음과 같다.

kubectl get job myjob -o yaml

apiVersion: batch/v1
kind: Job
metadata:
  name: myjob
spec:
  suspend: true
  parallelism: 1
  completions: 5
  template:
    spec:
      ...

명령 줄에서 잡을 패치하여 잡 일시 중지를 전환할 수 있다.

활성화된 잡 일시 중지

kubectl patch job/myjob --type=strategic --patch '{"spec":{"suspend":true}}'

일시 중지된 잡 재개

kubectl patch job/myjob --type=strategic --patch '{"spec":{"suspend":false}}'

잡의 상태를 사용하여 잡이 일시 중지되었는지 또는 과거에 일시 중지되었는지 확인할 수 있다.

kubectl get jobs/myjob -o yaml

apiVersion: batch/v1
kind: Job
# .metadata and .spec omitted
status:
  conditions:
  - lastProbeTime: "2021-02-05T13:14:33Z"
    lastTransitionTime: "2021-02-05T13:14:33Z"
    status: "True"
    type: Suspended
  startTime: "2021-02-05T13:13:48Z"

"True" 상태인 "Suspended" 유형의 잡의 컨디션은 잡이 일시 중지되었음을 의미한다. 이 lastTransitionTime 필드는 잡이 일시 중지된 기간을 결정하는 데 사용할 수 있다. 해당 컨디션의 상태가 "False"이면, 잡이 이전에 일시 중지되었다가 현재 실행 중이다. 이러한 컨디션이 잡의 상태에 없으면, 잡이 중지되지 않은 것이다.

잡이 일시 중지 및 재개될 때에도 이벤트가 생성된다.

kubectl describe jobs/myjob

Name:           myjob
...
Events:
  Type    Reason            Age   From            Message
  ----    ------            ----  ----            -------
  Normal  SuccessfulCreate  12m   job-controller  Created pod: myjob-hlrpl
  Normal  SuccessfulDelete  11m   job-controller  Deleted pod: myjob-hlrpl
  Normal  Suspended         11m   job-controller  Job suspended
  Normal  SuccessfulCreate  3s    job-controller  Created pod: myjob-jvb44
  Normal  Resumed           3s    job-controller  Job resumed

마지막 4개의 이벤트, 특히 "Suspended" 및 "Resumed" 이벤트는 .spec.suspend 필드를 전환한 결과이다. 이 두 이벤트 사이의 시간동안 파드가 생성되지 않았지만, 잡이 재개되자마자 파드 생성이 다시 시작되었음을 알 수 있다.

가변적 스케줄링 지시

기능 상태: Kubernetes v1.27 [stable]

병렬 잡에서 대부분의 경우 파드를 특정 제약 조건 하에서 실행하고 싶을 것이다. (예를 들면 동일 존에서 실행하거나, 또는 GPU 모델 x 또는 y를 사용하지만 둘을 혼합하지는 않는 등)

suspend 필드는 이러한 목적을 달성하기 위한 첫 번째 단계이다. 이 필드를 사용하면 커스텀 큐(queue) 컨트롤러가 잡이 언제 시작될지를 결정할 수 있다. 그러나, 잡이 재개된 이후에는, 커스텀 큐 컨트롤러는 잡의 파드가 실제로 어디에 할당되는지에 대해서는 영향을 주지 않는다.

이 기능으로 잡이 실행되기 전에 잡의 스케줄링 지시를 업데이트할 수 있으며, 이를 통해 커스텀 큐 컨트롤러가 파드 배치에 영향을 줌과 동시에 노드로의 파드 실제 할당 작업을 kube-scheduler에 위임할 수 있도록 한다.

잡의 파드 템플릿 필드 중, 노드 어피니티(node affinity), 노드 셀렉터(node selector), 톨러레이션(toleration), 레이블(label), 어노테이션(annotation) 및 스케줄링 게이트는 업데이트가 가능하다.

일시 중지된 잡에 대한 가변적 스케줄링 지시

기능 상태: Kubernetes v1.35 [alpha](disabled by default)

쿠버네티스 1.34 또는 이전 버전에서는 파드의 스케줄링 지시자 변경이 이전에 재개된 적이 없는 일시 중지된 잡에 대해서만 허용된다. 쿠버네티스 1.35에서는 MutableSchedulingDirectivesForSuspendedJobs 기능 게이트가 활성화되면 모든 일시 중지된 잡에 대해 이것이 허용된다.

또한, 이 기능 게이트는 잡 일시 중지 시 .status.startTime 필드가 지워지도록 한다.

일시 중지된 잡에 대한 가변적 파드 리소스

기능 상태: Kubernetes v1.35 [alpha](disabled by default)

클러스터 관리자는 쿠버네티스에서 어드미션 컨트롤을 정의하여, 정책 규칙에 따라 잡의 리소스 요청 또는 제한을 수정할 수 있다.

이 기능을 사용하면, 쿠버네티스는 일시 중지된 잡의 파드 템플릿을 수정하여 잡 내 파드의 리소스 요구사항을 변경할 수 있다. 이는 이미 실행 중인 파드에 대해 한 번에 하나씩 리소스를 업데이트하는 in-place Pod resize 과는 다르다.

새로운 리소스 요청이나 제한을 설정하는 클라이언트는 잡을 처음 생성한 클라이언트와 다를 수 있으며, 클러스터 관리자가 아니어도 된다.

자신의 파드 셀렉터를 지정하기

일반적으로 잡 오브젝트를 생성할 때 .spec.selector 를 지정하지 않는다. 시스템의 기본적인 로직은 잡이 생성될 때 이 필드를 추가한다. 이것은 다른 잡과 겹치지 않는 셀렉터 값을 선택한다.

그러나, 일부 케이스에서는 이 자동화된 설정 셀렉터를 재정의해야 할 수도 있다. 이를 위해 잡의 .spec.selector 를 설정할 수 있다.

이것을 할 때는 매우 주의해야 한다. 만약 해당 잡의 파드에 고유하지 않고 연관이 없는 파드와 일치하는 레이블 셀렉터를 지정하면, 연관이 없는 잡의 파드가 삭제되거나, 해당 잡이 다른 파드가 완료한 것으로 수를 세거나, 하나 또는 양쪽 잡 모두 파드 생성이나 실행 완료를 거부할 수도 있다. 만약 고유하지 않은 셀렉터가 선택된 경우, 다른 컨트롤러(예: 레플리케이션 컨트롤러)와 해당 파드는 예측할 수 없는 방식으로 작동할 수 있다. 쿠버네티스는 당신이 .spec.selector 를 지정할 때 발생하는 실수를 막을 수 없을 것이다.

다음은 이 기능을 사용하려는 경우의 예시이다.

잡 old 가 이미 실행 중이다. 기존 파드가 계속 실행되기를 원하지만, 잡이 생성한 나머지 파드에는 다른 파드 템플릿을 사용하고 잡으로 하여금 새 이름을 부여하기를 원한다. 그러나 관련된 필드들은 업데이트가 불가능하기 때문에 잡을 업데이트할 수 없다. 따라서 kubectl delete jobs/old --cascade=orphan 명령을 사용해서 잡 old 를 삭제하지만, 파드를 실행 상태로 둔다. 삭제하기 전에 어떤 셀렉터를 사용하는지 기록한다.

kubectl get job old -o yaml

출력 결과는 다음과 같다.

kind: Job
metadata:
  name: old
  ...
spec:
  selector:
    matchLabels:
      controller-uid: a8f3d00d-c6d2-11e5-9f87-42010af00002
  ...

그런 이후에 이름이 new 인 새 잡을 생성하고, 동일한 셀렉터를 명시적으로 지정한다. 기존 파드에는 batch.kubernetes.io/controller-uid=a8f3d00d-c6d2-11e5-9f87-42010af00002 레이블이 있기에 잡 new 에 의해서도 제어된다.

시스템이 일반적으로 자동 생성하는 셀렉터를 사용하지 않도록 하기 위해 새 잡에서 manualSelector: true 를 지정해야 한다.

kind: Job
metadata:
  name: new
  ...
spec:
  manualSelector: true
  selector:
    matchLabels:
      batch.kubernetes.io/controller-uid: a8f3d00d-c6d2-11e5-9f87-42010af00002
  ...

새 잡 자체는 a8f3d00d-c6d2-11e5-9f87-42010af00002 와 다른 uid 를 가지게 될 것이다. manualSelector: true 를 설정하면 시스템에게 사용자가 무엇을 하는지 알고 있으며 이런 불일치를 허용한다고 알릴 수 있다.

파이널라이저를 이용한 잡 추적

기능 상태: Kubernetes v1.26 [stable]

컨트롤 플레인은 잡에 속한 파드들을 계속 추적하고, API 서버로부터 제거된 파드가 있는지에 대해 알려준다. 이를 위해 잡 컨트롤러는 batch.kubernetes.io/job-tracking 파이널라이저를 갖는 파드를 생성한다. 컨트롤러는 파드가 잡 상태로 처리된 이후에만 파이널라이저를 제거하여, 다른 컨트롤러나 사용자가 파드를 제거할 수 있도록 한다.

참고:

잡의 파드가 추적 파이널라이저에 갇힌 경우 파드가 계속 종료됨을 참조하세요.

탄력적(elastic) 인덱싱 잡

기능 상태: Kubernetes v1.31 [stable](enabled by default)

.spec.parallelism과 .spec.completions을 함께 변경하여 .spec.parallelism == .spec.completions가 되도록하여 인덱싱된 잡의 크기를 늘리거나 줄일 수 있다. 크기를 줄이면 쿠버네티스는 인덱스가 더 높은 파드를 제거한다.

탄력적으로 인덱싱된 잡의 사용 사례로는 MPI, Horovod, Ray, PyTorch 학습 잡과 같이 인덱싱된 잡의 크기를 조정해야 하는 배치 워크로드가 있다.

대체 파드 지연 생성

기능 상태: Kubernetes v1.34 [stable](enabled by default)

기본적으로 잡 컨트롤러는 파드가 실패하거나 종료되는 즉시(삭제 타임스탬프가 있는 경우) 파드를 다시 생성한다. 즉, 특정 시점에 일부 파드가 종료될 때 잡에 대해 실행 중인 파드의 수는 parallelism보다 크거나 인덱스당 파드 하나보다 클 수 있다(인덱싱된 잡을 사용하는 경우).

종료하는 파드가 완전히 종료된 경우(status.phase: Failed 상태인 경우)에만 대체 파드를 생성하도록 선택할 수 있다. 이렇게 하려면 .spec.podReplacementPolicy: Failed를 설정한다. 기본 대체 정책은 잡에 podFailurePolicy가 설정되어 있는지 여부에 따라 달라진다. 잡에 파드 실패 정책이 정의되어 있지 않은 경우 podReplacementPolicy 필드를 생략하면 TerminatingOrFailed 대체 정책이 선택된다. 제어 플레인은 파드가 삭제되는 즉시 대체 파드를 생성한다. (제어 플레인이 해당 잡의 파드에 deletionTimestamp가 설정되어 있는 것을 확인하는 즉시). 파드 실패 정책이 설정된 잡의 경우, 기본 podReplacementPolicy는 Failed이며 다른 값은 허용되지 않는다. 잡의 파드 실패 정책에 대한 자세한 내용은 파드 실패 정책을 참조한다.

kind: Job
metadata:
  name: new
  ...
spec:
  podReplacementPolicy: Failed
  ...

클러스터에 기능 게이트가 활성화되어 있다면 잡의 .status.terminating 필드를 검사할 수 있다. 이 필드의 값은 잡이 소유한 파드 중 현재 종료 중인 파드의 수이다.

kubectl get jobs/myjob -o yaml

apiVersion: batch/v1
kind: Job
# .metadata와 .spec 생략됨
status:
  terminating: 3 # 3개의 파드가 종료 중이며 아직 실패 단계에 도달하지 않았다

잡 오브젝트 관리를 외부 컨트롤러에 위임

기능 상태: Kubernetes v1.35 [stable](enabled by default)

이 기능을 사용하면 특정 잡에 대해 기본 제공 잡 컨트롤러를 비활성화하고 잡 조정을 외부 컨트롤러에 위임할 수 있다.

spec.managedBy 필드에 kubernetes.io/job-controller를 제외한 사용자 지정 값을 설정하여 잡을 조정할 컨트롤러를 지정할 수 있다. 이 필드 값은 변경할 수 없다.

참고:

이 기능을 사용할 때는 필드에 표시된 컨트롤러가 설치되어 있는지 확인해야 한다. 그렇지 않으면 잡이 전혀 조정되지 않을 수 있다.

참고:

외부 잡 컨트롤러를 개발할 때는 컨트롤러가 API 사양 및 잡 오브젝트의 상태 필드 정의에 따라 작동해야 한다는 점에 유의한다.

잡 API에서 이러한 내용을 자세히 검토한다. 또한, 구현을 검증하기 위해 잡 객체에 대한 e2e 적합성 테스트를 실행하는 것이 좋다.

마지막으로, 외부 잡 컨트롤러를 개발할 때는 내장 컨트롤러용으로 예약된 batch.kubernetes.io/job-tracking 파이널라이저를 사용하지 않도록 주의한다.

대안

베어(Bare) 파드

파드가 실행 중인 노드가 재부팅되거나 실패하면 파드가 종료되고 재시작되지 않는다. 그러나 잡은 종료된 항목을 대체하기 위해 새 파드를 생성한다. 따라서, 애플리케이션에 단일 파드만 필요한 경우에도 베어 파드 대신 잡을 사용하는 것을 권장한다.

레플리케이션 컨트롤러

잡은 레플리케이션 컨트롤러를 보완한다. 레플리케이션 컨트롤러는 종료하지 않을 파드(예: 웹 서버)를 관리하고, 잡은 종료될 것으로 예상되는 파드(예: 배치 작업)를 관리한다.

파드 라이프사이클에서 설명한 것처럼, 잡 은 오직 OnFailure 또는 Never 와 같은 RestartPolicy 를 사용하는 파드에만 적절하다.

참고:

RestartPolicy 가 설정되지 않은 경우에는 기본값은 Always 이다.

단일 잡으로 컨트롤러 파드 시작

또 다른 패턴은 단일 잡이 파드를 생성한 후 다른 파드들을 생성해서 해당 파드들에 일종의 사용자 정의 컨트롤러 역할을 하는 것이다. 이를 통해 최대한의 유연성을 얻을 수 있지만, 시작하기에는 다소 복잡할 수 있으며 쿠버네티스와의 통합성이 낮아진다.

이 접근 방식의 장점은 전체 프로세스가 잡 오브젝트의 완료를 보장하면서도, 파드 생성과 작업 할당 방법을 완전히 제어하고 유지한다는 것이다.

다음 내용

파드에 대해 배운다.
다른 방식으로 잡을 구동하는 방법에 대해서 읽는다.
- 작업 대기열을 사용한 거친 병렬 처리
- 작업 대기열을 사용한 정밀 병렬 처리
- 병렬 처리를 위한 정적 작업 할당으로 인덱스된 잡 사용
- 템플릿 기반으로 복수의 잡 생성: 확장을 사용한 병렬 처리
완료된 잡 자동 정리 섹션 내 링크를 따라서 클러스터가 완료되거나 실패된 태스크를 어떻게 정리하는지에 대해 더 배운다.
Job은 쿠버네티스 REST API의 일부이다. 잡 API에 대해 이해하기 위해 Job 오브젝트 정의를 읽는다.
스케줄을 기반으로 실행되는 일련의 잡을 정의하는데 사용할 수 있고, 유닉스 툴 cron과 유사한 CronJob에 대해 읽는다.
단계별로 구성된 예제를 통해, podFailurePolicy를 사용하여 재시도 가능 및 재시도 불가능 파드의 실패 처리를 하기위한 구성 방법을 연습한다.

2.6 - 완료된 잡 자동 정리

기능 상태: Kubernetes v1.23 [stable]

완료-이후-TTL(TTL-after-finished) 컨트롤러는 실행이 완료된 리소스 오브젝트의 수명을 제한하는 TTL (time to live) 메커니즘을 제공한다. TTL 컨트롤러는 잡만을 제어한다.

완료-이후-TTL 컨트롤러

완료-이후-TTL 컨트롤러는 잡만을 지원한다. 클러스터 운영자는 예시 와 같이 .spec.ttlSecondsAfterFinished 필드를 명시하여 완료된 잡(완료 또는 실패)을 자동으로 정리하기 위해 이 기능을 사용할 수 있다. 잡의 작업이 완료된 TTL 초(sec) 후 (다른 말로는, TTL이 만료되었을 때), 완료-이후-TTL 컨트롤러는 해당 잡이 정리될 수 있다고 가정한다. 완료-이후-TTL 컨트롤러가 잡을 정리할때 잡을 연속적으로 삭제한다. 이는 의존하는 오브젝트도 해당 잡과 함께 삭제되는 것을 의미한다. 잡이 삭제되면 완료자(finalizers)와 같은 라이프 사이클 보증이 적용 된다.

TTL 초(sec)는 언제든지 설정이 가능하다. 여기에 잡 필드 중 .spec.ttlSecondsAfterFinished 를 설정하는 몇 가지 예시가 있다.

작업이 완료된 다음, 일정 시간 후에 자동으로 잡이 정리될 수 있도록 잡 메니페스트에 이 필드를 지정한다.
이미 완료된 기존 잡에 이 새 기능을 적용하기 위해서 이 필드를 설정한다.
어드미션 웹후크 변형 을 사용해서 잡 생성시 이 필드를 동적으로 설정 한다. 클러스터 관리자는 이것을 사용해서 완료된 잡에 대해 TTL 정책을 적용할 수 있다.
잡이 완료된 이후에 어드미션 웹후크 변형 을 사용해서 이 필드를 동적으로 설정하고, 잡의 상태, 레이블 등에 따라 다른 TTL 값을 선택한다.

경고

TTL 초(sec) 업데이트

TTL 기간은, 예를 들어 잡의 .spec.ttlSecondsAfterFinished 필드는 잡을 생성하거나 완료한 후에 수정할 수 있다. 그러나, 잡을 삭제할 수 있게 되면(TTL이 만료된 경우) 시스템은 TTL을 연장하기 위한 업데이트가 성공적인 API 응답을 리턴하더라도 작업이 유지되도록 보장하지 않는다.

시간 차이(Skew)

완료-이후-TTL 컨트롤러는 쿠버네티스 잡에 저장된 타임스탬프를 사용해서 TTL의 만료 여부를 결정하기 때문에, 이 기능은 클러스터 간의 시간 차이에 민감하며, 시간 차이에 의해서 완료-이후-TTL 컨트롤러가 잘못된 시간에 잡 오브젝트를 정리하게 될 수 있다.

시계가 항상 정확한 것은 아니지만, 그 차이는 아주 작아야 한다. 0이 아닌 TTL을 설정할때는 이 위험에 대해 유의해야 한다.

다음 내용

2.7 - 크론잡(CronJob)

크론잡(CronJob)은 반복적인 일정에 따라 일회성 작업을 시작한다.

기능 상태: Kubernetes v1.21 [stable]

크론잡(CronJob) 은 반복 일정에 따라 잡을 만든다.

크론잡은 백업, 리포트 생성과 같은 정기적인 예약 작업을 수행하기 위해 사용한다. 하나의 크론잡 오브젝트는 Unix 시스템의 크론탭 (크론 테이블) 파일의 한 줄과 같다. 크론잡은 잡을 크론 형식으로 쓰여진 주어진 일정에 따라 주기적으로 동작시킨다.

크론잡에는 제약 사항과 고유한 특징이 있다. 예를 들어, 특정 상황에서 하나의 크론잡이 여러 개의 동시 잡을 생성할 수 있다. 아래의 한계를 참고한다.

컨트롤 플레인이 크론잡에 대해 새로운 잡과 (간접적으로) 파드를 생성할 때, 크론잡의 .metadata.name이 해당 파드의 이름을 짓는 기반이 된다. 크론잡의 이름은 유효한 DNS 서브도메인 값이어야 하지만, 파드 호스트네임에 예기치 않은 결과를 만들 수 있다. 최상의 호환성을 위해, DNS 레이블의 보다 제한적인 규칙을 따르는 것이 좋다. 이름이 DNS 서브도메인이더라도 52자 이하여야 한다. 이는 크론잡 컨트롤러가 제공된 이름에 자동으로 11자를 추가하며, 잡 이름의 길이가 63자를 초과할 수 없다는 제약이 있기 때문이다.

예시

이 크론잡 매니페스트 예제는 현재 시간과 hello 메시지를 1분마다 출력한다.

application/job/cronjob.yaml

apiVersion: batch/v1
kind: CronJob
metadata:
  name: hello
spec:
  schedule: "* * * * *"
  jobTemplate:
    spec:
      template:
        spec:
          containers:
          - name: hello
            image: busybox:1.28
            imagePullPolicy: IfNotPresent
            command:
            - /bin/sh
            - -c
            - date; echo Hello from the Kubernetes cluster
          restartPolicy: OnFailure

(크론잡으로 자동화된 작업 실행하기에서 이 예시를 더 자세히 설명한다).

크론잡 명세 작성

스케줄 문법

.spec.schedule 필드는 필수이다. 해당 필드의 값은 크론 문법을 따른다.

# ┌───────────── 분 (0 - 59)
# │ ┌───────────── 시 (0 - 23)
# │ │ ┌───────────── 일 (1 - 31)
# │ │ │ ┌───────────── 월 (1 - 12)
# │ │ │ │ ┌───────────── 요일 (0 - 6) (일요일부터 토요일까지)
# │ │ │ │ │                                   또는 sun, mon, tue, wed, thu, fri, sat
# │ │ │ │ │
# │ │ │ │ │
# * * * * *

예를 들어, 0 3 * * 1은 해당 작업이 매주 월요일 오전 3시에 실행되도록 예약됨을 의미한다.

이 형식은 확장된 "Vixie cron" 스텝 값도 포함한다. FreeBSD 매뉴얼에서 설명하는 내용은 다음과 같다.

스텝 값은 범위와 함께 사용할 수 있다. 범위 뒤에 /<숫자>를 붙이면 해당 숫자만큼의 간격으로 범위를 건너뛰며 실행함을 의미한다. 예를 들어, 0-23/2를 시간 필드에 사용하면 매 2시간마다 명령을 실행하도록 지정할 수 있다 (V7 표준에서 이와 동일한 설정은 0,2,4,6,8,10,12,14,16,18,20,22이다). 별표(asterisk) 뒤에도 스텝을 사용할 수 있으므로, "매 2시간마다"라고 지정하려면 */2를 사용하면 된다.

참고:

스케줄에서 물음표(?)는 별표(asterisk) *와 같은 의미를 가지며, 해당 필드에서 사용 가능한 모든 값을 의미한다.

표준 문법 외에도 @monthly와 같은 매크로도 사용할 수 있다.

항목	설명	상응 표현
@yearly (or @annually)	매년 1월 1일 자정에 실행	0 0 1 1 *
@monthly	매월 1일 자정에 실행	0 0 1 * *
@weekly	매주 일요일 자정에 실행	0 0 * * 0
@daily (or @midnight)	매일 자정에 실행	0 0 * * *
@hourly	매시 0분에 시작	0 * * * *

크론잡 스케줄 표현을 생성하기 위해서 crontab.guru와 같은 웹 도구를 사용할 수도 있다.

잡 템플릿

.spec.jobTemplate은 크론잡이 생성하는 잡의 템플릿을 정의하며, 필수 항목이다. 잡과 정확히 동일한 스키마를 가지지만, 중첩되어 있으며 apiVersion이나 kind가 없다. 템플릿으로 생성되는 잡에 대해 레이블이나 어노테이션 등의 공통 메타데이터를 지정할 수 있다. 잡의 .spec 작성에 대한 정보는 잡 명세 작성을 참고한다.

지연된 잡 시작에 대한 데드라인

.spec.startingDeadlineSeconds 필드는 선택 사항이다. 이 필드는 어떤 이유로든 잡이 예정된 시간을 놓친 경우, 잡을 시작하기 위한 데드라인(초 단위 정수)을 정의한다.

데드라인을 놓치면 크론잡은 해당 잡 인스턴스를 건너뛴다(이후 실행은 여전히 예약된다). 예를 들어, 하루에 두 번 실행되는 백업 잡이 있다면, 최대 8시간까지 늦게 시작하는 것은 허용할 수 있지만, 그 이후에는 허용하지 않을 수 있다. 그보다 늦은 백업은 유용하지 않으므로 다음 예정된 실행을 기다리는 것이 나을 수 있기 때문이다.

설정된 데드라인을 놓친 잡에 대해, 쿠버네티스는 이를 실패한 잡으로 처리한다. 크론잡에 startingDeadlineSeconds를 지정하지 않으면, 잡 발생에 데드라인이 없다.

.spec.startingDeadlineSeconds 필드가 설정되면 (null이 아닌 경우) 크론잡 컨트롤러는 잡이 생성될 것으로 예상되는 시간과 현재 시간 사이의 차이를 측정한다. 차이가 해당 한도보다 크면, 해당 실행을 건너뛴다.

예를 들어, 200으로 설정되면 실제 일정 이후 최대 200초까지 잡 생성을 허용한다.

동시성 정책

.spec.concurrencyPolicy 필드도 선택 사항이다. 이 필드는 이 크론잡에 의해 생성된 잡의 동시 실행을 어떻게 처리할지 지정한다. 명세는 다음 동시성 정책 중 하나만 지정할 수 있다.

Allow (기본값): 크론잡이 동시에 실행되는 잡을 허용한다
Forbid: 크론잡이 동시 실행을 허용하지 않는다. 새 잡을 실행할 시간이 되었는데 이전 잡 실행이 아직 완료되지 않은 경우, 크론잡은 새 잡 실행을 건너뛴다. 또한 이전 잡 실행이 완료될 때 .spec.startingDeadlineSeconds가 여전히 고려되며 새 잡 실행이 발생할 수 있다는 점에 유의한다.
Replace: 새 잡을 실행할 시간이 되었는데 이전 잡 실행이 아직 완료되지 않은 경우, 크론잡은 현재 실행 중인 잡을 새 잡 실행으로 대체한다.

동시성 정책은 동일한 크론잡에 의해 생성된 잡에만 적용된다는 점에 유의한다. 여러 크론잡이 있는 경우, 각각의 잡은 항상 동시에 실행되는 것이 허용된다.

스케줄 일시 중지

.spec.suspend 선택 필드를 true로 설정하여 크론잡의 잡 실행을 일시 중지할 수 있다. 이 필드의 기본값은 false이다.

이 설정은 크론잡이 이미 시작한 잡에는 영향을 주지 않는다.

이 필드를 true로 설정하면, 모든 후속 실행이 일시 중지된다 (예약은 유지되지만 크론잡 컨트롤러가 작업을 실행하기 위한 잡을 시작하지 않는다). 크론잡을 일시 중지 해제할 때까지 이 상태가 유지된다.

주의:

예약된 시간 동안 일시 중지된 실행은 누락된 잡으로 집계된다. 기존 크론잡에서 시작 데드라인 없이 .spec.suspend가 true에서 false로 변경되면, 누락된 잡이 즉시 스케줄된다.

잡 히스토리 한도

.spec.successfulJobsHistoryLimit과 .spec.failedJobsHistoryLimit 필드는 완료된 잡과 실패한 잡을 얼마나 보관할지 지정한다. 두 필드 모두 선택 사항이다.

.spec.successfulJobsHistoryLimit: 이 필드는 성공적으로 완료된 잡의 보관 수를 지정한다. 기본값은 3이다. 이 필드를 0으로 설정하면 성공한 잡을 보관하지 않는다.
.spec.failedJobsHistoryLimit: 이 필드는 실패한 잡의 보관 수를 지정한다. 기본값은 1이다. 이 필드를 0으로 설정하면 실패한 잡을 보관하지 않는다.

잡을 자동으로 정리하는 다른 방법에 대해서는 완료된 잡을 자동으로 정리를 참고한다.

타임 존

기능 상태: Kubernetes v1.27 [stable]

타임 존이 지정되지 않은 크론잡의 경우, kube-controller-manager는 로컬 타임 존을 기준으로 스케줄을 해석한다.

.spec.timeZone을 유효한 타임 존 이름으로 설정하여 크론잡의 타임 존을 지정할 수 있다. 예를 들어, .spec.timeZone: "Etc/UTC"로 설정하면 쿠버네티스는 스케줄을 협정 세계시 기준으로 해석한다.

Go 표준 라이브러리의 타임 존 데이터베이스가 바이너리에 포함되며, 시스템에서 외부 데이터베이스를 사용할 수 없을 때 폴백(fallback)으로 사용된다.

크론잡의 한계

지원되지 않는 타임 존 명세

.spec.schedule 내부에서 CRON_TZ 또는 TZ 변수를 사용하여 타임 존을 지정하는 것은 공식적으로 지원되지 않는다(그리고 지원된 적이 없다). TZ 또는 CRON_TZ 타임 존 명세가 포함된 스케줄을 설정하려고 하면, 쿠버네티스는 유효성 검사 오류와 함께 리소스 생성 또는 업데이트에 실패한다. 대신 타임 존 필드를 사용하여 타임 존을 지정해야 한다.

크론잡 수정

설계상 크론잡은 새로운 잡을 위한 템플릿을 포함한다. 만약 기존 크론잡을 수정하면, 변경 사항은 수정이 완료된 후 실행되기 시작하는 새 잡에 적용된다. 이미 시작된 잡(및 해당 파드)은 변경 없이 계속 실행된다. 즉, 크론잡은 기존 잡이 여전히 실행 중이더라도 해당 잡을 업데이트하지 않는다.

잡 생성

크론잡은 일정의 실행 시간마다 대략 한 번의 잡 오브젝트를 생성한다. 스케줄링이 대략적인 이유는 특정 상황에서 두 개의 잡이 생성되거나, 잡이 생성되지 않을 수 있기 때문이다. 쿠버네티스는 이러한 상황을 피하려고 하지만, 완전히 방지하지는 못한다. 따라서 잡은 멱등성 을 가져야 한다.

쿠버네티스 v1.32부터, 크론잡은 생성하는 잡에 batch.kubernetes.io/cronjob-scheduled-timestamp 어노테이션을 적용한다. 이 어노테이션은 잡이 원래 예정된 생성 시간을 나타내며 RFC3339 형식으로 표기된다.

startingDeadlineSeconds가 큰 값으로 설정되거나 설정되지 않은 경우 (기본값) 그리고 concurrencyPolicy가 Allow로 설정된 경우, 잡은 항상 적어도 한 번은 실행된다.

주의:

startingDeadlineSeconds 가 10초 미만의 값으로 설정되면, 크론잡이 스케줄되지 않을 수 있다. 이는 크론잡 컨트롤러가 10초마다 항목을 확인하기 때문이다.

모든 크론잡에 대해 크론잡 컨트롤러 는 마지막 일정부터 지금까지 얼마나 많은 일정이 누락되었는지 확인한다. 만약 100회 이상의 일정이 누락되었다면, 잡을 실행하지 않고 아래와 같은 에러 로그를 남긴다.

too many missed start times. Set or decrease .spec.startingDeadlineSeconds or check clock skew

이 동작은 누락 보상(catch-up) 스케줄링에 적용되며, 크론잡이 실행을 중단한다는 의미가 아니다.

예를 들어, concurrencyPolicy: Forbid를 사용할 때, 오래 실행되는 잡으로 인해 예정된 시간이 건너뛰어질 수 있지만, 이전 잡이 완료되면 새 잡이 생성될 수 있다.

중요한 것은 만약 startingDeadlineSeconds 필드가 설정이 되면(nil 이 아닌 값으로), 컨트롤러는 마지막 일정부터 지금까지 대신 startingDeadlineSeconds 값에서 몇 개의 잡이 누락되었는지 카운팅한다. 예를 들면, startingDeadlineSeconds 가 200 이면, 컨트롤러는 최근 200초 내 몇 개의 잡이 누락되었는지 카운팅한다.

크론잡은 정해진 시간에 생성되는데 실패하면 누락(missed)된 것으로 집계된다. 예를 들어 concurrencyPolicy가 Forbid 로 설정되어 있고 이전 크론잡이 여전히 실행 중인 상태라면, 크론잡은 일정에 따라 시도되었다가 생성을 실패하고 누락된 것으로 집계될 것이다.

즉, 크론잡이 08:30:00 에 시작하여 매 분마다 새로운 잡을 실행하도록 설정이 되었고, startingDeadlineSeconds 값이 설정되어 있지 않는다고 가정해보자. 만약 크론잡 컨트롤러가 08:29:00 부터 10:21:00 까지 고장이 나면, 일정을 놓친 작업 수가 100개를 초과하여 잡이 실행되지 않을 것이다.

이 개념을 더 자세히 설명하자면, 크론잡이 08:30:00 부터 매 분 실행되는 일정으로 설정되고, startingDeadlineSeconds 이 200이라고 가정한다. 크론잡 컨트롤러가 전의 예시와 같이 고장났다고 하면 (08:29:00 부터 10:21:00 까지), 잡은 10:22:00 부터 시작될 것이다. 이 경우, 컨트롤러가 마지막 일정부터 지금까지가 아니라, 최근 200초 안에 얼마나 놓쳤는지 체크하기 때문이다. (여기서는 3번 놓쳤다고 체크함)

크론잡은 오직 그 일정에 맞는 잡 생성에 책임이 있고, 잡은 그 잡이 대표하는 파드 관리에 책임이 있다.

다음 내용

크론잡이 의존하는 파드와 잡, 두 가지 개념에 대해 알아본다.
크론잡 .spec.schedule 필드의 상세 형식에 대해 읽어본다.
크론잡 생성 및 관리를 위한 지침과 크론잡 매니페스트 예제는 크론잡으로 자동화된 작업 실행을 참고한다.
크론잡은 쿠버네티스 REST API의 일부이다. CronJob API 레퍼런스에서 더 자세한 정보를 확인한다.

2.8 - 레플리케이션 컨트롤러

참고:

ReplicaSet을 구성하는 Deployment가 현재 권장하는 레플리케이션 설정 방법이다.

레플리케이션컨트롤러 는 언제든지 지정된 수의 파드 레플리카가 실행 중임을 보장한다. 다시 말하면, 레플리케이션 컨트롤러는 파드 또는 동일 종류의 파드의 셋이 항상 기동되고 사용 가능한지 확인한다.

레플리케이션 컨트롤러의 동작방식

파드가 너무 많으면 레플리케이션 컨트롤러가 추가적인 파드를 제거한다. 너무 적으면 레플리케이션 컨트롤러는 더 많은 파드를 시작한다. 수동으로 생성된 파드와 달리 레플리케이션 컨트롤러가 유지 관리하는 파드는 실패하거나 삭제되거나 종료되는 경우 자동으로 교체된다. 예를 들어, 커널 업그레이드와 같이 파괴적인 유지 보수 작업을 하고 난 이후의 노드에서 파드가 다시 생성된다. 따라서 애플리케이션에 하나의 파드만 필요한 경우에도 레플리케이션 컨트롤러를 사용해야 한다. 레플리케이션 컨트롤러는 프로세스 감시자(supervisor)와 유사하지만 단일 노드에서 개별 프로세스를 감시하는 대신 레플리케이션 컨트롤러는 여러 노드에서 여러 파드를 감시한다.

레플리케이션 컨트롤러는 디스커션에서 종종 "rc"로 축약되며 kubectl 명령에서 숏컷으로 사용된다.

간단한 경우는 하나의 레플리케이션 컨트롤러 오브젝트를 생성하여 한 개의 파드 인스턴스를 영구히 안정적으로 실행하는 것이다. 보다 복잡한 사용 사례는 웹 서버와 같이 복제된 서비스의 동일한 레플리카를 여러 개 실행하는 것이다.

레플리케이션 컨트롤러 예제 실행

레플리케이션 컨트롤러 예제의 config는 nginx 웹서버의 복사본 세 개를 실행한다.

controllers/replication.yaml

apiVersion: v1
kind: ReplicationController
metadata:
  name: nginx
spec:
  replicas: 3
  selector:
    app: nginx
  template:
    metadata:
      name: nginx
      labels:
        app: nginx
    spec:
      containers:
      - name: nginx
        image: nginx
        ports:
        - containerPort: 80

예제 파일을 다운로드한 후 다음 명령을 실행하여 예제 작업을 실행하라.

kubectl apply -f https://k8s.io/examples/controllers/replication.yaml

출력 결과는 다음과 같다.

replicationcontroller/nginx created

다음 명령을 사용하여 레플리케이션 컨트롤러의 상태를 확인하자.

kubectl describe replicationcontrollers/nginx

출력 결과는 다음과 같다.

Name:        nginx
Namespace:   default
Selector:    app=nginx
Labels:      app=nginx
Annotations:    <none>
Replicas:    3 current / 3 desired
Pods Status: 0 Running / 3 Waiting / 0 Succeeded / 0 Failed
Pod Template:
  Labels:       app=nginx
  Containers:
   nginx:
    Image:              nginx
    Port:               80/TCP
    Environment:        <none>
    Mounts:             <none>
  Volumes:              <none>
Events:
  FirstSeen       LastSeen     Count    From                        SubobjectPath    Type      Reason              Message
  ---------       --------     -----    ----                        -------------    ----      ------              -------
  20s             20s          1        {replication-controller }                    Normal    SuccessfulCreate    Created pod: nginx-qrm3m
  20s             20s          1        {replication-controller }                    Normal    SuccessfulCreate    Created pod: nginx-3ntk0
  20s             20s          1        {replication-controller }                    Normal    SuccessfulCreate    Created pod: nginx-4ok8v

이제 세 개의 파드가 생성되었으나 아직 이미지가 풀(pull)되지 않아서 어떤 파드도 시작되지 않았다. 조금 지난 후에 같은 명령이 다음과 같이 보일 것이다.

Pods Status:    3 Running / 0 Waiting / 0 Succeeded / 0 Failed

레플리케이션 컨트롤러에 속한 모든 파드를 머신이 읽을 수 있는 형식으로 나열하기 위해 다음과 같은 명령을 사용할 수 있다.

pods=$(kubectl get pods --selector=app=nginx --output=jsonpath={.items..metadata.name})
echo $pods

출력 결과는 다음과 같다.

nginx-3ntk0 nginx-4ok8v nginx-qrm3m

여기서 셀렉터는 레플리케이션컨트롤러(kubectl describe 의 출력에서 보인)의 셀렉터와 같고, 다른 형식의 파일인 replication.yaml 의 것과 동일하다. --output=jsonpath 은 반환된 목록의 각 파드의 이름을 출력하도록 하는 옵션이다.

레플리케이션 컨트롤러의 Spec 작성

다른 모든 쿠버네티스 컨피그와 마찬가지로 레플리케이션 컨트롤러는 apiVersion, kind, metadata 와 같은 필드가 필요하다. 레플리케이션 컨트롤러 오브젝트의 이름은 유효한 DNS 서브도메인 이름이어야 한다. 환경설정 파일의 동작에 관련된 일반적인 정보는 쿠버네티스 오브젝트 관리를 참고한다.

레플리케이션 컨트롤러는 또한 .spec section도 필요하다.

파드 템플릿

.spec.template 는 오직 .spec 필드에서 요구되는 것이다.

.spec.template 는 파드 템플릿이다. 정확하게 파드 스키마와 동일하나, 중첩되어 있고 apiVersion 혹은 kind를 갖지 않는다.

파드에 필요한 필드 외에도 레플리케이션 컨트롤러의 파드 템플릿은 적절한 레이블과 적절한 재시작 정책을 지정해야 한다. 레이블의 경우 다른 컨트롤러와 중첩되지 않도록 하라. 파드 셀렉터를 참조하라.

오직 Always 와 동일한 .spec.template.spec.restartPolicy만 허용되며, 특별히 지정되지 않으면 기본값이다.

로컬 컨테이너의 재시작의 경우, 레플리케이션 컨트롤러는 노드의 에이전트에게 위임한다. 예를 들어 Kubelet이다.

레플리케이션 컨트롤러에서 레이블

레플리케이션 컨트롤러 자체는 레이블 (.metadata.labels) 을 가질 수 있다. 일반적으로 이것을 .spec.template.metadata.labels 와 동일하게 설정할 것이다. .metadata.labels 가 지정되어 있지 않은 경우, 기본은 .spec.template.metadata.labels 이다. 하지만 레이블은 다른 것이 허용되며, .metadata.labels 라벨은 레플리케이션 컨트롤러의 동작에 영향을 미치지 않는다.

파드 셀렉터

.spec.selector 필드는 레이블 셀렉터이다. 레플리케이션 컨트롤러는 셀렉터와 일치하는 레이블이 있는 모든 파드를 관리한다. 직접 생성하거나 삭제된 파드와 다른 사람이나 프로세스가 생성하거나 삭제한 파드를 구분하지 않는다. 이렇게 하면 실행중인 파드에 영향을 주지 않고 레플리케이션 컨트롤러를 교체할 수 있다.

지정된 경우 .spec.template.metadata.labels 은 .spec.selector 와 동일해야 하며 그렇지 않으면 API에 의해 거부된다. .spec.selector 가 지정되지 않은 경우 기본값은 .spec.template.metadata.labels 이다.

또한 일반적으로 이 셀렉터와 레이블이 일치하는 파드를 직접 다른 레플리케이션 컨트롤러 또는 잡과 같은 다른 컨트롤러로 작성해서는 안된다. 그렇게 하면 레플리케이션 컨트롤러는 다른 파드를 생성했다고 생각한다. 쿠버네티스는 이런 작업을 중단해 주지 않는다.

중첩된 셀렉터들을 갖는 다수의 컨트롤러들을 종료하게 되면, 삭제된 것들은 스스로 관리를 해야 한다 (아래를 참조).

다수의 레플리카

.spec.replicas 를 동시에 실행하고 싶은 파드의 수로 설정함으로써 실행할 파드의 수를 지정할 수 있다. 레플리카가 증가 또는 감소한 경우 또는 파드가 정상적으로 종료되고 교체가 일찍 시작되는 경우라면 언제든지 실행중인 수가 더 높거나 낮을 수 있다.

.spec.replicas 를 지정하지 않으면 기본값은 1이다.

레플리케이션 컨트롤러 사용하기

레플리케이션 컨트롤러와 레플리케이션 컨트롤러의 파드 삭제

레플리케이션 컨트롤러와 레플리케이션의 모든 파드를 삭제하려면 kubectl delete 를 사용하라. Kubectl은 레플리케이션 컨트롤러를 0으로 스케일하고 레플리케이션 컨트롤러 자체를 삭제하기 전에 각 파드를 삭제하기를 기다린다. 이 kubectl 명령이 인터럽트되면 다시 시작할 수 있다.

REST API나 클라이언트 라이브러리를 사용하는 경우 명시적으로 단계를 수행해야 한다(레플리카를 0으로 스케일하고 파드의 삭제를 기다린 이후, 레플리케이션 컨트롤러를 삭제).

레플리케이션 컨트롤러만 삭제

해당 파드에 영향을 주지 않고 레플리케이션 컨트롤러를 삭제할 수 있다.

kubectl을 사용하여, kubectl delete에 옵션으로 --cascade=orphan을 지정하라.

REST API나 클라이언트 라이브러리를 사용하는 경우 레플리케이션 컨트롤러 오브젝트를 삭제하라.

원본이 삭제되면 대체할 새로운 레플리케이션 컨트롤러를 생성하여 교체할 수 있다. 오래된 파드와 새로운 파드의 .spec.selector 가 동일하다면, 새로운 레플리케이션 컨트롤러는 오래된 파드를 채택할 것이다. 그러나 기존 파드를 새로운 파드 템플릿과 일치시키려는 노력은 하지 않을 것이다. 새로운 spec에 대한 파드를 제어된 방법으로 업데이트하려면 롤링 업데이트를 사용하라.

레플리케이션 컨트롤러에서 파드 격리

파드는 레이블을 변경하여 레플리케이션 컨트롤러의 대상 셋에서 제거될 수 있다. 이 기술은 디버깅과 데이터 복구를 위해 서비스에서 파드를 제거하는 데 사용될 수 있다. 이 방법으로 제거된 파드는 자동으로 교체된다 (레플리카 수가 변경되지 않는다고 가정).

일반적인 사용법 패턴

다시 스케줄하기

위에서 언급했듯이, 실행하려는 파드가 한 개 혹은 1000개이든 관계없이 레플리케이션 컨트롤러는 노드 실패 또는 파드 종료시 지정된 수의 파드가 존재하도록 보장한다 (예 : 다른 제어 에이전트에 의한 동작으로 인해).

스케일링

레플리케이션컨트롤러는 replicas 필드를 업데이트하여, 수동으로 또는 오토 스케일링 제어 에이전트를 통해, 레플리카의 수를 늘리거나 줄일 수 있다.

롤링 업데이트

레플리케이션 컨트롤러는 파드를 하나씩 교체함으로써 서비스에 대한 롤링 업데이트를 쉽게 하도록 설계되었다.

#1353에서 설명한 것처럼, 권장되는 접근법은 1 개의 레플리카를 가진 새로운 레플리케이션 컨트롤러를 생성하고 새로운 (+1) 컨트롤러 및 이전 (-1) 컨트롤러를 차례대로 스케일한 후 0개의 레플리카가 되면 이전 컨트롤러를 삭제하는 것이다. 예상치 못한 오류와 상관없이 파드 세트를 예측 가능하게 업데이트한다.

이상적으로 롤링 업데이트 컨트롤러는 애플리케이션 준비 상태를 고려하며 주어진 시간에 충분한 수의 파드가 생산적으로 제공되도록 보장할 것이다.

두 레플리케이션 컨트롤러는 일반적으로 롤링 업데이트를 동기화 하는 이미지 업데이트이기 때문에 파드의 기본 컨테이너 이미지 태그와 같이 적어도 하나의 차별화된 레이블로 파드를 생성해야 한다.

다수의 릴리스 트랙

롤링 업데이트가 진행되는 동안 다수의 애플리케이션 릴리스를 실행하는 것 외에도 다수의 릴리스 트랙을 사용하여 장기간에 걸쳐 또는 연속적으로 실행하는 것이 일반적이다. 트랙은 레이블 별로 구분된다.

예를 들어, 서비스는 tier in (frontend), environment in (prod) 이 있는 모든 파드를 대상으로 할 수 있다. 이제 이 계층을 구성하는 10 개의 복제된 파드가 있다고 가정해 보자. 하지만 이 구성 요소의 새로운 버전을 '카나리' 하기를 원한다. 대량의 레플리카에 대해 replicas 를 9로 설정하고 tier=frontend, environment=prod, track=stable 레이블을 설정한 레플리케이션 컨트롤러와, 카나리에 replicas 가 1로 설정된 다른 레플리케이션 컨트롤러에 tier=frontend, environment=prod, track=canary 라는 레이블을 설정할 수 있다. 이제 이 서비스는 카나리와 카나리 이외의 파드 모두를 포함한다. 그러나 레플리케이션 컨트롤러를 별도로 조작하여 테스트하고 결과를 모니터링하는 등의 작업이 혼란스러울 수 있다.

서비스와 레플리케이션컨트롤러 사용

하나의 서비스 뒤에 여러 개의 레플리케이션컨트롤러가 있을 수 있다. 예를 들어 일부 트래픽은 이전 버전으로 이동하고 일부는 새 버전으로 이동한다.

레플리케이션컨트롤러는 자체적으로 종료되지 않지만, 서비스만큼 오래 지속될 것으로 기대되지는 않는다. 서비스는 여러 레플리케이션컨트롤러에 의해 제어되는 파드로 구성될 수 있으며, 서비스 라이프사이클 동안(예를 들어, 서비스를 실행하는 파드 업데이트 수행을 위해) 많은 레플리케이션컨트롤러가 생성 및 제거될 것으로 예상된다. 서비스 자체와 클라이언트 모두 파드를 유지하는 레플리케이션컨트롤러를 의식하지 않는 상태로 남아 있어야 한다.

레플리케이션을 위한 프로그램 작성

레플리케이션 컨트롤러에 의해 생성된 파드는 해당 구성이 시간이 지남에 따라 이질적이 될 수 있지만 균일하고 의미상 동일하도록 설계되었다. 이는 레플리카된 상태 스테이트리스 서버에 적합하지만 레플리케이션 컨트롤러를 사용하여 마스터 선출, 샤드 및 워크-풀 애플리케이션의 가용성을 유지할 수도 있다. RabbitMQ work queues와 같은 애플리케이션은 안티패턴으로 간주되는 각 파드의 구성에 대한 정적/일회성 사용자 정의와 반대로 동적 작업 할당 메커니즘을 사용해야 한다. 리소스의 수직 자동 크기 조정 (예 : CPU 또는 메모리)과 같은 수행된 모든 파드 사용자 정의는 레플리케이션 컨트롤러 자체와 달리 다른 온라인 컨트롤러 프로세스에 의해 수행되어야 한다.

레플리케이션 컨트롤러의 책임

레플리케이션 컨트롤러는 의도한 수의 파드가 해당 레이블 셀렉터와 일치하고 동작하는지를 확인한다. 현재, 종료된 파드만 해당 파드의 수에서 제외된다. 향후 시스템에서 사용할 수 있는 readiness 및 기타 정보가 고려될 수 있으며 교체 정책에 대한 통제를 더 추가 할 수 있고 외부 클라이언트가 임의로 정교한 교체 또는 스케일 다운 정책을 구현하기 위해 사용할 수 있는 이벤트를 내보낼 계획이다.

레플리케이션 컨트롤러는 이 좁은 책임에 영원히 제약을 받는다. 그 자체로는 준비성 또는 활성 프로브를 실행하지 않을 것이다. 오토 스케일링을 수행하는 대신, 외부 오토 스케일러 (#492에서 논의된)가 레플리케이션 컨트롤러의 replicas 필드를 변경함으로써 제어되도록 의도되었다. 레플리케이션 컨트롤러에 스케줄링 정책 (예를 들어 spreading)을 추가하지 않을 것이다. 오토사이징 및 기타 자동화 된 프로세스를 방해할 수 있으므로 제어된 파드가 현재 지정된 템플릿과 일치하는지 확인해야 한다. 마찬가지로 기한 완료, 순서 종속성, 구성 확장 및 기타 기능은 다른 곳에 속한다. 대량의 파드 생성 메커니즘 (#170)까지도 고려해야 한다.

레플리케이션 컨트롤러는 조합 가능한 빌딩-블록 프리미티브가 되도록 고안되었다. 향후 사용자의 편의를 위해 더 상위 수준의 API 및/또는 도구와 그리고 다른 보완적인 기본 요소가 그 위에 구축 될 것으로 기대한다. 현재 kubectl이 지원하는 "매크로" 작업 (실행, 스케일)은 개념 증명의 예시이다. 예를 들어 Asgard와 같이 레플리케이션 컨트롤러, 오토 스케일러, 서비스, 정책 스케줄링, 카나리 등을 관리할 수 있다.

API 오브젝트

레플리케이션 컨트롤러는 쿠버네티스 REST API의 최상위 수준의 리소스이다. API 오브젝트에 대한 더 자세한 것은 ReplicationController API object 에서 찾을 수 있다.

레플리케이션 컨트롤러의 대안

레플리카셋

ReplicaSet은 새로운 집합성 기준 레이블 셀렉터이다. 이것은 주로 디플로이먼트에 의해 파드의 생성, 삭제 및 업데이트를 오케스트레이션 하는 메커니즘으로 사용된다. 사용자 지정 업데이트 조정이 필요하거나 업데이트가 필요하지 않은 경우가 아니면 레플리카셋을 직접 사용하는 대신 디플로이먼트를 사용하는 것이 좋다.

디플로이먼트 (권장됨)

Deployment는 기본 레플리카셋과 그 파드를 업데이트하는 상위 수준의 API 오브젝트이다. 선언적이며, 서버 사이드이고, 추가 기능이 있기 때문에 롤링 업데이트 기능을 원한다면 디플로이먼트를 권장한다.

베어 파드

사용자가 직접 파드를 만든 경우와 달리 레플리케이션 컨트롤러는 노드 오류 또는 커널 업그레이드와 같은 장애가 발생하는 노드 유지 관리의 경우와 같이 어떤 이유로든 삭제되거나 종료된 파드를 대체한다. 따라서 애플리케이션에 하나의 파드만 필요한 경우에도 레플리케이션 컨트롤러를 사용하는 것이 좋다. 프로세스 관리자와 비슷하게 생각하면, 단지 단일 노드의 개별 프로세스가 아닌 여러 노드에서 여러 파드를 감독하는 것이다. 레플리케이션 컨트롤러는 로컬 컨테이너가 kubelet과 같은 노드의 에이전트로 재시작하도록 위임한다.

잡

자체적으로 제거될 것으로 예상되는 파드 (즉, 배치 잡)의 경우 레플리케이션 컨트롤러 대신 Job을 사용하라.

데몬셋

머신 모니터링이나 머신 로깅과 같은 머신 레벨 기능을 제공하는 파드에는 레플리케이션 컨트롤러 대신 DaemonSet을 사용하라. 이런 파드들의 수명은 머신의 수명에 달려 있다. 다른 파드가 시작되기 전에 파드가 머신에서 실행되어야 하며, 머신이 재부팅/종료 준비가 되어 있을 때 안전하게 종료된다.

다음 내용

파드에 대해 배운다.
레플리케이션 컨트롤러를 대신하는 디플로이먼트에 대해 배운다.
ReplicationController는 쿠버네티스 REST API의 일부이다. 레플리케이션 컨트롤러 API에 대해 이해하기 위해 ReplicationController 오브젝트 정의를 읽는다.

3 - 오토스케일링 워크로드

오토스케일링을 사용하면, 워크로드를 자동으로 여러 방식으로 업데이트를 할 수 있다. 이것은 클러스터가 리소스 요청에 좀 더 유연하고 효율적으로 반응하게 해준다.

쿠버네티스에서는 현재 리소스 수요에 따라 워크로드를 스케일링 할 수 있다. 이를 통해 클러스터가 리소스 수요 변화에 보다 탄력적이고 효율적으로 대응할 수 있다.

워크로드를 스케일링할 때는, 워크로드가 관리하는 레플리카 수를 늘리거나 줄일 수 있고, 혹은 레플리카 수는 그대로 둔 채 할당된 리소스를 조정할 수 있다.

첫 번째 방법을 수평 스케일링(horizontal scaling) , 두 번째 방법을 수직 스케일링(vertical scaling) 이라고 부른다.

워크로드 스케일링은 사용 사례에 따라 수동 또는 자동으로 수행할 수 있다.

수동 워크로드 스케일링

쿠버네티스는 워크로드의 수동 스케일링(manual scaling) 을 제공한다. 수평 스케일링은 kubectl CLI을 사용해 수행할 수 있다. 수직 스케일링의 경우, 워크로드의 리소스 정의를 패치 해야한다.

아래는 두 방식의 예시이다.

수평 스케일링: 복수의 앱 인스턴스를 구동하기
수직 스케일링: 컨테이너에 할당된 CPU와 메모리 리소스 크기 조정하기

자동 워크로드 스케일링

쿠버네티스는 워크로드의 자동 스케일링(automatic scaling) 도 제공하는데, 이 페이지는 이를 중점적으로 다룬다.

쿠버네티스에서 오토스케일링 라는 개념은 여러개의 파드를 관리하는 오브젝트를(예를 들어, 디플로이먼트) 자동으로 업데이트하는 것을 말한다.

수평 워크로드 스케일링

쿠버네티스에서, HorizontalPodAutoscaler(HPA)을 이용하여 워크로드를 수평으로 자동 스케일링할 수 있다.

이것은 쿠버네티스 API 리소스와 컨트롤러로 구현되어있고, 주기적으로 워크로드의 레플리카의 수를 조정하여 CPU나 메모리 사용량과 같은 관측된 리소스 사용률에 맞춘다.

HorizontalPodAutoscaler 연습에서 디플로이먼트의 HorizontalPodAutoscaler를 구성해볼 수 있다.

수직 워크로드 스케일링

기능 상태: Kubernetes v1.25 [stable]

VerticalPodAutoscaler (VPA)를 이용하여 워크로드를 수직으로 자동 스케일링할 수 있다. HPA와 달리, VPA는 쿠버네티스에서 기본적으로 제공하지는 않지만, 별도의 Github 프로젝트에서 확인할 수 있다.

설치 후에는, CustomResourceDefinitions(CRDs) 을 생성하여, 워크로드가 관리하는 레플리카들의 리소스를 어떻게, 언제 스케일링 할 것인지를 정의한다.

참고:

VPA를 사용하려면 클러스터에 Metrics Server를 설치해야한다.

현재, VPA는 다음 네 가지 모드로 작동된다.

Different modes of the VPA
모드	설명
`Auto`	현재는 `Recreate`모드와 동일하다. 향후에 인플레이스(in-place) 업데이트로 변경될 수 있다.
`Recreate`	VPA는 파드가 생성될 때 리소스 요청(resource request)를 할당하며, 기존 파드의 리소스 요청이 새로운 권장 값과 상당히 다르다면, 파드를 축출(evitct)하여 이를 업데이트한다.
`Initial`	VPA는 파드가 생성될 때만 리소스 요청을 할당하고, 이후에는 변경하지 않는다.
`Off`	VPA가 파드의 리소스 요청 값을 자동으로 바꾸지 않는다. 권장 값은 계산되며 VPA 오브젝트에서 확인할 수 있다.

수직 인플레이스(In-place) 파드 스케일링

기능 상태: Kubernetes v1.35 [stable](enabled by default)

쿠버네티스 1.35 버전에서는 인플레이스로 파드를 리사이징하는 기능은 지원하지 않지만, 현재 통합이 진행 중이다. 수동으로 파드를 인플레이스 리사이징 하려면, 컨테이너 리소스 인플레이스 리사이즈를 참고하자.

클러스터 크기 기반 오토스케일링

클러스터의 크기에 따라 스케일링이 필요한 워크로드(예: cluster-dns또는 시스템 컴포넌트)의 경우, Cluster Proportional Autoscaler를 사용할 수 있다. VPA와 마찬가지로, 쿠버네티스 코어에 포함되지 않으나, Github의 별도 프로젝트에서 호스팅된다.

Cluster Proportional Autoscaler는 스케줄 가능한 노드의 수와 코어 수를 감시하고, 이에 맞춰 대상 워크로드의 레플리카의 수를 스케일링한다.

만약 레플리카의 수는 그대로 유지하면서, 클러스터의 크기에 따라 워크로드를 수직으로 스케일링하고자 한다면, Cluster Proportional Vertical Autoscaler를 사용할 수 있다. 이 프로젝트는 현재 베타상태이고, Github에서 확인할 수 있다.

Cluster Proportional Autoscaler가 워크로드의 레플리카 수를 스케일링한다면, Cluster Proportional Vertical Autoscaler는 워크로드 (예: 디플로이먼트나 데몬셋)의 리소스 요청을 클러스터의 노드 수 및/또는 코어 수를 기반으로 조정한다.

이벤트 기반 오토스케일링

워크로드를 이벤트를 기반으로 스케일링할 수 있는데, 그 예로 Kubernetes Event Driven Autoscaler (KEDA)가 있다.

KEDA는 CNCF-graduated 프로젝트이고 처리해야 할 이벤트의 수(예: 큐에 존재하는 메세지의 양)를 기반으로 워크로드를 스케일링할 수 있게 한다. 다양한 이벤트 소스에 대응할 수 있는 폭넓은 어댑터들이 제공된다.

스케줄 기반 오토스케일링

워크로드를 스케일링하는 또 다른 전략은 스케일링을 수행하는 스케줄을 설정하는 것인데, 예를 들어 비혼잡 시간대에 리소스 사용량을 줄이기 위해 사용할 수 있다.

이벤트 기반 오토스케일링과 비슷하게, 이 기능도 KEDA와 Cron scaler를 함께 사용하여 구현할 수 있다. Cron scaler는 워크로드를 확장하거나 축소할 시각(과 시간대)을 정의할 수 있다.

클러스터 인프라 스케일링

만약 워크로드 스케일링만으로 충분하지 않다면, 클러스터 인프라 자체를 스케일링할 수 있다.

클러스터 인프라를 스케일링하는 것은 일반적으로 노드를 추가하거나 삭제하는 것을 의미한다. 자세한 내용은 노드 오토스케일링를 참고하자.

다음 내용

수평 스케일링에 대해 더 알아보기
- 스테이트풀셋(StatefulSet) 확장하기
- HorizontalPodAutoscaler 연습
컨테이너 리소스 인플레이스 리사이즈
클러스터에서 DNS 서비스 오토스케일
노드 오토스케일링 알아보기

4 - 워크로드 관리

애플리케이션을 배포하고 서비스를 통해 노출하였다. 이제 무엇을 해야 할까? 쿠버네티스는 스케일링과 업데이트를 포함하여 애플리케이션 배포 관리에 도움을 주는 여러 도구를 제공한다.

리소스 구성 정리하기

많은 애플리케이션은 디플로이먼트(Deployment)및 서비스와 같은 여러 리소스를 함께 생성해야 한다. 여러 리소스를 하나의 파일에 함께 모아둠으로써 간단하게 관리할 수 있다. (YAML에서 --- 으로 구분한다) 예를 들어,

application/nginx-app.yaml

apiVersion: v1
kind: Service
metadata:
  name: my-nginx-svc
  labels:
    app: nginx
spec:
  type: LoadBalancer
  ports:
  - port: 80
  selector:
    app: nginx
---
apiVersion: apps/v1
kind: Deployment
metadata:
  name: my-nginx
  labels:
    app: nginx
spec:
  replicas: 3
  selector:
    matchLabels:
      app: nginx
  template:
    metadata:
      labels:
        app: nginx
    spec:
      containers:
      - name: nginx
        image: nginx:1.14.2
        ports:
        - containerPort: 80

여러 리소스도 단일 리소스 생성과 동일한 방식으로 생성할 수 있다.

kubectl apply -f https://k8s.io/examples/application/nginx-app.yaml

service/my-nginx-svc created
deployment.apps/my-nginx created

리소스는 매니페스트에 정의된 순서대로 생성된다. 따라서, 서비스를 먼저 정의하여, 스케줄러가 서비스와 연결된 파드를
디플로이먼트와 같은 컨트롤러가 생성한 후 고르게 배치하는 것을 보장하는 것이 좋다.

kubectl apply는 여러 -f 인자도 받을 수 있다.

kubectl apply -f https://k8s.io/examples/application/nginx/nginx-svc.yaml \
  -f https://k8s.io/examples/application/nginx/nginx-deployment.yaml

동일한 마이크로서비스 또는 애플리케이션 계층과 관련된 리소스를 하나의 파일 내에 배치하고, 애플리케이션과 관련된 모든 파일은 동일한 디렉터리에 그룹화하는 것이 권장된다. 애플리케이션의 계층이 DNS를 사용하여 서로 바인딩되면, 스택의 모든 구성 요소를 함께 배포할 수 있다.

또한, URL을 구성 소스로 지정하는 것도 가능하고, 이는 소스 제어 시스템의 매니페스트를 통해 직접 배포할 때 유용하다.

kubectl apply -f https://k8s.io/examples/application/nginx/nginx-deployment.yaml

deployment.apps/my-nginx created

컨피그맵(ConfigMap)을 추가하는 등 더 많은 매니페스트를 정의해야 하는 경우에도 동일하다.

외부 도구

이 섹션에서는 쿠버네티스에서 워크로드를 관리하는 데 사용되는 가장 일반적인 도구만 나열한다. 더 많은 목록을 보려면, CNCF 의 애플리케이션 정의 및 이미지 빌드 를 확인한다.

헬름(Helm)

🛇 이 항목은 쿠버네티스에 속하지 않는 써드파티 프로젝트 또는 제품의 링크로 연결됩니다. 추가 정보

헬름 은 사전 구성된 쿠버네티스 리소스 패키지를 관리하는 도구이다. 이 패키지를 헬름 차트 라고 한다.

Kustomize

Kustomize 는 쿠버네티스 매니페스트를 탐색하여 구성 옵션을 추가, 삭제 또는 업데이트할 수 있다. 독립 실행형 바이너리와 kubectl의 기본 기능으로 모두 제공된다.

kubectl 일괄 작업

리소스 생성만이 kubectl이 할 수 있는 유일한 일괄 작업은 아니다. 구성 파일에서 리소스 이름을 추출하여 다른 작업을 수행하는 것도 가능하다. 특히, 생성한 리소스를 삭제하는 작업을 수행할 수 있다.

kubectl delete -f https://k8s.io/examples/application/nginx-app.yaml

deployment.apps "my-nginx" deleted
service "my-nginx-svc" deleted

두 개의 리소스가 있는 경우, 명령줄에서 리소스/이름 구문을 사용하여 두 리소스를 모두 지정할 수 있다.

kubectl delete deployments/my-nginx services/my-nginx-svc

리소스 수가 많을 경우, -l 또는 --selector 옵션을 사용하여 셀렉터 (레이블 쿼리)를 지정하고 레이블로 리소스를 필터링하는 것이 더 쉽다.

kubectl delete deployment,services -l app=nginx

deployment.apps "my-nginx" deleted
service "my-nginx-svc" deleted

체이닝과 필터링

kubectl 은 리소스 이름을 입력받는 것과 동일한 구문으로 출력하므로, $() 나 xargs를 이용하여 동작을 체이닝할 수 있다.

kubectl get $(kubectl create -f docs/concepts/cluster-administration/nginx/ -o name | grep service/ )
kubectl create -f docs/concepts/cluster-administration/nginx/ -o name | grep service/ | xargs -i kubectl get '{}'

출력 예시는 다음과 같다.

NAME           TYPE           CLUSTER-IP   EXTERNAL-IP   PORT(S)      AGE
my-nginx-svc   LoadBalancer   10.0.0.208   <pending>     80/TCP       0s

위 명령어는 처음에 docs/concepts/cluster-administration/nginx/ 아래의 리소스를 생성하고, -o name으로 생성된 리소스의 출력 형식을 정한다 (각 리소스를 리소스/이름으로 출력한다). 서비스만 grep한 다음에, kubectl get을 사용하여 출력한다.

로컬 파일에 대한 재귀 작업

특정 디렉터리 내의 여러 하위 디렉터리에 리소스를 구성하는 경우, --filename/-f 인수와 함께 --recursive 또는 -R을 지정하여 하위 디렉터리에서도 작업을 재귀적으로 수행할 수 있다.

예를 들어, 개발 환경에 필요한 모든 manifests 가 리소스 유형별로 정의되어 있는 project/k8s/development 디렉터리가 있다고 가정한다.

project/k8s/development
├── configmap
│   └── my-configmap.yaml
├── deployment
│   └── my-deployment.yaml
└── pvc
    └── my-pvc.yaml

기본적으로, project/k8s/development에서 대량 작업을 수행하면 디렉터리의 첫번째 수준에서 중단되고, 하위 디렉터리는 처리하지 않는다. 다음 명령어를 사용하여 이 디렉터리에서 리소스를 생성하려고 했다면 오류가 발생했을 것이다.

kubectl apply -f project/k8s/development

에러: 하나 또는 그 이상의 리소스를 인자 또는 파일 이름으로 제공해야 한다 (.json|.yaml|.yml|stdin)

대신에 --recursive 나 -R와 함께 --filename/-f 인수를 지정한다.

kubectl apply -f project/k8s/development --recursive

configmap/my-config created
deployment.apps/my-deployment created
persistentvolumeclaim/my-pvc created

--recursive 인수는 --filename/-f 인수를 허용하는 모든 연산에서 작동한다. 예를 들어, kubectl create, kubectl get, kubectl delete, kubectl describe, 심지어 kubectl rollout까지 작동한다.

--recursive 인수는 여러 개의 -f 인수가 제공될 때도 작동한다.

kubectl apply -f project/k8s/namespaces -f project/k8s/development --recursive

namespace/development created
namespace/staging created
configmap/my-config created
deployment.apps/my-deployment created
persistentvolumeclaim/my-pvc created

kubectl에 대해 더 배우고 싶다면, 명령줄 도구 (kubectl)를 읽어본다

중단 없이 애플리케이션 업데이트하기

어느 시점이 되면, 결국 일반적으로 새 이미지나 이미지 태그를 지정하여 배포된 애플리케이션을 업데이트 해야 할 수 있다. kubectl는 여러 업데이트 작업을 제공하며, 각 작업은 다양한 시나리오에 적용 가능하다.

앱의 여러 복사본을 실행하고, 롤아웃(rollout) 을 사용하여 트래픽을 점진적으로 새로운 정상 파드로 전환할 수 있다. 결국, 실행 중인 모든 파드에 새로운 소프트웨어가 설치된다.

이 페이지의 섹션에서는 디플로이먼트를 통해 애플리케이션을 생성하고 업데이트하는 방법을 안내한다.

예를 들어, nginx의 1.14.2 버전을 실행한다고 가정한다.

kubectl create deployment my-nginx --image=nginx:1.14.2

deployment.apps/my-nginx created

1개의 레플리카가 있는지 확인한다.

kubectl scale --replicas 1 deployments/my-nginx --subresource='scale' --type='merge' -p '{"spec":{"replicas": 1}}'

deployment.apps/my-nginx scaled

그리고 쿠버네티스가 롤아웃 중에 임시 복제본을 더 추가할 수 있도록, 추가 최대값 을 100%로 설정한다.

kubectl patch --type='merge' -p '{"spec":{"strategy":{"rollingUpdate":{"maxSurge": "100%" }}}}'

deployment.apps/my-nginx patched

1.16.1 버전을 업데이트하기 위해, kubectl edit 를 사용하여 .spec.template.spec.containers[0].image을 nginx:1.14.2 에서 nginx:1.16.1로 변경한다.

kubectl edit deployment/my-nginx
# 최신 컨테이너 이미지를 사용할 수 있도록 매니페스트를 변경한 다음, 변경 사항을 저장한다

이게 전부이다! 디플로이먼트는 배포된 nginx 애플리케이션을 점진적으로 백그라운드에서 선언적으로 업데이트한다. 이는 업데이트되는 동안 특정 수의 이전 복제본만 중단되고, 원하는 수의 파드 위에 특정 수의 새 복제본만 생성되도록 보장한다. 어떻게 동작하는지 더 많은 정보를 배우기 위해, 디플로이먼트을 방문한다.

데몬셋(DaemonSet), 디플로이먼트, 또는 스테이트풀셋(StatefulSet)에서 롤아웃을 사용할 수 있다.

롤아웃 관리하기

kubectl rollout을 기존 애플리케이션의 점진적인 업데이트를 관리하기 위해 사용할 수 있다.

예를 들어,

kubectl apply -f my-deployment.yaml

# 롤아웃이 완료될 때까지 기다린다
kubectl rollout status deployment/my-deployment --timeout 10m # 타임아웃 10분

또는

kubectl apply -f backing-stateful-component.yaml

# 롤아웃이 끝날 때까지 기다리지 않고 상태만 확인한다
kubectl rollout status statefulsets/backing-stateful-component --watch=false

또한, 롤아웃을 일시 중지, 재개 또는 취소할 수도 있다. 자세한 내용은 kubectl rollout을 방문한다.

카나리아 배포

여러 레이블이 필요한 또 다른 시나리오는 동일한 컴포넌트 요소의 서로 다른 릴리스 또는 구성의 디플로이먼트를 구분하는 것이다. 새 애플리케이션 릴리스의 카나리아 버전을 이전 릴리스와 나란히 배포하는 것이 일반적이다. (파드 템플릿의 이미지 태그를 통해 지정) 이렇게 하면 새로운 릴리즈가 완전히 배포되기 전에 라이브 프로덕션 트래픽을 수신할 수 있다.

예를 들어, track 레이블을 사용하여 여러 릴리스를 구분할 수 있다.

기본적으로, 스테이블 릴리스는 stable 값을 가진 track 레이블이 지정되며,

name: frontend
replicas: 3
...
labels:
   app: guestbook
   tier: frontend
   track: stable
...
image: gb-frontend:v3

그런 다음 track 레이블에 다른 값(예시: canary)을 지정하여 guestbook 프론트엔드의 새 릴리즈를 만들면, 두 세트의 파드가 겹치지 않는다.

name: frontend-canary
replicas: 1
...
labels:
   app: guestbook
   tier: frontend
   track: canary
...
image: gb-frontend:v4

프론트엔드 서비스는 두 복제본 세트 모두에 걸친 레이블의 공통 하위 집합(즉, track 레이블 생략)을 선택하여, 트래픽이 두 애플리케이션으로 리디렉션되도록 한다.

selector:
   app: guestbook
   tier: frontend

스테이블 릴리스와 카나리아 릴리스의 복제본 수를 조정하여 라이브 프로덕션 트래픽을 받을 각 릴리스의 비율을 결정할 수 있다 (이 경우, 3:1). 충분히 확신이 서면, 안정적인 트랙을 새 애플리케이션 릴리즈로 업데이트하고 카나리아 트랙을 제거할 수 있다.

어노테이션 업데이트하기

때때로 리소스에 어노테이션을 첨부하는 것이 좋다. 어노테이션은 임의의 도구나 라이브러리와 같은 API 클라이언트가 검색하기 위한 비식별 메타데이터이다. kubectl annotate으로 할 수 있다. 예를 들면,

kubectl annotate pods my-nginx-v4-9gw19 description='my frontend running nginx'
kubectl get pods my-nginx-v4-9gw19 -o yaml

apiVersion: v1
kind: pod
metadata:
  annotations:
    description: my frontend running nginx
...

자세한 내용은 어노테이션과 kubectl annotate을 참고한다.

애플리케이션 스케일링하기

애플리케이션의 부하가 증가하거나 줄어들면, kubectl을 사용하여 애플리케이션을 확장한다. 예를 들어, nginx 레플리카 수를 3개에서 1개로 줄이려면 다음을 수행한다.

kubectl scale deployment/my-nginx --replicas=1

deployment.apps/my-nginx scaled

이제 배포에서 관리하는 파드는 하나뿐이다.

kubectl get pods -l app=my-nginx

NAME                        READY     STATUS    RESTARTS   AGE
my-nginx-2035384211-j5fhi   1/1       Running   0          30m

시스템이 필요에 따라 nginx 복제본 수를, 1 에서 3 까지 자동으로 선택하도록 하려면 다음과 같이 한다.

# 기존 컨테이너 및 파드 메트릭 소스가 필요하다
kubectl autoscale deployment/my-nginx --min=1 --max=3

horizontalpodautoscaler.autoscaling/my-nginx autoscaled

이제 nginx 복제본이 필요에 따라 자동으로 확장 및 축소된다.

자세한 내용은 kubectl scale, kubectl autoscale 및 horizontal pod autoscaler 문서를 참고한다.

리소스의 현재 위치 업데이트하기

때로는 생성한 리소스에 대해 간략하고 중단없는 업데이트가 필요할 수 있다.

kubectl apply

소스 제어에서 구성 파일 세트를 유지하는 것이 권장된다. (코드로 구성 참고), 이렇게 하면 해당 구성 파일에서 구성하는 리소스의 코드와 함께 유지 관리 및 버전 관리가 가능하다. 그런 다음 kubectl apply을 사용하여 구성 변경 사항을 클러스터에 푸시할 수 있다.

이 명령은 이전 버전과 푸시하는 구성의 버전을 비교하여 지정하지 않은 속성이 자동으로 변경된 내용을 덮어쓰지 않고 변경한 내용을 적용한다.

kubectl apply -f https://k8s.io/examples/application/nginx/nginx-deployment.yaml

deployment.apps/my-nginx configured

기본 메커니즘에 대해 자세히 알아보려면, 서버 측 적용을 읽어보자.

kubectl edit

또는, kubectl edit을 사용하여 리소스를 업데이트할 수도 있다.

kubectl edit deployment/my-nginx

이는 먼저 리소스를 get하고, 텍스트 편집기에서 편집한 다음, 업데이트 된 버전으로 리소스를 apply 하는 것과 같다.

kubectl get deployment my-nginx -o yaml > /tmp/nginx.yaml
vi /tmp/nginx.yaml
# 파일을 약간 수정한 뒤 저장한다

kubectl apply -f /tmp/nginx.yaml
deployment.apps/my-nginx configured

rm /tmp/nginx.yaml

이렇게 하면 더 큰 변경 작업을 더 쉽게 수행할 수 있다. EDITOR 또는 KUBE_EDITOR 환경 변수를 사용하여 편집기를 지정할 수 있다.

자세한 내용은 kubectl edit을 참고한다.

kubectl 패치

kubectl patch 를 사용하여 API 객체를 현재 위치에서 업데이트할 수 있다. 이 하위 명령은 JSON 패치, JSON 병합 패치, 그리고 전략적 병합 패치를 지원한다.

자세한 내용은 kubectl patch을 사용하여 API 객체를 제자리에 업데이트하는 방법 을 참고한다.

파괴적인 업데이트

경우에 따라 초기화 후 업데이트할 수 없는 리소스 필드를 업데이트해야 하거나, 배포에서 생성된 손상된 파드를 수정하는 등, 재귀적 변경을 즉시 적용해야 할 수 있다. 이러한 필드를 변경하려면, replace --force를 사용하여 리소스를 삭제했다가 다시 생성한다. 이 경우, 원본 구성 파일을 다음과 같이 수정할 수 있다.

kubectl replace -f https://k8s.io/examples/application/nginx/nginx-deployment.yaml --force

deployment.apps/my-nginx deleted
deployment.apps/my-nginx replaced

다음 내용

kubectl을 사용하여 애플리케이션을 인트로스펙션(introspection)하고 디버깅하는 방법을 학습한다.

워크로드

워크로드 배치

다음 내용

1 - 파드

파드란 무엇인가?

참고:

파드의 사용

파드를 관리하기 위한 워크로드 리소스

파드 작업

참고:

파드 OS

파드와 컨트롤러

파드 템플릿

파드 갱신 및 교체

파드 서브리소스(Pod subresources)

파드 세대(Pod generation)

참고:

직접적인 상태 업데이트(Direct Status Updates)

간접적인 상태 업데이트(Indirect Status Updates)

리소스 공유와 통신

파드 스토리지

파드 네트워킹

파드 보안 설정

주의:

정적 파드

참고:

여러 컨테이너를 가진 파드

컨테이너 프로브

다음 내용

1.1 - 파드 라이프사이클

파드의 수명

Pod diagram

파드의 단계

참고:

컨테이너 상태

Waiting

Running

Terminated

컨테이너 재시작 정책

파드의 컨디션

파드의 준비성(readiness)

파드 준비성 상태

파드 네트워크 준비성(readiness)

컨테이너 프로브(probe)

체크 메커니즘

프로브 결과

프로브 종류

언제 활성 프로브를 사용해야 하는가?

언제 준비성 프로브를 사용해야 하는가?

참고:

언제 스타트업 프로브를 사용해야 하는가?

파드의 종료

참고:

참고:

강제 파드 종료

주의:

참고:

주의:

파드의 가비지 콜렉션

다음 내용

1.2 - 초기화 컨테이너

초기화 컨테이너 이해하기

일반적인 컨테이너와의 차이점

초기화 컨테이너 사용하기

예제

사용 중인 초기화 컨테이너

자세한 동작

리소스

파드 재시작 이유

다음 내용

1.3 - 사이드카(sidecar) 컨테이너

쿠버네티스의 사이드카 컨테이너

예제 애플리케이션

사이드카 컨테이너와 파드 라이프사이클

사이드카 컨테이너가 있는 잡(Job)

애플리케이션 컨테이너와의 차이점

초기화 컨테이너와의 차이점

컨테이너 내 리소스 공유

사이드카 컨테이너와 리눅스 cgroups

다음 내용

`Waiting`

`Running`

`Terminated`

`fieldRef`를 통해 접근 가능한 정보

`resourceFieldRef`를 통해 접근 가능한 정보