[Kubernetes] VPN SSL Inspection으로 인한 클러스터 API 접근 실패
VPN 환경에서 회사 방화벽이 kube-apiserver TLS를 가로채 재서명하며 발생한 인증서 검증 실패에 대해 알아 보자.
VPN 환경에서 회사 방화벽이 kube-apiserver TLS를 가로채 재서명하며 발생한 인증서 검증 실패에 대해 알아 보자.
kubelet이 노드 상태를 API server에 보고하는 원리에 대해 알아보자.
워커 노드에 docker/crictl/ctr이 없어도 kubectl API로 이미지를 조회할 수 있다. kubelet의 노드 상태 보고를 활용하는 방법을 정리해 보자.
같은 root cause가 Ray와 torchrun에서 다른 증상으로 나타난 이유에 대해 알아보자.
매번 아무렇지 않게 접속하던 SSH의 동작 원리를 알아보자.
EKS GPU 트러블슈팅 시리즈를 마무리하며, 실습에서 도출한 운영 체크리스트와 회고를 정리한다.
EKS 관리형 환경에서 재현할 수 없는 GPU 주제 3가지를, 문서 탐구와 실무 경험 매핑으로 정리해 보자.
EKS node SG에서 ephemeral self-ref를 제거하면 분산학습이 어떻게 실패하는지 재현해 보자.
분산학습의 원리, NCCL 통신 계층, EKS에서의 실험 설계까지 분산학습 장애 실험 설계의 배경에 대해 정리해보자.
A10G 24GB에 vLLM 14B-AWQ를 올려 vLLM 기동 실패 시나리오 4가지를 재현하고, kubectl logs –previous 중심의 디버깅 경로를 짚어 보자.
Device Plugin 비활성화로 GPU Pod Pending 장애를 재현하고, Pod에서 ClusterPolicy까지 단계별로 원인을 추적해 보자.
GPU 노드를 프로비저닝하고 GPU Operator를 설치한 뒤, Allocatable GPU와 nvidia-smi로 end-to-end 검증해 보자.