[EKS] EKS GPU 트러블슈팅: 4. 사례 탐구 - CUDA XID, Auto Mode, EFA
EKS 관리형 환경에서 재현할 수 없는 GPU 주제 3가지를, 문서 탐구와 실무 경험 매핑으로 정리해 보자.
EKS 관리형 환경에서 재현할 수 없는 GPU 주제 3가지를, 문서 탐구와 실무 경험 매핑으로 정리해 보자.
EKS node SG에서 ephemeral self-ref를 제거하면 분산학습이 어떻게 실패하는지 재현해 보자.
분산학습의 원리, NCCL 통신 계층, EKS에서의 실험 설계까지 분산학습 장애 실험 설계의 배경에 대해 정리해보자.
A10G 24GB에 vLLM 14B-AWQ를 올려 vLLM 기동 실패 시나리오 4가지를 재현하고, kubectl logs –previous 중심의 디버깅 경로를 짚어 보자.
Device Plugin 비활성화로 GPU Pod Pending 장애를 재현하고, Pod에서 ClusterPolicy까지 단계별로 원인을 추적해 보자.
EKS GPU 트러블슈팅 실습을 진행해보자.
Access Entry 확인, SubjectAccessReview, 새 IAM Role 생성과 권한 테스트를 통해 매핑과 인가 과정을 직접 확인해 보자.
인증 완료 후 인가를 위해 IAM identity를 K8s username/group으로 변환하는 브릿지 단계에 대해 정리해 보자.
사용자(IAM) → K8s API 인증 과정을 단계별로 실습하며, 토큰 생성부터 STS 검증까지의 전 과정을 직접 확인해 보자.
사용자(IAM)가 kubectl로 EKS API 서버에 접근할 때 인증되고 인가되기까지의 전 과정을 단계별로 따라가 보자.
K8S RBAC에서 의도치 않은 권한 상승이 발생할 수 있는 경로를 정리하고, 안전한 설계 원칙을 살펴보자.
K8s가 직접 관리하는 non-human identity인 Service Account의 개념과 토큰 생명주기를 정리해 보자.