[GenAI] GenAI on K8s: 10.7 - Ch10 실습: time-slicing 배포·검증·트러블슈팅
EKS + L4에서 time-slicing을 apply하고 Llama-3.2-1B 5 Pod를 한 GPU에 올리는 전 과정과, HF 403·GPU 주입 실패를 추적·해결한 기록을 정리해 보자.
EKS + L4에서 time-slicing을 apply하고 Llama-3.2-1B 5 Pod를 한 GPU에 올리는 전 과정과, HF 403·GPU 주입 실패를 추적·해결한 기록을 정리해 보자.
Ch10 hands-on의 nvidia-ts.yaml, aiml-addons.tf, llama32-deploy.yaml을 읽고 upstream 결함과 수정 포인트를 정리해 보자.
DCGM 메트릭 기반 GPU 오토스케일링, GPU_UTIL을 맹신하면 안 되는 이유, 그리고 NVIDIA NIM까지 정리해 보자.
MPS(동시 공유)와 time-slicing(시분할 공유)의 메커니즘, K8s 적용 방법, 세 기법 비교를 정리해 보자.
GPU 다이 구조(GPC/SM/메모리 계층)에서 시작해 MIG의 compute/memory slice 설계, 프로파일 해석, placement 규칙, K8s 연동까지 깊이 있게 파고들어 보자.
DCGM과 dcgm-exporter의 역할을 구분하고, GPU utilization이 왜 문제가 되는지, 그리고 파티셔닝 기법의 필요성까지 살펴보자.
K8s에서 GenAI 워크로드에 GPU를 할당하는 메커니즘을 device plugin, NFD/GFD, 그리고 extended resource 규칙까지 정리해 보자.
서로 다른 기종의 GPU를 한 DDP 잡에 섞으면 어떻게 되는지 직접 확인하고, 동기 데이터 병렬에서 이기종 GPU가 손해인 이유를 정리해 보자.
ECC가 무엇이고 GPU에서 어떻게 동작하는지, 왜 중요한지 짚어 보자.
Ch9 인프라를 실제로 배포하고, ECR 공급망부터 Bottlerocket host, PSS, Secret 주입까지 5단계 보안 검증을 수행한다. GPU 추론 시도 중 만난 Bottlerocket ephemeral-storage 문제도 다룬다.
Ch9 Terraform 코드를 따라가며 EKS 보안 설계(Bottlerocket, IMDSv2, Pod Identity, ECR 공급망)와 Secrets Store CSI Driver의 secret 주입 흐름을 분석해 보자.
GenAI 워크로드를 K8s에 올릴 때의 보안 원칙을 defense in depth 관점에서 정리하고, 컨테이너 생애주기 전체에 걸친 보안 영역과 GenAI 고유 고려사항까지 살펴보자.