[Distributed Training] 이기종 GPU 분산학습: 다른 기종을 한 DDP 잡에 섞으면 벌어지는 일
서로 다른 기종의 GPU를 한 DDP 잡에 섞으면 어떻게 되는지 직접 확인하고, 동기 데이터 병렬에서 이기종 GPU가 손해인 이유를 정리해 보자.
서로 다른 기종의 GPU를 한 DDP 잡에 섞으면 어떻게 되는지 직접 확인하고, 동기 데이터 병렬에서 이기종 GPU가 손해인 이유를 정리해 보자.
ECC가 무엇이고 GPU에서 어떻게 동작하는지, 왜 중요한지 짚어 보자.
Ch9 인프라를 실제로 배포하고, ECR 공급망부터 Bottlerocket host, PSS, Secret 주입까지 5단계 보안 검증을 수행한다. GPU 추론 시도 중 만난 Bottlerocket ephemeral-storage 문제도 다룬다.
Ch9 Terraform 코드를 따라가며 EKS 보안 설계(Bottlerocket, IMDSv2, Pod Identity, ECR 공급망)와 Secrets Store CSI Driver의 secret 주입 흐름을 분석해 보자.
GenAI 워크로드를 K8s에 올릴 때의 보안 원칙을 defense in depth 관점에서 정리하고, 컨테이너 생애주기 전체에 걸친 보안 영역과 GenAI 고유 고려사항까지 살펴보자.
PEFT, LoRA, QLoRA의 개념부터 Colab T4에서 Llama-3-8B를 fine-tune한 실습 결과, 그리고 RAG와의 선택 가이드까지 정리해 보자.
외부 지식을 LLM에 주입하는 RAG의 5단계 파이프라인, 임베딩 공간 시각화, 그리고 hallucination 비교 실험을 통해 RAG의 본질을 파악해 보자.
범용 LLM의 한계, 3가지 도메인 최적화 기법, LangChain 프레임워크 구조, 그리고 Agent가 실제로 LLM에 보내는 prompt를 들여다보자.
컨테이너 기본 개념부터 K8s 아키텍처, 그리고 GenAI 워크로드에 K8s가 적합한 이유까지 정리해 보자.
AI, ML, DL, GenAI의 관계부터 Transformer 아키텍처, GenAI 프로젝트 라이프사이클, 배포 스택까지 정리해 보자.
unattended-upgrades가 NVIDIA 드라이버 버전 불일치와 kube-proxy IPVS 장애를 연쇄적으로 일으킨 과정과 교훈을 정리해 보자.
soname/ABI 계약, RPATH와 RUNPATH의 우선순위 역전, 정적 링크 트레이드오프, NVIDIA pip 이중 구조를 정리해 보자.