[GenAI] GenAI on K8s: 4.3 - Fine-tuning (QLoRA)
PEFT, LoRA, QLoRA의 개념부터 Colab T4에서 Llama-3-8B를 fine-tune한 실습 결과, 그리고 RAG와의 선택 가이드까지 정리해 보자.
PEFT, LoRA, QLoRA의 개념부터 Colab T4에서 Llama-3-8B를 fine-tune한 실습 결과, 그리고 RAG와의 선택 가이드까지 정리해 보자.
외부 지식을 LLM에 주입하는 RAG의 5단계 파이프라인, 임베딩 공간 시각화, 그리고 hallucination 비교 실험을 통해 RAG의 본질을 파악해 보자.
범용 LLM의 한계, 3가지 도메인 최적화 기법, LangChain 프레임워크 구조, 그리고 Agent가 실제로 LLM에 보내는 prompt를 들여다보자.
컨테이너 기본 개념부터 K8s 아키텍처, 그리고 GenAI 워크로드에 K8s가 적합한 이유까지 정리해 보자.
AI, ML, DL, GenAI의 관계부터 Transformer 아키텍처, GenAI 프로젝트 라이프사이클, 배포 스택까지 정리해 보자.
unattended-upgrades가 NVIDIA 드라이버 버전 불일치와 kube-proxy IPVS 장애를 연쇄적으로 일으킨 과정과 교훈을 정리해 보자.
soname/ABI 계약, RPATH와 RUNPATH의 우선순위 역전, 정적 링크 트레이드오프, NVIDIA pip 이중 구조를 정리해 보자.
NCCL 분산학습 종료 후 14/32 GPU가 Util 100%·메모리 0·프로세스 없음 상태에 빠졌다. CUDA context 잔류를 유력 가설로 두되, 직접 증거를 확보하지 못한 한계까지 함께 살펴보자.
CloudFormation 삭제 실패를 모른 채 5일간 요금이 새어나가고, AWS Support에 부분 환불을 요청하기까지의 기록.
cuobjdump로 NCCL 바이너리의 SASS/PTX 아키텍처를 분석하고, CI와 init container에서 GPU 호환성을 자동 검증하는 패턴을 정리해 보자.
선언형 도구가 어디까지 ML 워크로드를 다룰 수 있는지 고민한 기록.
같은 VPN SSL Inspection인데 kubectl과는 해결이 정반대다. Node.js의 trust 모델과 NODE_EXTRA_CA_CERTS 해법을 정리해 보자.