[GenAI] GenAI on K8s: 11.6 - 도구 비교, Bias·Drift 운영, 평가 메트릭
Kubeflow·MLflow·Ray 비교표, AIF360 fairness gate, drift 통계 측정, 자동 재학습 흐름, 분류·GenAI 평가 메트릭을 정리해 보자.
Kubeflow·MLflow·Ray 비교표, AIF360 fairness gate, drift 통계 측정, 자동 재학습 흐름, 분류·GenAI 평가 메트릭을 정리해 보자.
KubeRay operator·CRD 3종·계층적 스케줄링, Ray Train 숨은 +1 CPU 트러블슈팅, vLLM PagedAttention 메커니즘을 정리해 보자.
Argo Workflows의 K8s-native DAG 실행, Kubeflow Pipelines와의 레이어 관계, Argo CD와의 책임 분리를 정리해 보자.
MLflow Tracking의 Experiment→Run 계층, backend/artifact store 분리, Stage에서 Alias로의 전환, champion/challenger 패턴을 정리해 보자.
Kubeflow의 Notebooks·Katib·Pipelines·KServe 컴포넌트와 Profile 기반 multi-tenant RBAC, Katib vs Pipelines 책임 경계를 정리해 보자.
GenAIOps가 MLOps를 어떻게 확장하는지, data→experiment→adapt→serve→monitor 5단계 파이프라인과 drift 감지 기초를 정리해 보자.
EKS + L4에서 time-slicing을 apply하고 Llama-3.2-1B 5 Pod를 한 GPU에 올리는 전 과정과, HF 403·GPU 주입 실패를 추적·해결한 기록을 정리해 보자.
Ch10 hands-on의 nvidia-ts.yaml, aiml-addons.tf, llama32-deploy.yaml을 읽고 upstream 결함과 수정 포인트를 정리해 보자.
DCGM 메트릭 기반 GPU 오토스케일링, GPU_UTIL을 맹신하면 안 되는 이유, 그리고 NVIDIA NIM까지 정리해 보자.
MPS(동시 공유)와 time-slicing(시분할 공유)의 메커니즘, K8s 적용 방법, 세 기법 비교를 정리해 보자.
GPU 다이 구조(GPC/SM/메모리 계층)에서 시작해 MIG의 compute/memory slice 설계, 프로파일 해석, placement 규칙, K8s 연동까지 깊이 있게 파고들어 보자.
DCGM과 dcgm-exporter의 역할을 구분하고, GPU utilization이 왜 문제가 되는지, 그리고 파티셔닝 기법의 필요성까지 살펴보자.