NCCL 트러블슈팅 회고: MLOps 엔지니어가 바톤을 넘겨받기까지
분산 학습에서 터진 NCCL 문제를 해결하며 느낀 점을 정리한 기록
분산 학습에서 터진 NCCL 문제를 해결하며 느낀 점을 정리한 기록
Right-sizing부터 온프레미스 이전까지, 대안을 검토하고 결정한 과정과 배운 점
클라우드 비용과 효용 사이에서 고민한 기록
AI 툴을 마구잡이로 사용하다 요금 폭탄을 맞고, 반성하며 달라질 것을 다짐한 기록
How to contribute to open source