[NCCL] NCCL Communicator 초기화 시점: Lazy vs Eager Init
같은 root cause가 Ray와 torchrun에서 다른 증상으로 나타난 이유에 대해 알아보자.
같은 root cause가 Ray와 torchrun에서 다른 증상으로 나타난 이유에 대해 알아보자.
매번 아무렇지 않게 접속하던 SSH의 동작 원리를 알아보자.
GPU 트러블슈팅 실습을 위한 EKS 환경을 Terraform으로 구성해 보자.
GPU 인스턴스를 띄우기 위한 EC2 Service Quota 확인과 증설 과정에 대해 알아 보자.
EKS GPU 트러블슈팅 실습을 진행해보자.
Access Entry 확인, SubjectAccessReview, 새 IAM Role 생성과 권한 테스트를 통해 매핑과 인가 과정을 직접 확인해 보자.
인증 완료 후 인가를 위해 IAM identity를 K8s username/group으로 변환하는 브릿지 단계에 대해 정리해 보자.
사용자(IAM) → K8s API 인증 과정을 단계별로 실습하며, 토큰 생성부터 STS 검증까지의 전 과정을 직접 확인해 보자.
사용자(IAM)가 kubectl로 EKS API 서버에 접근할 때 인증되고 인가되기까지의 전 과정을 단계별로 따라가 보자.
4주차 인증/인가 실습을 위한 EKS 환경을 배포해 보자.
K8S RBAC에서 의도치 않은 권한 상승이 발생할 수 있는 경로를 정리하고, 안전한 설계 원칙을 살펴보자.
K8s가 직접 관리하는 non-human identity인 Service Account의 개념과 토큰 생명주기를 정리해 보자.