카파시의 Autoresearch 스케일링: AI 에이전트가 GPU 클러스터를 만났을 때 생기는 일

SkyPilot이 안드레이 카파시의 'Autoresearch' 프로젝트에 16개의 GPU를 투입한 결과, 8시간 동안 약 910회의 실험을 수행하며 검증 손실(val_bpb)을 1.003에서 0.974로 2.87% 개선했습니다. AI 에이전트는 병렬 처리 환경을 활용해 H100으로 아이디어를 선별하고 H200으로 검증하는 고도화된 연구 전략을 스스로 구축하며 순차적 방식보다 9배 빠른 최적화 속도를 증명했습니다.

AI 요약

본 기사는 안드레이 카파시(Andrej Karpathy)가 시작한 자율 코딩 에이전트 프로젝트인 'Autoresearch'를 대규모 컴퓨팅 자원과 결합했을 때의 놀라운 성과를 분석합니다. SkyPilot 팀은 클로드 코드(Claude Code) 에이전트에게 쿠버네티스 클러스터 기반의 GPU 16개를 제공하여, 기존 1개 GPU 환경의 병목 현상을 해결하고 연구 프로세스를 자동화했습니다. 에이전트는 8시간이라는 짧은 시간 동안 약 910회의 실험을 수행하며 하이퍼파라미터 최적화부터 아키텍처 개선까지 총 5단계의 연구 과정을 거쳤습니다. 특히 에이전트는 단순한 순차적 탐색을 넘어, 한 번에 여러 변수를 동시에 테스트하는 '팩토리얼 그리드' 방식을 채택하여 변수 간의 상호작용을 포착했습니다. 또한, 이기종 하드웨어 환경을 이해하고 성능에 따라 작업을 배분하는 등 인간 연구자 수준의 지능적인 컴퓨팅 자원 활용 능력을 선보였습니다.

핵심 인사이트

  • 폭발적인 실험 속도: 16개의 GPU를 활용해 8시간 동안 약 910회의 실험을 수행했으며, 이는 단일 GPU를 사용하는 순차적 방식 대비 약 9배 빠른 최적화 속도(72시간 분량의 작업을 8시간 만에 완료)를 기록했습니다.
  • 성능 개선 수치: 검증 지표인 val_bpb(validation bits per byte)를 초기 1.003에서 0.974로 낮추며, 베이스라인 대비 2.87%의 성능 향상을 이뤄냈습니다.
  • 지능적 자원 배분: 에이전트는 성능이 다른 H100과 H200 GPU를 식별하고, 상대적으로 저렴한 H100에서 다수의 아이디어를 스크리닝한 뒤 유망한 모델만 H200에서 검증하는 전략을 스스로 구축했습니다.
  • 탐색 전략의 진화: 기존의 단순한 '언덕 오르기(Hill-climbing)' 방식에서 벗어나, 한 파동(Wave)에 10~13개의 실험을 동시에 실행하여 하이퍼파라미터 간의 복합적인 영향력을 파악했습니다.

주요 디테일

  • 연구 단계: 실험은 하이퍼파라미터 스윕(1~200회), 아키텍처 탐색(200~420회), 광폭 모델 미세 조정(420~560회), 옵티마이저 튜닝(560~700회), 수확 체감 단계(700~910회)로 정교하게 진행되었습니다.
  • 시스템 구성: 연구 환경은 데이터 로더인 prepare.py(읽기 전용), 수정 대상인 train.py(모델 및 훈련 루프), 에이전트 지침서인 program.md로 구성되었습니다.
  • 시간 제한 조건: 각 실험은 5분이라는 엄격한 훈련 시간 예산 내에서 수행되어 에이전트가 주어진 시간 내에 최적의 효율을 찾도록 설계되었습니다.
  • 주요 발견: 에이전트는 개별 하이퍼파라미터 조정보다 모델의 폭(Width)을 확장하는 것이 성능 향상에 훨씬 더 결정적인 요인임을 발견하고 이를 중점적으로 공략했습니다.
  • 인프라 유연성: SkyPilot과 쿠버네티스를 통해 에이전트가 직접 인프라 병목을 제거하고 스스로 컴퓨팅 스케일을 관리할 수 있음을 입증했습니다.

향후 전망

  • 연구 프로세스의 자동화: AI 에이전트가 GPU 클러스터를 직접 관리하며 실험을 수행하는 방식은 인간 연구자의 개입을 최소화하고 모델 개발 주기를 획기적으로 단축시킬 것입니다.
  • 비용 및 자원 최적화: 하드웨어의 특성을 이해하고 비용 효율적으로 자원을 배분하는 에이전트의 능력은 향후 대규모 클라우드 연산 비용 절감에 핵심적인 역할을 할 것으로 보입니다.
Share

이것도 읽어보세요

댓글

이 소식에 대한 의견을 자유롭게 남겨주세요.

댓글 (0)

불러오는 중...