AI 요약
2024년 FAANG을 퇴사하고 독립 연구자가 된 필자는 연구 효율성을 극대화하기 위해 아파트에서 가동할 수 있는 가장 강력한 GPU 서버를 직접 구축하기로 결정했습니다. A100(FP8 미지원 및 느린 추론 속도)과 H100을 비교한 끝에 가성비와 전력 효율이 높은 'RTX 6000 Ada' GPU 6장으로 구성된 4만 8천 달러 규모의 서버 'grumbl'을 제작했습니다. 아파트 전력 회로 한계를 해결하기 위해 전문 제작자의 도움을 받아 두 개의 전원 공급 장치를 서로 다른 콘센트에 분리해 꽂는 방식을 도입했습니다. 저자는 직접 구매와 클라우드 대여(On-demand) 비용을 객관적으로 비교하기 위해 분 단위 사용량과 전력 소모량을 기록하는 모니터링 스크립트를 실행했습니다. 2024년 렌탈 시장 요금 기준 약 85% 이상의 가동률로 1년을 유지해야 구매 비용을 회수할 수 있다는 계산 하에, 장기 예약 인스턴스 대신 자산 소유권이 남는 자체 서버 구축을 선택하여 연구를 이어나가고 있습니다.
핵심 인사이트
- 투자 규모: FAANG 퇴사 후 독립 연구를 진행하기 위해 2024년에 총 4만 8천 달러(USD)를 투자하여 6개의 RTX 6000 Ada GPU 서버를 직접 구축함.
- 부품 선택 기준: 강화학습(RL) 추론 성능 극대화를 위해 FP8을 지원하지 않는 A100을 제외하고 가성비가 높은 RTX 6000 Ada를 최종 선택함.
- 손익 분기점 계산: 2024년 클라우드 대여 비용 기준, 자체 서버가 경제성을 확보하려면 약 1년간 85% 이상의 높은 가동률(utilization)을 달성해야 함.
주요 디테일
- 전력 문제 해결: 아파트 단일 회로의 전력 한계를 극복하고자 2개의 파워 서플라이를 각각 다른 콘센트에 연결하는 방식을 설계하고 안전을 위해 전문 빌더를 고용함.
- 서버 명칭의 유래: 서버의 이름인 'grumbl'은 개발자가 'GPUs'라는 단어의 철자를 잘못 입력한 해프닝에서 시작됨.
- 물리적 환경 변화: 아파트 전원 제약에 맞춰 시스템을 정교하게 설계했으나, 결국 전력 업그레이드가 용이한 부모님 댁 지하실로 서버를 이전함.
- 철저한 데이터 로깅: 자체 서버와 클라우드 비용을 정밀하게 비교하기 위해 분 단위로 각 GPU 사용량과 전력 소비량(와트)을 추적하는 커스텀 스크립트를 작성하여 모니터링함.
- 클라우드 예약 요금제 배제: 6~12개월 클라우드 예약 인스턴스는 자체 서버 구매 비용과 큰 차이가 나지 않으면서도 하드웨어 소유권이 남지 않아 온디맨드 요금제와만 비교를 진행함.
향후 전망
- 독립 연구자의 하드웨어 트렌드: 고성능 AI 연구를 위해 클라우드 의존도를 낮추고 소규모 로컬 GPU 클러스터를 직접 구축하는 독립 연구자들이 점차 늘어날 것으로 보임.
- 하드웨어 감가상각 고려 필요: 신규 GPU 출시로 인한 클라우드 대여 비용 하락 속도를 이겨낼 만큼의 고부하 연구 모델 확보가 프로젝트 성공의 열쇠가 될 것임.
