AI 요약
최근 AI 붐으로 인한 데이터 센터의 전력 소모와 탄소 배출이 심각한 문제로 대두되면서, 거대 기술 기업들은 원자력 발전 등 새로운 에너지원을 찾고 있습니다. 하지만 실제적인 해결책으로 현재 주목받는 것은 단일 데이터 센터에 의존하지 않고 독립된 노드망에 학습을 분산시키는 '분산형 학습'입니다. 이 방식은 연구소의 유휴 서버나 태양광 발전 주택의 컴퓨터 등 기존의 분산된 에너지원과 하드웨어를 활용하여 추가적인 전력망 확장 없이도 학습 성능을 확보할 수 있게 합니다. 하드웨어 제조사인 엔비디아와 시스코는 지리적으로 떨어진 클러스터를 연결하는 전용 네트워크 장비를 출시하며 이러한 흐름을 뒷받침하고 있습니다. 또한, 유휴 GPU를 대여하는 공유 경제 모델의 등장은 고사양 GPU에만 의존하던 기존의 학습 방식을 소형 GPU까지 확장하는 계기가 되고 있습니다.
핵심 인사이트
- 엔비디아(Nvidia): 지리적으로 분산된 데이터 센터 간의 대규모 AI 학습 및 추론 성능을 보장하기 위해 'Spectrum-XGS 이더넷'을 출시했습니다.
- 시스코(Cisco): 물리적으로 멀리 떨어진 AI 클러스터들을 하나로 연결하도록 설계된 '8223 라우터'를 도입하여 분산 컴퓨팅의 기술적 기반을 마련했습니다.
- Akash Network: '데이터 센터계의 에어비앤비(Airbnb)'를 표방하며, 전 세계의 유휴 GPU 자원을 연결하는 피어 투 피어(P2P) 클라우드 컴퓨팅 마켓플레이스를 운영 중입니다.
- 에너지 효율성: 분산형 학습은 전력망 인프라를 새로 구축하는 대신, 이미 존재하는 에너지원과 하드웨어 자원을 활용하여 데이터 센터의 집중된 전력 수요를 분산시킵니다.
주요 디테일
- 기존의 AI 학습은 긴밀하게 연결된 GPU 클러스터가 있는 단일 데이터 센터 내에서 이루어지는 '팀 스포츠'와 같았으나, 대형 언어 모델(LLM)의 크기가 하드웨어 발전 속도를 넘어서며 한계에 봉착했습니다.
- Akash Network의 CEO 그렉 오수리(Greg Osuri)는 세계가 최신 고성능 GPU에만 의존하던 방식에서 벗어나 점차 소형 GPU를 활용하는 방향으로 전환하고 있다고 강조했습니다.
- 분산형 학습은 에너지가 풍부한 곳으로 컴퓨팅 작업을 이동시킬 수 있는 유연성을 제공하며, 이는 재생 에너지가 생산되는 지점에서 직접 컴퓨팅을 수행할 수 있음을 의미합니다.
- 엔비디아의 Spectrum-XGS는 지리적으로 분리된 환경에서도 단일 작업(Single Job) 수준의 대규모 AI 학습이 가능한 네트워크 성능을 제공하는 것이 특징입니다.
- GPU-as-a-Service 모델의 등장은 연구소나 소규모 데이터 센터의 유휴 자원을 수익화하는 동시에, AI 개발자들에게는 더 저렴하고 유연한 컴퓨팅 옵션을 제공합니다.
향후 전망
- 원자력 기반 데이터 센터 구축에 수년이 걸릴 것으로 예상되는 가운데, 분산형 학습은 즉각적으로 AI의 탄소 발자국을 줄일 수 있는 실질적인 해법으로 자리 잡을 것입니다.
- 하드웨어와 소프트웨어의 지속적인 동기화 기술 발전을 통해, 향후에는 중앙 집중식 클라우드 기업의 독점을 완화하고 더 민주적인 AI 학습 생태계가 조성될 것으로 전망됩니다.
출처:ieee_spectrum
