AI 요약
노르웨이 문화부는 영어 중심의 글로벌 LLM이 노르웨이의 역사와 문화를 제대로 반영하지 못한다는 한계를 극복하기 위해, 국립도서관(Nasjonalbiblioteket)에 독자적인 자국어 주권 AI 구축을 지시했습니다. 국립도서관은 2005년부터 서적, 신문, 웹페이지 등을 디지털화하여 약 20PB(3-2-1 보관법 적용 시 총 60PB)의 고유 데이터를 보유하고 있으며, 신문사들과의 협약으로 저작권이 있는 콘텐츠까지 학습에 활용할 수 있는 독점적 지위를 가집니다. 프로젝트의 핵심 병목인 데이터 정제 및 파이프라인 속도 향상을 위해 도서관은 엔비디아 DGX H200 및 384코어 CPU 클러스터와 함께 화웨이의 '오션스토어 도라도' 올플래시 스토리지 2PB를 데이터 준비 단계에 배치했습니다. 이 파이프라인을 거쳐 정제된 고품질 데이터는 노르웨이 국가 슈퍼컴퓨터인 '시그마2 올리비아(Sigma2 Olivia)' 시스템으로 이송되어 최종 LLM 학습에 활용됩니다.
핵심 인사이트
- 주권 AI의 필요성: 영어 기반 글로벌 LLM이 다루지 못하는 노르웨이 자국의 역사, 뉴스, 문화를 보존하기 위해 노르웨이 문화부가 주도하여 국가 차원의 Sovereign LLM 개발을 추진함.
- 방대한 디지털 데이터: 국립도서관은 2005년부터 디지털화 작업을 시작해 20PB의 고유 데이터를 축적했으며, 3-2-1 데이터 보존 원칙에 따라 총 60PB 규모의 아카이브를 관리 중임.
- 화웨이 올플래시 도입: 데이터 파이프라인의 고속 처리를 위해 2PB 용량의 화웨이 '오션스토어 도라도(OceanStor Dorado)' 올플래시 스토리지를 도입하여 데이터 정제와 검증 속도를 극대화함.
- 국가 슈퍼컴퓨터 활용: 최종 학습은 448개의 GPU와 64,512개의 CPU 코어를 갖춘 HPE 크레이(Cray) 기반 슈퍼컴퓨터 '시그마2 올리비아(Sigma2 Olivia)'에서 실행됨.
주요 디테일
- 저작권 데이터의 독점성: 국립도서관은 노르웨이 신문사들과의 협정을 통해 저작권 라이선스가 있는 콘텐츠를 LLM 학습에 합법적으로 사용할 수 있는 권한을 확보함 (민간 기업은 확보 불가능한 자산).
- 데이터 처리 파이프라인 인프라: 수집, 정제, 중복 제거, 포맷 표준화, 검증 등의 파이프라인 단계에서 엔비디아 DGX H200 시스템, 384코어 CPU 클러스터 및 화웨이 Dorado 어레이가 상호작용함.
- 병목 현상 해결: IT 플랫폼 책임자인 마리우스 후스네스(Marius Husnes)는 컴퓨팅 파워보다 데이터의 품질, 정제, 그리고 파이프라인 스루풋(처리량)이 실제 개발의 가장 큰 병목이라고 지적함.
- 스토리지의 이중 구조: 최종 학습 단계가 이루어지는 '시그마2 올리비아' 시스템은 5.3PB 용량의 크레이 클러스터스토어(Cray ClusterStor) E1000 스토리지를 사용하고 있어, 도서관의 60PB 보존용 스토리지 간의 데이터 이동 최적화가 핵심 과제임.
향후 전망
- 자국어 전용 Sovereign LLM 구축 사례로서, 자국어 보존이 시급한 다른 국가들에게 표준 인프라 및 데이터 수집 모델을 제시할 것으로 보임.
- 보존용 저성장 스토리지(대규모 테이프/디스크)에서 고속 AI 학습 전용 플래시 스토리지로 대용량 데이터를 원활하게 파이프라인화하는 이종 스토리지 최적화 기술의 중요성이 더욱 커질 전망임.
