노르웨이, 2페타바이트 규모의 화웨이 플래시 스토리지 도입 및 LLM 학습 활용

노르웨이 국립도서관은 자국어 주권 AI(LLM) 개발을 위해 2005년부터 구축한 20PB의 디지털 데이터를 활용하고 있으며, 정제 파이프라인 구축을 위해 2PB 규모의 화웨이 '오션스토어 도라도(OceanStor Dorado)' 올플래시 스토리지를 도입했습니다. 정제된 데이터는 448개의 GPU를 갖춘 국가 슈퍼컴퓨터 '시그마2 올리비아(Sigma2 Olivia)'로 전송되어 최종 LLM 학습에 사용됩니다.

AI 요약

노르웨이 문화부는 영어 중심의 글로벌 LLM이 노르웨이의 역사와 문화를 제대로 반영하지 못한다는 한계를 극복하기 위해, 국립도서관(Nasjonalbiblioteket)에 독자적인 자국어 주권 AI 구축을 지시했습니다. 국립도서관은 2005년부터 서적, 신문, 웹페이지 등을 디지털화하여 약 20PB(3-2-1 보관법 적용 시 총 60PB)의 고유 데이터를 보유하고 있으며, 신문사들과의 협약으로 저작권이 있는 콘텐츠까지 학습에 활용할 수 있는 독점적 지위를 가집니다. 프로젝트의 핵심 병목인 데이터 정제 및 파이프라인 속도 향상을 위해 도서관은 엔비디아 DGX H200 및 384코어 CPU 클러스터와 함께 화웨이의 '오션스토어 도라도' 올플래시 스토리지 2PB를 데이터 준비 단계에 배치했습니다. 이 파이프라인을 거쳐 정제된 고품질 데이터는 노르웨이 국가 슈퍼컴퓨터인 '시그마2 올리비아(Sigma2 Olivia)' 시스템으로 이송되어 최종 LLM 학습에 활용됩니다.

핵심 인사이트

  • 주권 AI의 필요성: 영어 기반 글로벌 LLM이 다루지 못하는 노르웨이 자국의 역사, 뉴스, 문화를 보존하기 위해 노르웨이 문화부가 주도하여 국가 차원의 Sovereign LLM 개발을 추진함.
  • 방대한 디지털 데이터: 국립도서관은 2005년부터 디지털화 작업을 시작해 20PB의 고유 데이터를 축적했으며, 3-2-1 데이터 보존 원칙에 따라 총 60PB 규모의 아카이브를 관리 중임.
  • 화웨이 올플래시 도입: 데이터 파이프라인의 고속 처리를 위해 2PB 용량의 화웨이 '오션스토어 도라도(OceanStor Dorado)' 올플래시 스토리지를 도입하여 데이터 정제와 검증 속도를 극대화함.
  • 국가 슈퍼컴퓨터 활용: 최종 학습은 448개의 GPU와 64,512개의 CPU 코어를 갖춘 HPE 크레이(Cray) 기반 슈퍼컴퓨터 '시그마2 올리비아(Sigma2 Olivia)'에서 실행됨.

주요 디테일

  • 저작권 데이터의 독점성: 국립도서관은 노르웨이 신문사들과의 협정을 통해 저작권 라이선스가 있는 콘텐츠를 LLM 학습에 합법적으로 사용할 수 있는 권한을 확보함 (민간 기업은 확보 불가능한 자산).
  • 데이터 처리 파이프라인 인프라: 수집, 정제, 중복 제거, 포맷 표준화, 검증 등의 파이프라인 단계에서 엔비디아 DGX H200 시스템, 384코어 CPU 클러스터 및 화웨이 Dorado 어레이가 상호작용함.
  • 병목 현상 해결: IT 플랫폼 책임자인 마리우스 후스네스(Marius Husnes)는 컴퓨팅 파워보다 데이터의 품질, 정제, 그리고 파이프라인 스루풋(처리량)이 실제 개발의 가장 큰 병목이라고 지적함.
  • 스토리지의 이중 구조: 최종 학습 단계가 이루어지는 '시그마2 올리비아' 시스템은 5.3PB 용량의 크레이 클러스터스토어(Cray ClusterStor) E1000 스토리지를 사용하고 있어, 도서관의 60PB 보존용 스토리지 간의 데이터 이동 최적화가 핵심 과제임.

향후 전망

  • 자국어 전용 Sovereign LLM 구축 사례로서, 자국어 보존이 시급한 다른 국가들에게 표준 인프라 및 데이터 수집 모델을 제시할 것으로 보임.
  • 보존용 저성장 스토리지(대규모 테이프/디스크)에서 고속 AI 학습 전용 플래시 스토리지로 대용량 데이터를 원활하게 파이프라인화하는 이종 스토리지 최적화 기술의 중요성이 더욱 커질 전망임.
Share

이것도 읽어보세요

댓글

이 소식에 대한 의견을 자유롭게 남겨주세요.

댓글 (0)

불러오는 중...