AI 요약
유럽입자물리연구소(CERN)가 개발한 CASTOR(CERN Advanced STORage manager)는 대규모 고에너지 물리학 연구 데이터를 아카이빙하기 위해 디스크와 테이프를 결합한 계층형 스토리지 관리 시스템입니다. 1990년대에 활약한 SHIFT 시스템의 후속작으로 출발한 CASTOR는 CLI 도구와 자체 API를 통해 파일 저장, 조회, 원격 액세스 기능을 제공하며 XROOT 및 GridFTP 프로토콜을 주력으로 사용합니다. 전체 시스템 구조는 메타데이터를 관리하는 Name Server, 디스크 영역을 할당하는 Stager, 그리고 테이프 카트리지 마운트를 자동화하는 Tape Infrastructure 등 5가지 주요 기능 모듈로 구성되어 안정성을 높였습니다. 2013년 1월 기준으로 약 100 PB의 테이프 아카이브 용량을 확보하였으며, 고성능 하드웨어를 통해 데이터 보존 능력을 극대화했습니다. CASTOR는 오랜 운영 끝에 2020년 6월 29일부터 가동된 차세대 솔루션인 CTA(CERN Tape Archive)에 바톤을 넘기고 점진적인 대체 과정을 거쳤습니다.
핵심 인사이트
- 세대교체 역사: CASTOR는 CASTOR 1(1998~2007년), CASTOR 2(2005~2022년) 단계를 거쳐 CERN의 핵심 데이터 스토리지로 활약했으며, 2020년 6월 29일부터는 후속 시스템인 CTA(CERN Tape Archive)로의 이관을 시작했습니다.
- 방대한 데이터 용량: CASTOR 시스템이 구축한 전체 테이프 아카이브 용량은 2013년 1월 기준 약 100 PB(페타바이트) 수준에 이릅니다.
- 프로토콜의 변화: 가장 권장되는 XROOT 및 GridFTP 프로토콜을 주력으로 지원하며, 기존에 사용되던 RFIO(Remote File IO) 프로토콜은 2016년에 지원이 공식 종료되었습니다.
주요 디테일
- 컴포넌트 중심 아키텍처: 분산된 모듈의 상태 변화를 보호하기 위해 중앙 데이터베이스를 기반으로 작동하며, 세부적으로는 Stager, Name Server, Tape Infrastructure 등으로 역할이 분할되어 있습니다.
- 고성능 하드웨어 구성: 대용량 테이프 백업을 위해 Oracle StorageTek T10000C(5 TB) 및 IBM TS1140(4 TB) 등의 하이엔드 테이프 드라이브를 도입해 활용했습니다.
- 테이프 라이브러리 자동화: 대규모 데이터 저장 관리를 위해 Oracle SL8500 4대와 IBM TS3500 3대 등의 자동화된 라이브러리 장비를 운영했으며, VDQM(Volume Drive Queue Manager) 제어 소프트웨어를 사용하여 완전히 자동화된 카트리지 탈착 시스템을 구현했습니다.
- 합리적인 비용의 아카이빙: 고용량 디스크의 물리적 한계를 극복하기 위해 테라바이트(TB)당 저장 단가가 훨씬 저렴한 테이프 매체를 백업 인프라로 적극 채택했습니다.
향후 전망
- CTA 시대로의 완전한 전향: 20년 이상 이어진 CASTOR 데이터 관리 체계가 차세대 아카이브 규격인 CTA(CERN Tape Archive)로 안정적으로 이관됨으로써, 향후 더 거대해질 고에너지 물리학(HEP) 연구 데이터를 수용할 차세대 물리 연구 인프라의 기틀이 마련되었습니다.
