AI 요약
이번 주 허깅페이스 트렌드는 하나의 가벼운 모델로 다양한 작업을 수행하는 '통합 멀티모달'과 '경량 학습'이 시장을 주도했습니다. 트렌딩 1위에 오른 바이트댄스의 '랜스(Lance)'는 단 30억(3B) 파라미터 규모로 이미지와 영상의 이해, 생성, 편집 등 총 6가지 멀티모달 작업을 단일 모델에서 모두 해결하는 뛰어난 효율성을 보여주었습니다. 특히 랜스는 엔비디아 A100 GPU 128장만을 사용하여 처음부터 학습(from scratch)을 마쳐, 수천 장의 GPU를 동원하는 기존 대형 모델 대비 극단적인 학습 효율을 달성했습니다. 한편, 지난주 1위였던 9B 규모의 오픈소스 영상 생성 모델 '설퍼-2-베이스(Sulphur-2-base)'는 2주 연속 상위권을 지키며 양자화 버전(GGUF, FP8) 출시와 함께 커뮤니티 표준으로 빠르게 자리 잡고 있습니다. 아울러 한국 슈퍼톤의 31개 언어 지원 온디바이스 TTS 모델 '슈퍼토닉 3(Supertonic 3)'도 3주 연속 상위권을 유지하며 기술력을 입증했습니다.
핵심 인사이트
- 바이트댄스의 '랜스(Lance)' 1위 등극: 틱톡과 캡컷의 개발사 바이트댄스의 지능형 콘텐츠 창작팀이 선보인 30억(3B) 파라미터 규모의 통합 멀티모달 모델 랜스가 'Any-to-Any' 카테고리 트렌딩 1위에 올랐습니다.
- '설퍼-2-베이스(Sulphur-2-base)'의 2주 연속 흥행: 이스라엘 라이트릭스의 LTX 2.3 파운데이션 모델을 9B 규모로 파인튜닝한 오픈소스 영상 모델이 2위를 기록했습니다.
- 한국 슈퍼톤 '슈퍼토닉 3'의 롱런: 31개 언어를 지원하는 초경량 온디바이스 TTS 모델이 글로벌 상위권을 3주째 지키며 '온디바이스 한류'의 저력을 보였습니다.
주요 디테일
- 랜스의 6-in-1 다중 작업 아키텍처: 랜스는 이미지 이해, 이미지 생성, 이미지 편집, 영상 이해, 영상 생성, 영상 편집까지 총 6가지 핵심 멀티모달 작업을 하나의 모델로 동시에 처리할 수 있어 기존의 여러 개별 모델을 전환해 가며 쓰던 불편함을 해소했습니다.
- 엔비디아 A100 GPU 128장으로 이뤄낸 극단적 효율: 수천 장의 GPU가 동원되던 기존의 유사 규모 학습 관행을 깨고, 단 128장의 A100 GPU만을 활용해 효율적인 단계별 다중 작업 학습(staged multi-task recipe) 구조를 입증했습니다.
- 상업적 이용이 보장된 오픈소스 라이선스: 랜스는 아파치(Apache) 2.0 라이선스로 배포되어 상업적 사용에 제약이 없으며, 모델 가중치 용량 또한 약 25GB 수준으로 소비자용 워크스테이션에서 쉽게 구동할 수 있습니다.
- 설퍼-2-베이스의 보급형 GPU 지원: FP8 및 GGUF 등 양자화(quantization) 버전이 빠르게 출시되면서 8~12GB VRAM 수준의 일반 소비자용 그래픽카드에서도 정상 구동되며, 시비타이(Civitai) 및 컴파이UI(ComfyUI) 등 창작 커뮤니티 생태계로 침투하고 있습니다.
향후 전망
- 소형·효율 중심의 온디바이스 AI 패러다임 가속: 거대한 단일 모델 중심에서 탈피하여 '랜스'와 같이 작고 효율적이면서 다양한 기능을 한번에 처리하는 온디바이스 지향 멀티모달 모델들의 출시가 더욱 가속화될 것입니다.
- 개인 창작자 중심의 독립형 올인원 스튜디오 대중화: 3B 및 9B 규모의 초경량 고성능 오픈소스 모델과 양자화 기술의 결합으로, 클라우드 비용 부담 없이 개인의 PC 환경에서 고품질 이미지와 영상을 기획부터 편집까지 완수하는 시대가 열릴 것으로 보입니다.
