리퀴드 AI, 38T 토큰으로 학습된 8B-A1B MoE 모델 공개

리퀴드 AI(Liquid AI)가 2026년 5월 28일, 기존 12T에서 38T 토큰으로 사전 학습을 대폭 확장하고 컨텍스트 창을 128K로 늘린 온디바이스용 MoE 모델 'LFM2.5-8B-A1B'를 출시했습니다. 이 모델은 어휘 사전을 128K로 두 배 늘려 비라틴계 언어의 효율성을 크게 개선했으며, 일반 보급형 노트북에서도 로컬 추론이 가능합니다.

AI 요약

리퀴드 AI(Liquid AI)가 2026년 5월 28일, 소비자용 하드웨어에서 빠르고 신뢰성 높은 도구 호출(Tool Calling)과 복잡한 작업을 원활히 수행할 수 있도록 설계된 에지(Edge) 모델 'LFM2.5-8B-A1B'를 출시했습니다. 이번 모델은 2025년 10월에 발표된 'LFM2-8B-A1B'의 업그레이드 버전으로, 사전 학습(Pretraining) 규모를 기존 12T 토큰에서 38T 토큰으로 크게 늘리고 대규모 강화학습을 결합하여 성능을 한 단계 끌어올렸습니다. 특히 컨텍스트 창을 기존 32,768(32K) 토큰에서 128,000(128K) 토큰으로 확장하여 장문 처리 및 깊이 있는 추론이 가능해졌습니다. 또한 비라틴계 언어의 토큰화 효율성을 높이기 위해 어휘 사전(Vocabulary) 규모를 128,000개로 두 배 확장했습니다. 이전 모델과 달리 명시적인 '생각의 흐름(Chain of Thought)' 과정을 생성하는 추론 전용 모델로 설계되어, 보급형 노트북과 같이 제한된 사양의 환경에서도 고성능을 발휘하며 즉시 허깅페이스(Hugging Face)와 자사 플레이그라운드를 통해 이용할 수 있습니다.

핵심 인사이트

  • 38T 토큰 학습: 기존 12T 토큰에서 38T 토큰으로 사전 학습 데이터 규모를 3배 이상 대폭 확장하여 모델 성능을 고도화했습니다.
  • 128K 컨텍스트 창 확장: 컨텍스트 창을 기존 32,768개에서 128,000개로 늘려, 긴 문서 처리와 고차원적인 추론 흐름을 장시간 유지할 수 있게 되었습니다.
  • 어휘 사전(Vocabulary) 2배 증가: 비라틴계 언어 지원을 극대화하기 위해 어휘 크기를 65,536개에서 128,000개로 확장했으며, 특히 힌디어, 태국어, 베트남어, 인도네시아어, 아랍어의 압축 효율을 개선했습니다.
  • 배포 및 출시: 2026년 5월 28일 공식 발표와 동시에 베이스(LFM2.5-8B-A1B-Base) 모델과 사후 학습(post-trained) 모델이 허깅페이스 및 리퀴드 플레이그라운드에 공개되었습니다.

주요 디테일

  • 추론 전용(Reasoning-only) 아키텍처: 최종 답변을 도출하기 전에 체계적인 '생각의 흐름' 과정을 거치도록 설계되었으며, 적은 매개변수가 작동하는 MoE의 특성을 살려 저비용 고효율 추론을 구현했습니다.
  • 단계별 컨텍스트 확장 기법: 우선 추론, 수학, 도구 사용 위주의 데이터를 통해 2T 토큰 미드트레이닝(Midtraining)을 거쳐 32K로 확장한 뒤, RoPE base theta(θ) 조정 및 400B 토큰의 장문 궤적 데이터를 활용해 최종 128K를 안정적으로 완성했습니다.
  • 토크나이저 연장(In-place Expansion): 모델을 처음부터 다시 학습시키는 비효율을 피하기 위해, 기존 BPE 토크나이저를 유지한 채 추가 확장 및 이단계 적응 학습(임베딩 전용 학습 후 전체 프리트레이닝 지속)을 진행하는 정교한 방식을 사용했습니다.
  • 안정적인 MoE 기반 설계: 이전 모델인 LFM2-8B-A1B와 마찬가지로 MoE(Mixture of Experts), GQA(Grouped Query Attention), 게이트형 쇼트 컨볼루션(Gated Short Convolution) 블록 조합의 효율적 설계를 공유합니다.
  • 뛰어난 온디바이스 접근성: 강력해진 성능에도 불구하고 일반 보급형 노트북(entry-level laptop)에서 로컬 구동 및 파인튜닝이 가능할 정도로 우수한 리소스 효율성을 보장합니다.

향후 전망

  • 로컬 에지 AI의 주류화: 일반 소비자용 기기에서 128K 컨텍스트를 다룰 수 있는 초소형 고성능 추론 모델의 등장으로, 하드웨어 사양 제약을 뛰어넘는 로컬 AI 애플리케이션 개발이 탄력을 받을 것입니다.
  • 비영어권 AI 시장 영향력 확대: 비라틴 문자 압축 효율이 크게 개선됨에 따라 동남아시아 및 중동 등 다국어 비즈니스 환경에서 모델의 자원 효율성 및 반응 속도가 핵심 경쟁력으로 작용할 것으로 분석됩니다.
Share

이것도 읽어보세요

댓글

이 소식에 대한 의견을 자유롭게 남겨주세요.

댓글 (0)

불러오는 중...