AI 요약
2026년 2월부터 3월에 걸쳐 알리바바 산하 Qwen 팀이 LLM 'Qwen3.5' 시리즈를 순차적으로 공개했습니다. 2월 16일 397B 플래그십 모델을 시작으로 3월 2일에는 9B를 포함한 Small 시리즈가 출시되었습니다. 이번 Qwen3.5-9B 모델의 핵심은 기존 Transformer의 한계를 극복하기 위해 도입된 'Gated DeltaNet' 하이브리드 아키텍처입니다. 이는 Transformer 블록 4개 중 3개를 경량화된 신규 구조로 교체하여 메모리 사용량을 획기적으로 줄이면서도 연산 효율을 극대화한 것이 특징입니다. 그 결과, 9B라는 소형 파라미터임에도 불구하고 대학원 수준의 과학 추론이나 초장문 처리 능력에서 자기보다 13배 이상 큰 120B급 모델을 압도하는 성과를 보여주며 로컬 LLM의 새로운 기준을 제시하고 있습니다.
핵심 인사이트
- 성능의 하극상: Qwen3.5-9B는 GPQA Diamond(대학원 수준 과학 추론)에서 81.7점을 기록하며 GPT-OSS-120B의 80.1점을 상회했습니다.
- 초장문 처리 능력: 소형 모델임에도 262K 토큰(문고본 약 2~3권 분량)의 네이티브 컨텍스트를 지원하여 16GB Mac 등 로컬 환경에서 대량의 코드나 논문 처리가 가능합니다.
- 탁월한 지시 이행: IFEval(지시 따르기) 지표에서 91.5점을 기록, 경쟁 모델들의 88~89점대를 웃도는 높은 신뢰성을 확보했습니다.
- 전면 무료 공개: 전체 시리즈가 Apache 2.0 라이선스로 배포되어 상업적 이용을 포함한 모든 활용이 무상으로 가능합니다.
주요 디테일
- 하이브리드 아키텍처: 4개 블록 중 3개를 Gated DeltaNet으로, 1개를 Softmax Attention으로 구성하여 정확도와 경량화의 균형을 맞췄습니다.
- 멀티모달 통합: 이전 세대와 달리 비전 기능을 모델에 내장하여 MMMU-Pro 벤치마크에서 70.1점을 기록(120B 모델은 57.2점)했습니다.
- 언어 및 모드 지원: 약 25만 개의 어휘 사이즈로 201개 언어를 지원하며, 추론 시 'Thinking' 모드와 'Non-thinking' 모드를 선택할 수 있습니다.
- 메모리 효율: 데이터를 고정 사이즈 메모리에 압축 및 업데이트하는 방식을 채택하여 문장이 길어져도 메모리 점유율 증가가 억제됩니다.
- 출시 일정: 2월 16일(397B), 2월 24일(Medium 시리즈), 3월 2일(Small 시리즈) 등 단계적으로 모델을 전개했습니다.
향후 전망
- 로컬 AI의 대중화: 고사양 서버 없이도 16GB RAM 수준의 개인용 기기에서 전문가급 AI 성능을 활용하는 사례가 급증할 것으로 보입니다.
- 아키텍처 패러다임 변화: Transformer 일변도에서 벗어나 Gated DeltaNet과 같은 하이브리드 구조가 소형 고성능 모델의 주류로 자리 잡을 가능성이 큽니다.
출처:hatena
