9B 모델로 120B급 성능 구현? 로컬 AI의 상식을 뒤엎은 Qwen3.5-9B (1/5)

알리바바 Qwen 팀이 2026년 3월 2일 공개한 'Qwen3.5-9B' 모델은 'Gated DeltaNet' 하이브리드 아키텍처를 통해 120B급 모델을 능가하는 성능을 구현했습니다. 특히 16GB 메모리의 Mac에서도 구동 가능하면서 262K 토큰의 초장문 처리와 GPQA Diamond 81.7점이라는 높은 추론 성능을 기록하며 로컬 AI의 상식을 뒤엎었습니다.

AI 요약

2026년 2월부터 3월에 걸쳐 알리바바 산하 Qwen 팀이 LLM 'Qwen3.5' 시리즈를 순차적으로 공개했습니다. 2월 16일 397B 플래그십 모델을 시작으로 3월 2일에는 9B를 포함한 Small 시리즈가 출시되었습니다. 이번 Qwen3.5-9B 모델의 핵심은 기존 Transformer의 한계를 극복하기 위해 도입된 'Gated DeltaNet' 하이브리드 아키텍처입니다. 이는 Transformer 블록 4개 중 3개를 경량화된 신규 구조로 교체하여 메모리 사용량을 획기적으로 줄이면서도 연산 효율을 극대화한 것이 특징입니다. 그 결과, 9B라는 소형 파라미터임에도 불구하고 대학원 수준의 과학 추론이나 초장문 처리 능력에서 자기보다 13배 이상 큰 120B급 모델을 압도하는 성과를 보여주며 로컬 LLM의 새로운 기준을 제시하고 있습니다.

핵심 인사이트

  • 성능의 하극상: Qwen3.5-9B는 GPQA Diamond(대학원 수준 과학 추론)에서 81.7점을 기록하며 GPT-OSS-120B의 80.1점을 상회했습니다.
  • 초장문 처리 능력: 소형 모델임에도 262K 토큰(문고본 약 2~3권 분량)의 네이티브 컨텍스트를 지원하여 16GB Mac 등 로컬 환경에서 대량의 코드나 논문 처리가 가능합니다.
  • 탁월한 지시 이행: IFEval(지시 따르기) 지표에서 91.5점을 기록, 경쟁 모델들의 88~89점대를 웃도는 높은 신뢰성을 확보했습니다.
  • 전면 무료 공개: 전체 시리즈가 Apache 2.0 라이선스로 배포되어 상업적 이용을 포함한 모든 활용이 무상으로 가능합니다.

주요 디테일

  • 하이브리드 아키텍처: 4개 블록 중 3개를 Gated DeltaNet으로, 1개를 Softmax Attention으로 구성하여 정확도와 경량화의 균형을 맞췄습니다.
  • 멀티모달 통합: 이전 세대와 달리 비전 기능을 모델에 내장하여 MMMU-Pro 벤치마크에서 70.1점을 기록(120B 모델은 57.2점)했습니다.
  • 언어 및 모드 지원: 약 25만 개의 어휘 사이즈로 201개 언어를 지원하며, 추론 시 'Thinking' 모드와 'Non-thinking' 모드를 선택할 수 있습니다.
  • 메모리 효율: 데이터를 고정 사이즈 메모리에 압축 및 업데이트하는 방식을 채택하여 문장이 길어져도 메모리 점유율 증가가 억제됩니다.
  • 출시 일정: 2월 16일(397B), 2월 24일(Medium 시리즈), 3월 2일(Small 시리즈) 등 단계적으로 모델을 전개했습니다.

향후 전망

  • 로컬 AI의 대중화: 고사양 서버 없이도 16GB RAM 수준의 개인용 기기에서 전문가급 AI 성능을 활용하는 사례가 급증할 것으로 보입니다.
  • 아키텍처 패러다임 변화: Transformer 일변도에서 벗어나 Gated DeltaNet과 같은 하이브리드 구조가 소형 고성능 모델의 주류로 자리 잡을 가능성이 큽니다.
Share

이것도 읽어보세요

댓글

이 소식에 대한 의견을 자유롭게 남겨주세요.

댓글 (0)

불러오는 중...