Flash-MoE: 노트북에서 3,970억 개(397B) 파라미터 모델 실행하기

Flash-MoE는 48GB RAM의 MacBook Pro에서 SSD 스트리밍 기술을 통해 3,970억 개의 파라미터를 가진 Qwen3.5-397B-A17B 모델을 초당 4.4개 이상의 토큰 속도로 실행하는 기술입니다. 순수 C와 Metal 기반의 추론 엔진으로 구현되었으며, 4비트 양자화 환경에서 도구 호출(tool calling) 등 실무 수준의 결과물을 제공합니다.

AI 요약

AI와 인간이 단 24시간 만에 공동 개발한 Flash-MoE는 노트북 사양에서 3,970억 개(397B)의 파라미터를 가진 거대 언어 모델을 실행할 수 있는 혁신적인 추론 엔진입니다. 기존의 무거운 프레임워크나 Python 없이 순수 C와 Metal 셰이더로만 작성되었으며, 메모리에 전체 모델을 올리는 대신 SSD에서 실시간으로 필요한 전문가 가중치를 불러오는 스트리밍 방식을 채택했습니다. Apple M3 Max 칩과 48GB 통합 메모리를 장착한 MacBook Pro에서 4비트 양자화된 209GB 모델을 초당 4.4토큰 이상의 속도로 구동하며, 이는 실제 업무에 활용 가능한 수준의 도구 호출 및 JSON 출력 품질을 보장합니다. 이 프로젝트는 Apple의 'LLM in a Flash' 논문에서 영감을 얻었으며, 하드웨어 성능을 극한으로 끌어올리는 하드코어 최적화의 정수를 보여줍니다.

핵심 인사이트

  • 초거대 모델 로컬 구동: 48GB RAM 노트북에서 RAM 용량보다 4배 이상 큰 3,970억 개 파라미터(Qwen3.5-397B-A17B) 모델을 실행하는 데 성공했습니다.
  • SSD 전문가 스트리밍: 209GB(4-bit 기준)의 모델 가중치를 NVMe SSD(17.5 GB/s 대역폭)에서 pread()를 통해 실시간으로 로드하여 메모리 한계를 극복했습니다.
  • FMA 최적화 커널: Fused Multiply-Add 최적화를 통해 4비트 역양자화 행렬-벡터 곱셈 속도를 기존 방식 대비 12% 향상시켰습니다.
  • 실무급 성능: 4비트 양자화 설정에서 초당 4.36개 토큰 생성 및 완벽한 도구 호출(Tool Calling) 성능을 확인했습니다.

주요 디테일

  • 하드웨어 사양: M3 Max 칩(16코어 CPU, 40코어 GPU), 48GB 통합 메모리(400GB/s 대역폭), 1TB Apple Fabric SSD 환경에서 테스트되었습니다.
  • 아키텍처 구조: 60개의 트랜스포머 레이어로 구성되었으며, 이 중 45개는 GatedDeltaNet(선형 어텐션), 15개는 표준 풀 어텐션 방식입니다.
  • Mixture-of-Experts(MoE): 레이어당 512명의 전문가 중 토큰당 4명(K=4)의 활성 전문가만 로드하여 연산 효율을 높였습니다.
  • 노프레임워크 구현: Python이나 외부 라이브러리 없이 C, Objective-C, Metal 셰이더만 사용하여 가볍고 빠른 실행 환경을 구축했습니다.
  • 양자화 비교: 2비트 양자화 시 초당 최대 7.05토큰까지 가능하나, JSON 형식 오류 등의 문제로 인해 4비트가 권장 설정으로 제시되었습니다.
  • 가속 기술: Apple의 Accelerate BLAS 라이브러리와 병렬 GCD(Grand Central Dispatch)를 활용하여 연산과 데이터 로딩을 병렬 처리했습니다.

향후 전망

  • 온디바이스 AI의 한계 확장: VRAM이 부족한 일반 소비자용 기기에서도 수천억 개의 파라미터를 가진 모델을 사용할 수 있는 가능성을 입증했습니다.
  • SSD 성능의 중요성 대두: 추론 속도가 메모리 대역폭뿐만 아니라 SSD의 순차 읽기 속도와 밀접하게 연동됨에 따라 고성능 스토리지의 역할이 커질 것입니다.
Share

이것도 읽어보세요

댓글

이 소식에 대한 의견을 자유롭게 남겨주세요.

댓글 (0)

불러오는 중...