AI 요약
오픈 소스 LLM 추론 가속화 프로젝트인 Lucebox-hub는 특정 하드웨어에 최적화된 소프트웨어 재작성을 통해 AI 성능의 한계를 돌파하는 성과를 공개했습니다. 이번 프로젝트는 RTX 3090 GPU를 대상으로 Qwen3.5 모델군에 커스텀 메가커널(Megakernel)과 DFlash 투기적 디코딩(Speculative Decoding) 기술을 적용했습니다. 그 결과, Qwen3.5-0.8B 모델에서는 1.87 tok/J의 전력 효율을 기록하며 애플의 최신 실리콘과 대등한 효율성 및 2배의 처리량을 확보했습니다. 또한, Qwen3.5-27B 모델은 단일 RTX 3090의 24GB 메모리 제약 내에서 Q4_K_M 양자화 모델과 BF16 드래프트 모델을 결합하여 구동하는 데 성공했습니다. 이는 단순한 벤치마크 수치 향상을 넘어, 하드웨어의 성능을 극한으로 끌어올리는 소프트웨어 엔지니어링의 중요성을 입증한 사례로 평가받습니다.
핵심 인사이트
- 극강의 성능 향상: RTX 3090에서 Qwen3.5-27B 모델로 초당 최대 207.6토큰을 달성하며, 기존 자동 회귀(AR) 방식(38.0 tok/s) 대비 5.46배 빠른 속도를 기록함.
- 전력 효율 혁신: Qwen3.5-0.8B 모델에 적용된 메가커널 기술은 1.87 tok/J의 효율을 보이며, 2020년 출시된 GPU로 최신 애플 실리콘 급의 전성비를 구현함.
- 메모리 최적화: 24GB VRAM 내에 16GB 크기의 Q4_K_M 타겟 모델과 3.46GB의 BF16 드래프트 모델을 동시에 올려 128K 컨텍스트(134.78 tok/s)를 유지함.
주요 디테일
- Megakernel 기술: 24개의 모든 레이어를 단일 CUDA 디스패치로 처리하여 레이어 간 CPU 라운드트립을 제거하고, 토큰당 약 100회 발생하던 커널 런치를 1회로 단축함.
- DFlash DDtree 도입: GGUF 포맷 최초의 DFlash 투기적 디코딩 이식으로, HumanEval 벤치마크 기준 평균 129.5 tok/s를 기록해 SGLang AWQ보다 2.8배 빠른 성능을 보임.
- 벤치마크 결과: Math500에서 110.5 tok/s(2.93배), GSM8K에서 96.2 tok/s(2.55배)의 속도 향상을 입증함.
- 하드웨어 제어: 전력 한계(220W~350W)와 연산 한계를 고려한 동적 전압/주파수 조절(DVFS)을 통해 실행 효율을 극대화함.
- 기술 스택: Python 3.10+, CUDA 12+, PyTorch 2.0+ 환경에서 구동되며 HuggingFace로부터 직접 가중치를 스트리밍하여 실행 가능함.
향후 전망
- 소비자용 하드웨어 수명 연장: RTX 3090과 같은 구형 소비자용 플래그십 GPU에서도 최신 고사양 LLM을 고속으로 구동할 수 있는 기술적 토대가 마련됨.
- 커스텀 커널 중심의 발전: 범용 추론 엔진보다 특정 칩셋에 특화된 전용 커널 개발이 온디바이스 AI 및 소규모 서버 환경의 핵심 트렌드가 될 것으로 전망됨.
출처:hackernews
