RTX 3090 환경에서 Qwen3.5-27B 모델로 초당 207토큰 달성

AI 요약

오픈 소스 LLM 추론 가속화 프로젝트인 Lucebox-hub는 특정 하드웨어에 최적화된 소프트웨어 재작성을 통해 AI 성능의 한계를 돌파하는 성과를 공개했습니다. 이번 프로젝트는 RTX 3090 GPU를 대상으로 Qwen3.5 모델군에 커스텀 메가커널(Megakernel)과 DFlash 투기적 디코딩(Speculative Decoding) 기술을 적용했습니다. 그 결과, Qwen3.5-0.8B 모델에서는 1.87 tok/J의 전력 효율을 기록하며 애플의 최신 실리콘과 대등한 효율성 및 2배의 처리량을 확보했습니다. 또한, Qwen3.5-27B 모델은 단일 RTX 3090의 24GB 메모리 제약 내에서 Q4_K_M 양자화 모델과 BF16 드래프트 모델을 결합하여 구동하는 데 성공했습니다. 이는 단순한 벤치마크 수치 향상을 넘어, 하드웨어의 성능을 극한으로 끌어올리는 소프트웨어 엔지니어링의 중요성을 입증한 사례로 평가받습니다.

핵심 인사이트

극강의 성능 향상: RTX 3090에서 Qwen3.5-27B 모델로 초당 최대 207.6토큰을 달성하며, 기존 자동 회귀(AR) 방식(38.0 tok/s) 대비 5.46배 빠른 속도를 기록함.
전력 효율 혁신: Qwen3.5-0.8B 모델에 적용된 메가커널 기술은 1.87 tok/J의 효율을 보이며, 2020년 출시된 GPU로 최신 애플 실리콘 급의 전성비를 구현함.
메모리 최적화: 24GB VRAM 내에 16GB 크기의 Q4_K_M 타겟 모델과 3.46GB의 BF16 드래프트 모델을 동시에 올려 128K 컨텍스트(134.78 tok/s)를 유지함.

주요 디테일

Megakernel 기술: 24개의 모든 레이어를 단일 CUDA 디스패치로 처리하여 레이어 간 CPU 라운드트립을 제거하고, 토큰당 약 100회 발생하던 커널 런치를 1회로 단축함.
DFlash DDtree 도입: GGUF 포맷 최초의 DFlash 투기적 디코딩 이식으로, HumanEval 벤치마크 기준 평균 129.5 tok/s를 기록해 SGLang AWQ보다 2.8배 빠른 성능을 보임.
벤치마크 결과: Math500에서 110.5 tok/s(2.93배), GSM8K에서 96.2 tok/s(2.55배)의 속도 향상을 입증함.
하드웨어 제어: 전력 한계(220W~350W)와 연산 한계를 고려한 동적 전압/주파수 조절(DVFS)을 통해 실행 효율을 극대화함.
기술 스택: Python 3.10+, CUDA 12+, PyTorch 2.0+ 환경에서 구동되며 HuggingFace로부터 직접 가중치를 스트리밍하여 실행 가능함.

향후 전망

소비자용 하드웨어 수명 연장: RTX 3090과 같은 구형 소비자용 플래그십 GPU에서도 최신 고사양 LLM을 고속으로 구동할 수 있는 기술적 토대가 마련됨.
커스텀 커널 중심의 발전: 범용 추론 엔진보다 특정 칩셋에 특화된 전용 커널 개발이 온디바이스 AI 및 소규모 서버 환경의 핵심 트렌드가 될 것으로 전망됨.

원문:https://github.com/Luce-Org/lucebox-hub

출처:hackernews

RTX 3090 환경에서 Qwen3.5-27B 모델로 초당 207토큰 달성

AI 요약

핵심 인사이트

주요 디테일

향후 전망

이것도 읽어보세요

스무디에 바나나를 넣지 말아야 하는 이유, 놀라운 연구 결과가 밝혀내

노화 유발하는 숨겨진 원인 규명... '간단한 영양제로 뇌 기능 저하 역전'

손상된 신경 '재충전'해 만성 통증 완화하는 기술 개발

이번 주 뇌리에 강렬한 자극을 선사할 프라임 비디오 심리 스릴러 추천작 6선