RTX 3090 환경에서 Qwen3.5-27B 모델로 초당 207토큰 달성

Luce-Org가 RTX 3090 GPU 환경에서 Qwen3.5-27B 모델을 최적화하여 초당 최대 207.6토큰(tok/s)의 추론 속도를 달성했습니다. 하드웨어 교체 없이 커스텀 커널과 투기적 디코딩 기술을 재작성하여 24GB VRAM 내에서 128K 컨텍스트 지원 및 기존 방식 대비 최대 5.46배의 성능 향상을 이끌어냈습니다.

AI 요약

오픈 소스 LLM 추론 가속화 프로젝트인 Lucebox-hub는 특정 하드웨어에 최적화된 소프트웨어 재작성을 통해 AI 성능의 한계를 돌파하는 성과를 공개했습니다. 이번 프로젝트는 RTX 3090 GPU를 대상으로 Qwen3.5 모델군에 커스텀 메가커널(Megakernel)과 DFlash 투기적 디코딩(Speculative Decoding) 기술을 적용했습니다. 그 결과, Qwen3.5-0.8B 모델에서는 1.87 tok/J의 전력 효율을 기록하며 애플의 최신 실리콘과 대등한 효율성 및 2배의 처리량을 확보했습니다. 또한, Qwen3.5-27B 모델은 단일 RTX 3090의 24GB 메모리 제약 내에서 Q4_K_M 양자화 모델과 BF16 드래프트 모델을 결합하여 구동하는 데 성공했습니다. 이는 단순한 벤치마크 수치 향상을 넘어, 하드웨어의 성능을 극한으로 끌어올리는 소프트웨어 엔지니어링의 중요성을 입증한 사례로 평가받습니다.

핵심 인사이트

  • 극강의 성능 향상: RTX 3090에서 Qwen3.5-27B 모델로 초당 최대 207.6토큰을 달성하며, 기존 자동 회귀(AR) 방식(38.0 tok/s) 대비 5.46배 빠른 속도를 기록함.
  • 전력 효율 혁신: Qwen3.5-0.8B 모델에 적용된 메가커널 기술은 1.87 tok/J의 효율을 보이며, 2020년 출시된 GPU로 최신 애플 실리콘 급의 전성비를 구현함.
  • 메모리 최적화: 24GB VRAM 내에 16GB 크기의 Q4_K_M 타겟 모델과 3.46GB의 BF16 드래프트 모델을 동시에 올려 128K 컨텍스트(134.78 tok/s)를 유지함.

주요 디테일

  • Megakernel 기술: 24개의 모든 레이어를 단일 CUDA 디스패치로 처리하여 레이어 간 CPU 라운드트립을 제거하고, 토큰당 약 100회 발생하던 커널 런치를 1회로 단축함.
  • DFlash DDtree 도입: GGUF 포맷 최초의 DFlash 투기적 디코딩 이식으로, HumanEval 벤치마크 기준 평균 129.5 tok/s를 기록해 SGLang AWQ보다 2.8배 빠른 성능을 보임.
  • 벤치마크 결과: Math500에서 110.5 tok/s(2.93배), GSM8K에서 96.2 tok/s(2.55배)의 속도 향상을 입증함.
  • 하드웨어 제어: 전력 한계(220W~350W)와 연산 한계를 고려한 동적 전압/주파수 조절(DVFS)을 통해 실행 효율을 극대화함.
  • 기술 스택: Python 3.10+, CUDA 12+, PyTorch 2.0+ 환경에서 구동되며 HuggingFace로부터 직접 가중치를 스트리밍하여 실행 가능함.

향후 전망

  • 소비자용 하드웨어 수명 연장: RTX 3090과 같은 구형 소비자용 플래그십 GPU에서도 최신 고사양 LLM을 고속으로 구동할 수 있는 기술적 토대가 마련됨.
  • 커스텀 커널 중심의 발전: 범용 추론 엔진보다 특정 칩셋에 특화된 전용 커널 개발이 온디바이스 AI 및 소규모 서버 환경의 핵심 트렌드가 될 것으로 전망됨.
Share

이것도 읽어보세요

댓글

이 소식에 대한 의견을 자유롭게 남겨주세요.

댓글 (0)

불러오는 중...