RTX 5080 및 RTX 3090 조합: Qwen 3.6 27B Q8 모델에서 초당 80토큰(Tok/s) 달성

2026년 한 IT 블로거가 신형 RTX 5080(16GB)과 재생품 RTX 3090(24GB)을 Asus Prime X570-Pro 메인보드에 혼합 장착하여 Qwen 3.6 27B Q8 모델에서 초당 80토큰(Tok/s) 이상의 고성능 로컬 LLM 추론 환경을 구축한 상세 설정 프로세스를 공개했습니다.

AI 요약

로컬 AI 실험과 게이밍을 위해 RTX 5080(16GB)을 보유하고 있던 필자는 Qwen 3.5, Gemma, Qwen 3.6 등 최신 대형 언어 모델 구동에 필요한 VRAM 부족 문제를 해결하기 위해 24GB VRAM을 탑재한 재생(Refurbished) RTX 3090을 추가로 영입했습니다. 이종 GPU의 메모리와 대역폭을 모두 활용하기 위해 PCIe x16 슬롯을 2x8 구조로 분할할 수 있는 'Asus Prime X570-Pro' 메인보드와 PCIe 4 라이저 카드를 도입하여 물리적 구성을 완성했습니다. 운영체제 구동 시 BIOS/MBR 부팅 방식을 배제하고 UEFI 환경에서 CSM 비활성화, Above 4G Decoding 활성화, ReSize BAR 설정을 완료해야만 정상적인 멀티 GPU 구동이 가능했습니다. 세대가 다르고 기종이 다른 GPU 구성 특성상 P2P(Peer-to-Peer) 전용 패치 드라이버 대신 일반 nvidia-open 드라이버를 설치하여 두 카드를 연동시켰습니다. 최종적으로 Nvidia 드라이버 버전 610.43.02 및 CUDA UMD 13.3 환경 하에서 Qwen 3.6 27B Q8 양자화 모델을 초당 80토큰(80+ Tok/s)이라는 뛰어난 속도로 안정적으로 실행하는 데 성공했습니다.

핵심 인사이트

  • 이종 GPU 혼합 환경 구축: 16GB의 RTX 5080과 24GB의 RTX 3090을 조합하여 하이엔드 단일 카드 구매 대비 가성비 높은 고용량 VRAM 환경을 구현했습니다.
  • 초당 80토큰(80+ Tok/s) 달성: 이전 단일 GPU 구동 시의 30 Tok/s, MTP 적용 시의 50~60 Tok/s 한계를 극복하고 Qwen 3.6 27B Q8 모델에서 대폭 향상된 속도를 기록했습니다.
  • Asus Prime X570-Pro의 핵심 역할: 두 카드가 PCIe 대역폭을 고르게 나누어 쓸 수 있도록 16배속 슬롯을 2개의 8배속(2x8)으로 분할 지원하는 메인보드의 활용이 필수적이었습니다.
  • 2026년 최신 시스템 사양 확인: 본 구성은 2026년 6월 13일 기준, Nvidia 드라이버 610.43.02 및 CUDA 13.3 최신 버전 인프라를 바탕으로 실증되었습니다.

주요 디테일

  • BIOS 설정의 필수 조건: 안정적인 멀티 GPU 동작을 위해 CSM(Compatibility Support Module)은 반드시 'Disabled'로, Above 4G Decoding은 'Enabled'로, ReSize BAR Support는 'Auto' 또는 'Enabled'로 수동 설정해야 합니다.
  • OS 부팅 방식 제약: 레거시 BIOS/MBR 모드로 OS를 부팅하는 경우 두 개의 카드가 동시에 인식되지 않으며 불필요한 커널 파라미터 트릭을 써야 하므로 반드시 UEFI 모드를 사용해야 합니다.
  • 하드웨어 간섭 극복: 물리적 크기가 매우 거대한 RTX 5080을 장착하기 위해 고품질의 PCIe 4 라이저 케이블(Riser)을 사용하여 두 번째 슬롯에 카드를 고정했습니다.
  • 드라이버 선택 요령: 동일 GPU 조합 시에는 패치된 open-gpu-kernel-modules를 빌드하여 P2P 통신을 직접 활성화할 수 있으나, 이종 GPU 조합에서는 범용 nvidia-open 드라이버를 사용하는 것이 안정적입니다.
  • 시스템 링크 속도 극대화: 최적의 데이터 병렬 처리를 위해 BIOS 상에서 'PCIEX16_1 Link Mode' 및 'PCIEX16_2 Link Mode'를 모두 'Gen 4'로 지정해 주었습니다.

향후 전망

  • 소비자 중심 하이브리드 LLM 구축 확산: 신형 고성능 그래픽카드와 구형 고용량 그래픽카드(예: 3090 중고)를 혼합하여 비용을 최소화하면서 대형 로컬 AI 모델을 구동하는 DIY 워크스테이션 트렌드가 활성화될 것입니다.
  • 소프트웨어적 P2P 연결 최적화 필요성: 서로 다른 세대의 GPU 간 하드웨어 다이렉트 통신(P2P) 효율을 극대화하기 위한 오픈소스 드라이버 및 런타임 프레임워크 최적화 연구가 이어질 것으로 보입니다.
Share

이것도 읽어보세요

댓글

이 소식에 대한 의견을 자유롭게 남겨주세요.

댓글 (0)

불러오는 중...