AI 요약
제임소브(Jamesob)가 최신 SOTA LLM을 로컬에서 실행하는 하드웨어 구성 가이드를 공개했다. 약 $2,000 예산으로 2x RTX 3090(48GB VRAM)을 사용해 Qwen3.6-27B와 음성-텍스트(STT) 모델을 실행할 수 있으며, $40,000 예산으로 4x RTX PRO 6000(384GB VRAM)과 PCIe4 스위치를 활용해 거의 Opus급 성능에 근접한다. EPYC CPU와 eBay DDR4 메모리로 베이스 시스템 비용을 절감하고, c-payne PCIe 스위치로 GPU 간 P2P 통신을 최적화했다.
핵심 포인트
- $2,000 예산: 2x RTX 3090(48GB VRAM) + Qwen3.6-27B + whisper-large-v3 STT
- $40,000 예산: 4x RTX PRO 6000(384GB VRAM) + EPYC CPU + DDR4 시스템
- c-payne.com의 PCIe4 스위치로 GPU 간 직접 P2P 통신 구현 (27.5/50.4 GB/s, 서브-마이크로초 레이턴시)
- vLLM 도커 컴포즈로 GLM-5.2-594B 모델 약 80 tokens/s 속도로 실행
향후 전망
- 로컬 LLM 구축 비용이 지속적으로 하락하면서 개인 및 중소기업의 자체 AI 인프라 구축 증가 예상
- PCIe5/DDR5 하드웨어 가격 안정화 시 더 높은 성능의 로컬 LLM 환경 보편화 가능
출처:Hacker News
