제임소브가 알려주는 '최고 성능 LLM' 내 PC에서 돌리는 법

AI 요약

제임소브(Jamesob)가 최신 SOTA LLM을 로컬에서 실행하는 하드웨어 구성 가이드를 공개했다. 약 $2,000 예산으로 2x RTX 3090(48GB VRAM)을 사용해 Qwen3.6-27B와 음성-텍스트(STT) 모델을 실행할 수 있으며, $40,000 예산으로 4x RTX PRO 6000(384GB VRAM)과 PCIe4 스위치를 활용해 거의 Opus급 성능에 근접한다. EPYC CPU와 eBay DDR4 메모리로 베이스 시스템 비용을 절감하고, c-payne PCIe 스위치로 GPU 간 P2P 통신을 최적화했다.

핵심 포인트

$2,000 예산: 2x RTX 3090(48GB VRAM) + Qwen3.6-27B + whisper-large-v3 STT
$40,000 예산: 4x RTX PRO 6000(384GB VRAM) + EPYC CPU + DDR4 시스템
c-payne.com의 PCIe4 스위치로 GPU 간 직접 P2P 통신 구현 (27.5/50.4 GB/s, 서브-마이크로초 레이턴시)
vLLM 도커 컴포즈로 GLM-5.2-594B 모델 약 80 tokens/s 속도로 실행

향후 전망

로컬 LLM 구축 비용이 지속적으로 하락하면서 개인 및 중소기업의 자체 AI 인프라 구축 증가 예상
PCIe5/DDR5 하드웨어 가격 안정화 시 더 높은 성능의 로컬 LLM 환경 보편화 가능

원문:https://github.com/jamesob/local-llm

출처:Hacker News

제임소브가 알려주는 '최고 성능 LLM' 내 PC에서 돌리는 법

AI 요약

핵심 포인트

향후 전망

이것도 읽어보세요

땅벌, 고전적 지능 테스트 통과…과학자들 '충격

양자역학의 역주행"…과학자들, 시간 거꾸로 흐르게 하는 데 성공

LIGO서 포착한 수수께끼 신호… 암흑물질의 ‘잃어버린 고리’ 찾을까

과학자들, 지방 태우고 새 지방세포 생성을 막는 '단백질 스위치' 발견