제임소브가 알려주는 '최고 성능 LLM' 내 PC에서 돌리는 법

약 $2k 예산으로 2x RTX 3090(48GB VRAM)을 사용해 Qwen3.6-27B와 whisper-large-v3 STT를 로컬에서 실행할 수 있으며, $40k 예산으로 4x RTX PRO 6000(384GB VRAM)과 PCIe4 스위치를 활용해 GLM-5.2-594B를 약 80 tokens/s 속도로 구동할 수 있습니다.

AI 요약

제임소브(Jamesob)가 최신 SOTA LLM을 로컬에서 실행하는 하드웨어 구성 가이드를 공개했다. 약 $2,000 예산으로 2x RTX 3090(48GB VRAM)을 사용해 Qwen3.6-27B와 음성-텍스트(STT) 모델을 실행할 수 있으며, $40,000 예산으로 4x RTX PRO 6000(384GB VRAM)과 PCIe4 스위치를 활용해 거의 Opus급 성능에 근접한다. EPYC CPU와 eBay DDR4 메모리로 베이스 시스템 비용을 절감하고, c-payne PCIe 스위치로 GPU 간 P2P 통신을 최적화했다.

핵심 포인트

  • $2,000 예산: 2x RTX 3090(48GB VRAM) + Qwen3.6-27B + whisper-large-v3 STT
  • $40,000 예산: 4x RTX PRO 6000(384GB VRAM) + EPYC CPU + DDR4 시스템
  • c-payne.com의 PCIe4 스위치로 GPU 간 직접 P2P 통신 구현 (27.5/50.4 GB/s, 서브-마이크로초 레이턴시)
  • vLLM 도커 컴포즈로 GLM-5.2-594B 모델 약 80 tokens/s 속도로 실행

향후 전망

  • 로컬 LLM 구축 비용이 지속적으로 하락하면서 개인 및 중소기업의 자체 AI 인프라 구축 증가 예상
  • PCIe5/DDR5 하드웨어 가격 안정화 시 더 높은 성능의 로컬 LLM 환경 보편화 가능
출처:Hacker News
Share

이것도 읽어보세요

댓글

이 소식에 대한 의견을 자유롭게 남겨주세요.

댓글 (0)

불러오는 중...