LM Studio의 신규 헤드리스 CLI와 Claude Code를 활용한 Gemma 4 로컬 실행 가이드

AI 요약

구글이 새롭게 발표한 Gemma 4 모델 제품군을 LM Studio 0.4.0의 'lms' CLI 및 'llmster'를 통해 로컬 환경에서 실행하는 방법과 그 성능 분석이 공개되었습니다. 이번 테스트는 48GB 통합 메모리를 탑재한 MacBook Pro M4 Pro 하드웨어를 기반으로 진행되었으며, 특히 Mixture-of-Experts(MoE) 구조를 가진 26B-A4B 모델의 효율성에 주목했습니다. 로컬 실행은 클라우드 API 대비 제로 비용, 데이터 프라이버시 보호, 네트워크 지연 없는 가용성이라는 확실한 장점을 제공합니다. Gemma 4 26B-A4B는 실제 추론 시 3.8B의 파라미터만 활성화하여 저사양 하드웨어에서도 원활하게 작동하면서도, 벤치마크 결과 대형 모델에 육박하는 지능을 보여주었습니다. 이는 로컬 AI가 단순한 실험 단계를 넘어 Claude Code와 같은 실무 도구와 결합하여 충분한 생산성을 낼 수 있음을 시사합니다.

핵심 인사이트

LM Studio 0.4.0 업데이트: 신규 CLI 도구인 'lms'와 'llmster'를 도입하여 터미널 환경에서 모델을 관리하고 Claude Code와 같은 외부 도구와 쉽게 연동할 수 있게 되었습니다.
MoE 아키텍처의 효율성: Gemma 4 26B-A4B 모델은 128개의 전문가(Experts) 중 토큰당 8개(3.8B 파라미터)만 활성화하여 4B 모델 수준의 추론 비용으로 고성능을 구현했습니다.
벤치마크 성능: 26B-A4B 모델은 MMLU Pro에서 82.6%, AIME 2026에서 88.3%를 기록하여, 31B Dense 모델(각각 85.2%, 89.2%)에 근접하는 성과를 냈습니다.
하드웨어 최적화: M4 Pro 칩셋 환경에서 초당 51토큰(tokens per second)의 생성 속도를 기록하며 로컬 환경에서의 실용성을 증명했습니다.

주요 디테일

모델 라인업: Gemma 4는 온디바이스용 'E' 모델(E2B, E4B), 26B-A4B MoE 모델, 그리고 가장 강력한 31B Dense 모델의 4종으로 구성됩니다.
오디오 지원: 라인업 중 E2B와 E4B 모델은 Per-Layer Embeddings를 사용하여 음성 인식 및 번역 등 오디오 입력을 지원하는 유일한 변체입니다.
Elo 점수 비교: Gemma 4 26B-A4B의 Elo 점수는 약 1441점으로, 수백억에서 수천억 개의 파라미터를 가진 Qwen 3.5(397B), GLM-5, Kimi-K2.5 등과 대등한 수준입니다.
로컬 실행의 가치: 사용자는 API 호출 제한이나 데이터 유출 걱정 없이 로컬 하드웨어 자원만으로 코드 리뷰, 초안 작성 등의 작업을 수행할 수 있습니다.
연동성: Claude Code와 같은 도구에서 별칭(Alias) 명령어를 설정하여 로컬에서 실행 중인 Gemma 4 API를 호출하는 워크플로우를 구축했습니다.

향후 전망

로컬 AI의 고도화: 적은 활성 파라미터로 높은 지능을 구현하는 MoE 모델의 발전으로 인해 고성능 워크스테이션 없이도 로컬에서 정교한 AI 에이전트 운용이 가능해질 것입니다.
개발 도구와의 통합: LM Studio의 CLI 강화와 같은 추세는 터미널 기반 개발 도구와 로컬 LLM 간의 결합을 더욱 가속화할 것으로 보입니다.

원문:https://ai.georgeliu.com/p/running-google-gemma-4-locally-with

출처:hackernews

LM Studio의 신규 헤드리스 CLI와 Claude Code를 활용한 Gemma 4 로컬 실행 가이드

AI 요약

핵심 인사이트

주요 디테일

향후 전망

이것도 읽어보세요

하버드 연구진, 장내 미생물과 우울증 사이의 숨겨진 염증 연결 고리 발견

초기 우주의 중력파가 암흑 물질을 생성했을 가능성 제기

양자 통신의 패러다임을 바꿀 차세대 ‘광학 토네이도’ 기술 개발

“선사시대 거대 곤충, 생존에 고농도 산소 필수적이지 않았다” - 최신 연구 결과