Gemma 4 로컬 환경 실행 방법 가이드 | Unsloth Documentation

AI 요약

Google DeepMind의 새로운 오픈 모델군인 Gemma 4는 스마트폰부터 고성능 워크스테이션까지 다양한 로컬 환경에서 실행할 수 있도록 설계되었습니다. 이 모델은 E2B, E4B, 26B-A4B, 31B의 네 가지 변체로 제공되며, Apache-2.0 라이선스를 채택하여 접근성을 높였습니다. Gemma 4는 '멀티모달 하이브리드 사고 모델'로서 텍스트뿐만 아니라 이미지와 음성(E2B, E4B 한정)을 처리할 수 있으며, 최대 256K에 달하는 방대한 컨텍스트 윈도우를 지원하는 것이 특징입니다. 특히 Unsloth Studio를 통해 GGUF 형식의 로컬 실행 및 파인튜닝이 가능해져 개인 개발자들의 활용도가 높을 것으로 기대됩니다. 또한 전용 '사고 모드(Thinking Mode)'를 도입하여 추론 과정을 가시화하거나 제어할 수 있는 기능을 제공합니다.

핵심 인사이트

모델 라인업 구성: 초경량 모델인 E2B(2B급)부터 고성능 31B 모델까지 4종으로 구성되었으며, 26B-A4B 모델은 4B의 활성 파라미터를 가진 MoE(Mixture of Experts) 설계를 채택했습니다.
최상위 벤치마크 성능: 31B 모델 기준 MMLU Pro 85.2%, AIME 2026 89.2%, LiveCodeBench v6 80.0% 등 업계 최고 수준의 성능 수치를 기록했습니다.
하드웨어 최적화: E2B 모델은 4-bit 양자화 시 4GB RAM만으로 구동 가능하여 스마트폰이나 에지 기기에 적합하며, 31B 모델은 8-bit 구동 시 약 34~38GB의 통합 메모리가 권장됩니다.
확장된 컨텍스트 지원: 소형 모델(E2B/E4B)은 128K, 대형 모델(26B-A4B/31B)은 최대 256K의 긴 문맥을 처리할 수 있습니다.

주요 디테일

멀티모달 기능 차이: 소형 모델(E2B, E4B)은 텍스트, 이미지, 음성을 모두 지원하며, 대형 모델(26B-A4B, 31B)은 텍스트와 이미지 위주로 지원합니다.
사고 모드(Thinking Mode): 시스템 프롬프트에 <|think|> 토큰을 추가하여 모델의 내부 추론 과정을 출력할 수 있으며, --chat-template-kwargs 설정을 통해 활성화 여부를 제어합니다.
권장 추론 설정: Google의 기본 파라미터인 Temperature 1.0, top_p 0.95, top_k 64 설정을 권장하며, 문말 토큰(EOS)으로 <turn|>을 사용합니다.
효율적인 메모리 관리: 26B-A4B 모델은 MoE 구조 덕분에 31B 모델보다 빠르면서도 높은 품질을 유지하여 속도와 정확도의 최적 균형을 제공합니다.
로컬 실행 가이드: MacOS(MLX), NVIDIA RTX GPU 환경에서 GGUF 파일 형식을 통해 실행 가능하며, 초기 응답성 확보를 위해 32K 컨텍스트로 시작하는 것이 권장됩니다.

향후 전망

로컬 AI 생태계 확장: 낮은 진입 장벽(Apache-2.0 라이선스 및 저사양 지원)을 바탕으로 개인용 스마트폰과 노트북에서의 온디바이스 AI 활용이 가속화될 전망입니다.
에이전트 워크플로우 강화: 긴 컨텍스트 지원과 도구 사용(Tool Use) 능력을 바탕으로 복잡한 에이전트 및 장문 분석 작업에서의 활용이 늘어날 것으로 보입니다.

원문:https://unsloth.ai/docs/jp/moderu/gemma-4

출처:Unsloth Documentation

Gemma 4 로컬 환경 실행 방법 가이드 | Unsloth Documentation

AI 요약

핵심 인사이트

주요 디테일

향후 전망

이것도 읽어보세요

하버드 연구진, 장내 미생물과 우울증 사이의 숨겨진 염증 연결 고리 발견

초기 우주의 중력파가 암흑 물질을 생성했을 가능성 제기

양자 통신의 패러다임을 바꿀 차세대 ‘광학 토네이도’ 기술 개발

“선사시대 거대 곤충, 생존에 고농도 산소 필수적이지 않았다” - 최신 연구 결과