Gemma 4 로컬 환경 실행 방법 가이드 | Unsloth Documentation

Google DeepMind가 공개한 Gemma 4는 E2B부터 31B까지 총 4가지 모델로 구성된 오픈 모델군으로, 최대 256K 컨텍스트와 140개 이상의 언어를 지원합니다. 특히 최상위 모델인 31B는 MMLU Pro 85.2%, AIME 2026 89.2%라는 높은 벤치마크 성능을 기록하며 로컬 기기에서도 고성능 추론이 가능함을 입증했습니다.

AI 요약

Google DeepMind의 새로운 오픈 모델군인 Gemma 4는 스마트폰부터 고성능 워크스테이션까지 다양한 로컬 환경에서 실행할 수 있도록 설계되었습니다. 이 모델은 E2B, E4B, 26B-A4B, 31B의 네 가지 변체로 제공되며, Apache-2.0 라이선스를 채택하여 접근성을 높였습니다. Gemma 4는 '멀티모달 하이브리드 사고 모델'로서 텍스트뿐만 아니라 이미지와 음성(E2B, E4B 한정)을 처리할 수 있으며, 최대 256K에 달하는 방대한 컨텍스트 윈도우를 지원하는 것이 특징입니다. 특히 Unsloth Studio를 통해 GGUF 형식의 로컬 실행 및 파인튜닝이 가능해져 개인 개발자들의 활용도가 높을 것으로 기대됩니다. 또한 전용 '사고 모드(Thinking Mode)'를 도입하여 추론 과정을 가시화하거나 제어할 수 있는 기능을 제공합니다.

핵심 인사이트

  • 모델 라인업 구성: 초경량 모델인 E2B(2B급)부터 고성능 31B 모델까지 4종으로 구성되었으며, 26B-A4B 모델은 4B의 활성 파라미터를 가진 MoE(Mixture of Experts) 설계를 채택했습니다.
  • 최상위 벤치마크 성능: 31B 모델 기준 MMLU Pro 85.2%, AIME 2026 89.2%, LiveCodeBench v6 80.0% 등 업계 최고 수준의 성능 수치를 기록했습니다.
  • 하드웨어 최적화: E2B 모델은 4-bit 양자화 시 4GB RAM만으로 구동 가능하여 스마트폰이나 에지 기기에 적합하며, 31B 모델은 8-bit 구동 시 약 34~38GB의 통합 메모리가 권장됩니다.
  • 확장된 컨텍스트 지원: 소형 모델(E2B/E4B)은 128K, 대형 모델(26B-A4B/31B)은 최대 256K의 긴 문맥을 처리할 수 있습니다.

주요 디테일

  • 멀티모달 기능 차이: 소형 모델(E2B, E4B)은 텍스트, 이미지, 음성을 모두 지원하며, 대형 모델(26B-A4B, 31B)은 텍스트와 이미지 위주로 지원합니다.
  • 사고 모드(Thinking Mode): 시스템 프롬프트에 <|think|> 토큰을 추가하여 모델의 내부 추론 과정을 출력할 수 있으며, --chat-template-kwargs 설정을 통해 활성화 여부를 제어합니다.
  • 권장 추론 설정: Google의 기본 파라미터인 Temperature 1.0, top_p 0.95, top_k 64 설정을 권장하며, 문말 토큰(EOS)으로 <turn|>을 사용합니다.
  • 효율적인 메모리 관리: 26B-A4B 모델은 MoE 구조 덕분에 31B 모델보다 빠르면서도 높은 품질을 유지하여 속도와 정확도의 최적 균형을 제공합니다.
  • 로컬 실행 가이드: MacOS(MLX), NVIDIA RTX GPU 환경에서 GGUF 파일 형식을 통해 실행 가능하며, 초기 응답성 확보를 위해 32K 컨텍스트로 시작하는 것이 권장됩니다.

향후 전망

  • 로컬 AI 생태계 확장: 낮은 진입 장벽(Apache-2.0 라이선스 및 저사양 지원)을 바탕으로 개인용 스마트폰과 노트북에서의 온디바이스 AI 활용이 가속화될 전망입니다.
  • 에이전트 워크플로우 강화: 긴 컨텍스트 지원과 도구 사용(Tool Use) 능력을 바탕으로 복잡한 에이전트 및 장문 분석 작업에서의 활용이 늘어날 것으로 보입니다.
출처:Unsloth Documentation
Share

이것도 읽어보세요

댓글

이 소식에 대한 의견을 자유롭게 남겨주세요.

댓글 (0)

불러오는 중...