AI 요약
구글 딥마인드(Google DeepMind)는 Gemma 4 모델 출시 2달 만에 모바일과 노트북 등 저사양 에지 기기에서 로컬로 원활하게 작동할 수 있도록 최적화된 양자화 인식 훈련(QAT) 체크포인트를 발표했습니다. 이는 최근 공개된 추론 가속용 멀티토큰 예측(MTP) 기술과 12B 모델(E4B와 26B MOE 간극 조정용) 출시에 이은 성능 고도화 조치입니다. 압축 시 발생하는 모델 성능 저하 문제를 해결하기 위해, QAT 기술은 학습 과정 자체에 양자화 시뮬레이션을 통합하여 품질 손실을 최소화했습니다. 특히 이번 배포에는 범용적인 Q4_0 포맷 외에도 모바일 하드웨어에 최적화된 새로운 양자화 스키마가 포함되어 Gemma 4 E2B 모델의 메모리 요구량을 단 1GB까지 감소시켰습니다.
핵심 인사이트
- 공동 발표자 및 출시일: 2026년 6월 5일, 구글 딥마인드의 제품 관리 디렉터 올리비에 라콤(Olivier Lacombe)과 기술 스태프 오마르 산세비에로(Omar Sanseviero)가 공동으로 발표했습니다.
- 초경량 메모리 규격 실현: 에지 모델인 Gemma 4 E2B 모델에 특화된 모바일 전용 압축 포맷을 적용하여 기기 내 필요 메모리 공간을 1GB 수준으로 축소했습니다.
- QAT 기술을 통한 품질 유지: 사후 양자화(PTQ)를 적용했을 때 나타나는 하락 현상과 달리, 학습 단계에 압축 기술을 통합하여 모델의 성능 손실을 방지하고 높은 추론 품질을 지켜냈습니다.
주요 디테일
- 지속적인 제품 고도화: Gemma 4 출시 이후 지난 2개월 동안 멀티토큰 예측(MTP) 기술 및 12B 신규 모델 추가에 이어, 이번 QAT 지원을 통해 에지 최적화의 정점을 구축했습니다.
- 이중 최적화 포맷 지원: 대중적인 성능 중심의 Q4_0 포맷 및 에지 모델(E2B, E4B)에 초점을 맞춘 독자적인 모바일 특화 양자화 스키마를 함께 제공합니다.
- 정적 활성화(Static activations) 기법: 런타임 실행 중 기기가 온더플라이로 스케일링 연산을 수행하는 부하를 방지하기 위해 학습 시 설정을 사전 계산하여 탑재함으로써 모바일 프로세서의 응답 속도를 향상했습니다.
- 소비자용 GPU 대응: 개인용 저사양 GPU와 일반 에지 하드웨어 환경에서도 원활하게 로컬 AI 서비스를 실행할 수 있도록 진입 장벽을 크게 낮추었습니다.
향후 전망
- 실시간 로컬 AI 구동 보편화: 스마트폰이나 일반 노트북처럼 VRAM 및 가용 메모리가 제한된 환경에서도 1GB급 초경량 고성능 모델의 자유로운 로컬 실행이 활성화될 것입니다.
- 양자화 최적화의 패러다임 변화: 모델 완성 후 압축하던 PTQ에서 한 단계 진화하여, 개발 단계에서부터 압축을 고려해 설계하는 QAT 방식의 도입이 업계 표준으로 빠르게 자리 잡을 것으로 예상됩니다.
