AI 요약
Google이 Pixel 9 및 10 시리즈에 적용된 새로운 아키텍처를 통해 Gemini Nano v3 모델의 온디바이스 추론 속도를 획기적으로 개선하는 방법을 발표했다. 기존의 추측 디코딩(Speculative Decoding) 방식의 비효율성을 해결하기 위해, 사전 학습된(frozen) 모델에 Multi-Token Prediction(MTP)을 개조(retrofit)하는 방식을 도입했다. 이를 통해 AI 알림 요약, 맞춤법 검사 등의 기능이 더 빠르고 적은 에너지로 동작하게 되었다.
핵심 포인트
- 기술: 사전 학습된(frozen) Gemini Nano v3 모델에 Multi-Token Prediction(MTP)을 개조(retrofit)하는 새로운 아키텍처
- 적용 기기: Pixel 9 및 10 시리즈에 최근 출시
- 기반 기술: EAGLE 프레임워크 및 Confident Adaptive Language Modeling(CALM) 접근법 활용
- 효과: AI 알림 요약 및 맞춤법 검사 기능의 텍스트 생성 속도 향상 및 에너지 소비 감소
향후 전망
- 별도의 메모리 집약적 드래프팅 모델 없이도 고속 온디바이스 AI를 구현할 수 있어, 모바일 AI 애플리케이션 개발의 주요 장벽이 제거될 전망
- 엣지 컴퓨팅 환경에서의 LLM 효율성 개선이 다양한 모바일 기기로 확대 적용될 가능성
