Pixel에서 frozen Multi-Token Prediction을 통해 Gemini Nano 모델 가속화

AI 요약

Google이 Pixel 9 및 10 시리즈에 적용된 새로운 아키텍처를 통해 Gemini Nano v3 모델의 온디바이스 추론 속도를 획기적으로 개선하는 방법을 발표했다. 기존의 추측 디코딩(Speculative Decoding) 방식의 비효율성을 해결하기 위해, 사전 학습된(frozen) 모델에 Multi-Token Prediction(MTP)을 개조(retrofit)하는 방식을 도입했다. 이를 통해 AI 알림 요약, 맞춤법 검사 등의 기능이 더 빠르고 적은 에너지로 동작하게 되었다.

핵심 포인트

기술: 사전 학습된(frozen) Gemini Nano v3 모델에 Multi-Token Prediction(MTP)을 개조(retrofit)하는 새로운 아키텍처
적용 기기: Pixel 9 및 10 시리즈에 최근 출시
기반 기술: EAGLE 프레임워크 및 Confident Adaptive Language Modeling(CALM) 접근법 활용
효과: AI 알림 요약 및 맞춤법 검사 기능의 텍스트 생성 속도 향상 및 에너지 소비 감소

향후 전망

별도의 메모리 집약적 드래프팅 모델 없이도 고속 온디바이스 AI를 구현할 수 있어, 모바일 AI 애플리케이션 개발의 주요 장벽이 제거될 전망
엣지 컴퓨팅 환경에서의 LLM 효율성 개선이 다양한 모바일 기기로 확대 적용될 가능성

원문:https://research.google/blog/accelerating-gemini-nano-models-on-pixel-with-frozen-multi-token-prediction/

출처:google_research

Pixel에서 frozen Multi-Token Prediction을 통해 Gemini Nano 모델 가속화

AI 요약

핵심 포인트

향후 전망

이것도 읽어보세요

하와이, 해양 플라스틱과 폐어망을 도로로 재활용하다

제임스 웹, 신비로운 분홍색 세계에서 이국적인 소금 구름 발견

새로운 비타민 B12 치료법, 치명적 뇌암에 효과 기대

대규모 연구, 청소년 마리화나 사용이 심각한 정신 질환 위험을 두 배로 높인다는 연관성 발견