Pixel에서 frozen Multi-Token Prediction을 통해 Gemini Nano 모델 가속화

Google은 Pixel 9 및 10 시리즈에서 Gemini Nano v3 모델에 Multi-Token Prediction(MTP)을 적용해 온디바이스 추론 속도를 크게 향상시켰다. 이 방법은 별도의 드래프터 모델 없이 기존 모델을 개조하여 AI 알림 요약 및 맞춤법 검사 기능의 속도와 에너지 효율을 개선한다.

AI 요약

Google이 Pixel 9 및 10 시리즈에 적용된 새로운 아키텍처를 통해 Gemini Nano v3 모델의 온디바이스 추론 속도를 획기적으로 개선하는 방법을 발표했다. 기존의 추측 디코딩(Speculative Decoding) 방식의 비효율성을 해결하기 위해, 사전 학습된(frozen) 모델에 Multi-Token Prediction(MTP)을 개조(retrofit)하는 방식을 도입했다. 이를 통해 AI 알림 요약, 맞춤법 검사 등의 기능이 더 빠르고 적은 에너지로 동작하게 되었다.

핵심 포인트

  • 기술: 사전 학습된(frozen) Gemini Nano v3 모델에 Multi-Token Prediction(MTP)을 개조(retrofit)하는 새로운 아키텍처
  • 적용 기기: Pixel 9 및 10 시리즈에 최근 출시
  • 기반 기술: EAGLE 프레임워크 및 Confident Adaptive Language Modeling(CALM) 접근법 활용
  • 효과: AI 알림 요약 및 맞춤법 검사 기능의 텍스트 생성 속도 향상 및 에너지 소비 감소

향후 전망

  • 별도의 메모리 집약적 드래프팅 모델 없이도 고속 온디바이스 AI를 구현할 수 있어, 모바일 AI 애플리케이션 개발의 주요 장벽이 제거될 전망
  • 엣지 컴퓨팅 환경에서의 LLM 효율성 개선이 다양한 모바일 기기로 확대 적용될 가능성
Share

이것도 읽어보세요

댓글

이 소식에 대한 의견을 자유롭게 남겨주세요.

댓글 (0)

불러오는 중...