브라우저에서 실행되는 미스트랄 Voxtral Mini 4B 리얼타임 모델의 Rust 구현체 공개

Mistral의 Voxtral Mini 4B 실시간 모델을 Rust와 Burn ML 프레임워크로 구현한 오픈소스 프로젝트로, WASM과 WebGPU를 통해 브라우저에서 직접 실행이 가능합니다.

AI 요약

Mistral의 Voxtral Mini 4B 실시간 음성 인식 모델을 순수 Rust로 구현한 'Voxtral-mini-realtime-rs'가 공개되었습니다. Burn ML 프레임워크를 기반으로 구축되었으며, WASM과 WebGPU 기술을 활용하여 별도의 서버 없이 웹 브라우저 탭 내에서 직접 실행할 수 있는 것이 특징입니다. Q4 GGUF 양자화 기술을 적용하여 2.5GB 수준의 경량화된 모델로 클라이언트 측에서 효율적인 실시간 음성 전사를 지원합니다.

핵심 인사이트

  • 완전한 클라이언트 측 실행: WebGPU와 WASM을 결합하여 고성능 AI 모델을 브라우저 환경에서 네이티브에 가까운 속도로 구동할 수 있음을 보여줍니다.
  • 효율적인 양자화: GGUF Q4 양자화를 통해 모델 크기를 9GB에서 2.5GB로 70% 이상 줄여 일반적인 사용자 환경에서도 실행 가능한 수준으로 최적화했습니다.

주요 디테일

  • 기술 스택: Rust 언어와 Burn ML 프레임워크를 사용하였으며, 브라우저 가속을 위해 커스텀 WGSL 셰이더를 구현했습니다.
  • 아키텍처: 16kHz 오디오 입력을 Mel 스펙트로그램으로 변환 후, 32레이어의 인코더와 26레이어의 오토레그레시브 디코더를 거쳐 텍스트를 생성합니다.
  • 다양한 추론 경로: 고성능 처리를 위한 네이티브 CLI 환경(SafeTensors)과 범용성을 위한 브라우저 환경(GGUF)을 모두 지원합니다.
  • 보안 및 접근성: WebGPU 실행을 위한 보안 컨텍스트 설정을 포함하며, HuggingFace Spaces를 통한 실시간 데모도 제공합니다.
Share

이것도 읽어보세요

댓글

이 소식에 대한 의견을 자유롭게 남겨주세요.

댓글 (0)

불러오는 중...