AI 요약
AI 연구 분야가 '스타워즈'와 같다면, 거대 기업인 OpenAI가 '데스 스타'인 반면 오디오 AI 분야의 반란군들은 소규모 연구소에서 혁신을 주도하고 있습니다. 2020년 이후 텍스트 AI가 급성장하는 동안 오디오는 데이터 부족과 상대적으로 낮은 관심도로 인해 발전이 더뎠으나, 최근 'Gradium'과 'Kyutai' 같은 스타트업들이 이를 뒤집고 있습니다. 특히 Kyutai의 연구원 닐(Neil)은 2024년 여름 파리 무대에서 실시간으로 대화하고 스타일과 음량을 조절하며 프랑스 억양으로 시를 읊는 AI 모델 'Moshi'를 선보였습니다. 이 모델은 자금과 인력이 부족한 비영리 단체 환경에서 단 4명의 팀원이 6개월 만에 바닥부터 구축해낸 결과물로, 대형 연구소의 폐쇄적인 모델들과 달리 오픈 소스로 공개되어 모바일 기기에서도 구동이 가능하다는 기술적 우위를 점하고 있습니다.
핵심 인사이트
- 소수 정예의 성과: Kyutai 산하 Gradium 팀의 단 4명의 연구원이 사전 학습된 베이스 모델 없이 6개월 만에 'Moshi'를 개발했습니다.
- 실시간 상호작용: 2024년 여름 파리 시연에서 Moshi는 지연 없는 실시간 대화, 음성 스타일 및 볼륨 변경, 특정 억양(프랑스식) 재현 능력을 입증했습니다.
- 데이터의 희소성: 텍스트 AI가 위키피디아 등에서 수조 개의 토큰을 얻는 것과 달리, 고품질 대화형 오디오 데이터는 확보가 매우 어려운 기술적 장벽이 존재합니다.
- 오픈 소스 및 효율성: 대형 연구소의 모델들과 달리 Moshi는 오픈 소스로 공개되었으며, 모바일 환경에서도 실행될 만큼 효율적으로 설계되었습니다.
주요 디테일
- AI 계층 구조의 변화: 과거 AI 연구에서 오디오는 이미지 분류(CNN)나 텍스트에 비해 '덜 매력적인' 분야로 취급받으며 하위 계층에 머물러 있었습니다.
- 기존 서비스와의 격차: 작성자는 오늘 아침 시리(Siri)에게 시간을 묻는 데 5초가 걸렸다는 점을 언급하며, 기존 대기업 서비스와 신생 오디오 AI의 성능 차이를 강조했습니다.
- 스타워즈 비유: 보고서는 OpenAI를 거대한 '데스 스타'로, Gradium과 같은 스타트업을 적은 자본으로 혁신을 일으키는 '반란군'으로 묘사합니다.
- 기술적 독자성: Moshi는 기존의 대규모 언어 모델을 튜닝한 것이 아니라, 완전히 처음부터(scratch) 오디오 전용으로 구축된 모델입니다.
- 비영리적 배경: 이 혁신은 막대한 자본력을 가진 빅테크가 아닌, 자금이 극히 제한된 비영리 단체 소속 팀에서 시작되었습니다.
향후 전망
- 미래의 주요 모달리티: 많은 연구자들은 오디오가 AI의 가장 중요한 미래 모달리티(Modality)가 될 것으로 믿고 있으며, 이 분야의 주도권이 소규모 혁신 기업으로 이동하고 있습니다.
- 효율 중심의 경쟁: 거대 자본과 컴퓨팅 자원 없이도 특정 도메인(오디오)에서 대형 연구소를 압도할 수 있음을 보여줌으로써 AI 개발의 새로운 패러다임을 제시할 것입니다.
