AI 요약
2024년은 구글의 I/O(5월 19일)와 애플의 WWDC(6월 8일) 등 주요 IT 행사를 기점으로 AI 음성 비서 기능이 대거 확산되는 원년이 될 것으로 보입니다. 오픈AI는 지난 5월 7일 실시간 음성용 API 모델 3종을 공개했으며, 위스퍼 플로우(Wispr Flow)와 같은 음성 인식 앱이 미국에서 큰 인기를 얻고 있습니다. 그러나 월스트리트 저널 등 외신은 공공장소나 사무실에서 AI와 대화할 때 발생하는 소음과 타인의 시선이 사용자들에게 심각한 스트레스와 불편함을 유발하고 있다고 지적합니다. 이에 따라 업계의 관심은 단순히 목소리를 인식하는 단계를 넘어, 입 모양이나 얼굴 근육의 미세한 움직임을 포착하는 '무언어(silent speech)' 기술로 이동하고 있습니다. 궁극적으로 AI 음성 시대의 승패는 '얼마나 조용하고 자연스럽게 기계와 소통할 수 있느냐'는 하드웨어 및 인터페이스 경쟁에서 결정될 전망입니다.
핵심 인사이트
- 주요 일정 및 행사: 구글 'I/O'가 현지시간 5월 19일에, 애플 'WWDC'가 6월 8일에 개최되어 음성 비서 핵심 기능을 발표할 예정입니다.
- 애플의 대규모 인수: 애플은 지난 1월 이스라엘 스타트업 '큐닷AI(Q.ai)'를 약 16억~20억 달러(한화 약 2조 3500억~2조 9400억 원)에 인수했으며, 이는 2014년 비츠(Beats) 인수 이후 최대 규모 중 하나입니다.
- 음성 인식 시장의 확장: 위스퍼 플로우(Wispr Flow), 아쿠아 보이스, 토크테스틱, 슈퍼위스퍼 등 다양한 AI 음성 인식 전용 앱들이 등장하며 초기 경쟁 구도를 형성하고 있습니다.
주요 디테일
- 실제 사용자 사례: 시애틀 AI 스타트업 CEO 몰리 암크라우트 뮐러는 '위스퍼 플로우' 사용 중 남편으로부터 소음 문제로 사무실에 남으라는 불평을 들은 사례가 보도되었습니다.
- 사무실 문화의 변화: 카드 스타트업 '램프(Ramp)'의 엔지니어들은 게임용 헤드셋을 쓰고 AI와 대화하며, '구스토(Gusto)'의 공동 창립자 에드워드 킴은 미래 사무실이 활발한 영업 현장처럼 변할 것이라 예측했습니다.
- 기술적 대안 기술: 소리 누출을 최소화하는 '지향성 오디오'와 미세 진동으로 목소리를 잡는 '골전도 센서', 그리고 입 모양을 분석하는 '비주얼 인식' 기술이 대안으로 거론됩니다.
- 오픈AI 및 기타 동향: 오픈AI는 5월 7일 실시간 음성 작업을 위한 오디오 모델 3종을 API에 도입했으며, 중국에서는 클로드(Claude)가 정상가의 10% 가격으로 암시장에서 유통되는 현상이 발생하고 있습니다.
향후 전망
- 차세대 인터페이스 경쟁: 키보드와 터치 중심에서 음성 중심으로 인터페이스가 이동하되, '무언어' 소통 기술을 선점하는 기업이 차세대 AI 플랫폼의 승자가 될 것으로 보입니다.
- 웨어러블 하드웨어 격전: AI 안경, 새로운 에어팟 등 웨어러블 기기에서 소음 없이 상호작용하는 기능이 핵심 경쟁력이 될 것입니다.
