[5월11일] AI 음성 비서 확산의 '복병'..."속삭임조차 피곤하다"

AI 요약

2024년은 구글의 I/O(5월 19일)와 애플의 WWDC(6월 8일) 등 주요 IT 행사를 기점으로 AI 음성 비서 기능이 대거 확산되는 원년이 될 것으로 보입니다. 오픈AI는 지난 5월 7일 실시간 음성용 API 모델 3종을 공개했으며, 위스퍼 플로우(Wispr Flow)와 같은 음성 인식 앱이 미국에서 큰 인기를 얻고 있습니다. 그러나 월스트리트 저널 등 외신은 공공장소나 사무실에서 AI와 대화할 때 발생하는 소음과 타인의 시선이 사용자들에게 심각한 스트레스와 불편함을 유발하고 있다고 지적합니다. 이에 따라 업계의 관심은 단순히 목소리를 인식하는 단계를 넘어, 입 모양이나 얼굴 근육의 미세한 움직임을 포착하는 '무언어(silent speech)' 기술로 이동하고 있습니다. 궁극적으로 AI 음성 시대의 승패는 '얼마나 조용하고 자연스럽게 기계와 소통할 수 있느냐'는 하드웨어 및 인터페이스 경쟁에서 결정될 전망입니다.

핵심 인사이트

주요 일정 및 행사: 구글 'I/O'가 현지시간 5월 19일에, 애플 'WWDC'가 6월 8일에 개최되어 음성 비서 핵심 기능을 발표할 예정입니다.
애플의 대규모 인수: 애플은 지난 1월 이스라엘 스타트업 '큐닷AI(Q.ai)'를 약 16억~20억 달러(한화 약 2조 3500억~2조 9400억 원)에 인수했으며, 이는 2014년 비츠(Beats) 인수 이후 최대 규모 중 하나입니다.
음성 인식 시장의 확장: 위스퍼 플로우(Wispr Flow), 아쿠아 보이스, 토크테스틱, 슈퍼위스퍼 등 다양한 AI 음성 인식 전용 앱들이 등장하며 초기 경쟁 구도를 형성하고 있습니다.

주요 디테일

실제 사용자 사례: 시애틀 AI 스타트업 CEO 몰리 암크라우트 뮐러는 '위스퍼 플로우' 사용 중 남편으로부터 소음 문제로 사무실에 남으라는 불평을 들은 사례가 보도되었습니다.
사무실 문화의 변화: 카드 스타트업 '램프(Ramp)'의 엔지니어들은 게임용 헤드셋을 쓰고 AI와 대화하며, '구스토(Gusto)'의 공동 창립자 에드워드 킴은 미래 사무실이 활발한 영업 현장처럼 변할 것이라 예측했습니다.
기술적 대안 기술: 소리 누출을 최소화하는 '지향성 오디오'와 미세 진동으로 목소리를 잡는 '골전도 센서', 그리고 입 모양을 분석하는 '비주얼 인식' 기술이 대안으로 거론됩니다.
오픈AI 및 기타 동향: 오픈AI는 5월 7일 실시간 음성 작업을 위한 오디오 모델 3종을 API에 도입했으며, 중국에서는 클로드(Claude)가 정상가의 10% 가격으로 암시장에서 유통되는 현상이 발생하고 있습니다.

향후 전망

차세대 인터페이스 경쟁: 키보드와 터치 중심에서 음성 중심으로 인터페이스가 이동하되, '무언어' 소통 기술을 선점하는 기업이 차세대 AI 플랫폼의 승자가 될 것으로 보입니다.
웨어러블 하드웨어 격전: AI 안경, 새로운 에어팟 등 웨어러블 기기에서 소음 없이 상호작용하는 기능이 핵심 경쟁력이 될 것입니다.

원문:https://www.aitimes.com/news/articleView.html?idxno=210323

출처:naver_ai

[5월11일] AI 음성 비서 확산의 '복병'..."속삭임조차 피곤하다"

AI 요약

핵심 인사이트

주요 디테일

향후 전망

이것도 읽어보세요

MIT 연구진, 장의 자가 치유를 돕는 아미노산 발견

세포 에너지를 극대화하는 새로운 영양소 규명

흔히 쓰이는 살충제가 잠재적 뇌 손상을 유발할 수 있다는 과학계 경고

아동기 정크푸드 섭취, 평생의 뇌 회로를 재구성할 수 있어