AI 요약
구글 리서치(Google Research)는 사하라 이남 아프리카 지역의 극심한 언어 데이터 부족 문제를 해결하기 위해 대규모 음성 리소스인 'WAXAL'을 발표했습니다. 2021년부터 아프리카 현지 학계 및 지역사회 단체와 다년간 협력하여 구축된 이 프로젝트는 전 세계 가상 비서 및 음성 기술 혜택에서 소외되었던 27개 아프리카 토착 언어를 대상으로 합니다. WAXAL은 단순한 텍스트 읽기 방식에서 벗어나 50개 이상의 주제가 담긴 이미지 자극을 통해 자연스러운 대화와 성조, 언어 혼용(Code-switching) 등을 포착한 것이 특징입니다. 총 1,846시간의 음성 인식(ASR) 데이터와 565시간의 고충실도 음성 합성(TTS) 데이터를 포함하고 있으며, 개방형 라이선스를 통해 배포되어 아프리카 내 포용적인 기술 발전을 이끄는 토대가 될 것으로 기대됩니다.
핵심 인사이트
- 대규모 데이터 확보: 2021년부터 시작된 프로젝트를 통해 아프리카 26개국 이상, 1억 명 이상의 화자가 사용하는 27개 언어에 대한 음성 데이터를 수집함.
- 기술적 구성: 약 1,846시간 분량의 전사된 자연 음성(ASR) 데이터와 565시간 이상의 고음질 녹음(TTS) 데이터로 구성됨.
- 개방형 라이선스: 연구 및 상업적 활용이 용이하도록 크리에이티브 커먼즈 저작자 표시 4.0(CC-BY-4.0) 라이선스로 리소스를 전면 공개함.
주요 디테일
- WAXAL-ASR의 혁신: Google Open Images를 활용하여 50개 이상의 주제를 제시하고 이를 묘사하게 함으로써, 기존 스크립트 낭독 방식보다 훨씬 자연스러운 언어 구사 방식을 포착함.
- 언어적 특성 반영: 아프리카 언어의 주요 특징인 성조의 뉘앙스와 일상적인 코드 스위칭(두 개 이상의 언어를 섞어 쓰는 현상) 데이터를 풍부하게 포함함.
- 글로벌 협업: 구글 리서치의 Tavonga Siyavora 시니어 제품 매니저와 Abdoulaye Diack 프로그램 매니저가 주도하였으며, 현지 파트너십을 통해 데이터의 신뢰성을 높임.
- 디지털 격차 해소: 전 세계 2,000개 이상의 언어가 존재하는 사하라 이남 아프리카에서 기술 소외 계층인 1억 명 이상의 언어 접근성을 높이는 것을 목표로 함.
향후 전망
- 지속적 확장: WAXAL 컬렉션은 초기 27개 언어에 그치지 않고, 디지털 격차 해소를 위해 향후 더 많은 언어를 포함하도록 지속적으로 업데이트될 예정임.
- 로컬 AI 생태계 강화: 오픈소스 데이터를 활용해 아프리카 현지 기업과 연구소들이 독자적인 음성 비서 및 자동 전사 시스템을 구축하는 촉매제가 될 전망임.
