WAXAL: 아프리카어 음성 기술을 위한 대규모 오픈 리소스

Google Research는 2021년부터 추진해온 아프리카 27개 토착 언어 대상의 대규모 오픈소스 음성 데이터셋 'WAXAL'을 공개했습니다. 이 데이터셋은 26개국 1억 명 이상의 화자를 아우르며, 약 1,846시간의 음성 인식(ASR) 데이터와 565시간의 음성 합성(TTS) 데이터를 CC-BY-4.0 라이선스로 제공하여 아프리카 AI 생태계 구축을 지원합니다.

AI 요약

구글 리서치(Google Research)는 사하라 이남 아프리카 지역의 극심한 언어 데이터 부족 문제를 해결하기 위해 대규모 음성 리소스인 'WAXAL'을 발표했습니다. 2021년부터 아프리카 현지 학계 및 지역사회 단체와 다년간 협력하여 구축된 이 프로젝트는 전 세계 가상 비서 및 음성 기술 혜택에서 소외되었던 27개 아프리카 토착 언어를 대상으로 합니다. WAXAL은 단순한 텍스트 읽기 방식에서 벗어나 50개 이상의 주제가 담긴 이미지 자극을 통해 자연스러운 대화와 성조, 언어 혼용(Code-switching) 등을 포착한 것이 특징입니다. 총 1,846시간의 음성 인식(ASR) 데이터와 565시간의 고충실도 음성 합성(TTS) 데이터를 포함하고 있으며, 개방형 라이선스를 통해 배포되어 아프리카 내 포용적인 기술 발전을 이끄는 토대가 될 것으로 기대됩니다.

핵심 인사이트

  • 대규모 데이터 확보: 2021년부터 시작된 프로젝트를 통해 아프리카 26개국 이상, 1억 명 이상의 화자가 사용하는 27개 언어에 대한 음성 데이터를 수집함.
  • 기술적 구성: 약 1,846시간 분량의 전사된 자연 음성(ASR) 데이터와 565시간 이상의 고음질 녹음(TTS) 데이터로 구성됨.
  • 개방형 라이선스: 연구 및 상업적 활용이 용이하도록 크리에이티브 커먼즈 저작자 표시 4.0(CC-BY-4.0) 라이선스로 리소스를 전면 공개함.

주요 디테일

  • WAXAL-ASR의 혁신: Google Open Images를 활용하여 50개 이상의 주제를 제시하고 이를 묘사하게 함으로써, 기존 스크립트 낭독 방식보다 훨씬 자연스러운 언어 구사 방식을 포착함.
  • 언어적 특성 반영: 아프리카 언어의 주요 특징인 성조의 뉘앙스와 일상적인 코드 스위칭(두 개 이상의 언어를 섞어 쓰는 현상) 데이터를 풍부하게 포함함.
  • 글로벌 협업: 구글 리서치의 Tavonga Siyavora 시니어 제품 매니저와 Abdoulaye Diack 프로그램 매니저가 주도하였으며, 현지 파트너십을 통해 데이터의 신뢰성을 높임.
  • 디지털 격차 해소: 전 세계 2,000개 이상의 언어가 존재하는 사하라 이남 아프리카에서 기술 소외 계층인 1억 명 이상의 언어 접근성을 높이는 것을 목표로 함.

향후 전망

  • 지속적 확장: WAXAL 컬렉션은 초기 27개 언어에 그치지 않고, 디지털 격차 해소를 위해 향후 더 많은 언어를 포함하도록 지속적으로 업데이트될 예정임.
  • 로컬 AI 생태계 강화: 오픈소스 데이터를 활용해 아프리카 현지 기업과 연구소들이 독자적인 음성 비서 및 자동 전사 시스템을 구축하는 촉매제가 될 전망임.
Share

댓글

이 소식에 대한 의견을 자유롭게 남겨주세요.

댓글 (0)

불러오는 중...