AI 요약
Kitten TTS는 GPU 없이도 CPU 기반에서 고품질 음성 합성을 수행할 수 있도록 설계된 ONNX 기반의 오픈소스 경량 텍스트 음성 변환(TTS) 라이브러리입니다. 최근 공개된 v0.8 버전에서는 모델 파라미터 수에 따라 'mini'(80M), 'micro'(40M), 'nano'(15M) 등 총 3가지 체급의 모델을 제공하며, 각 모델의 용량은 최소 25MB에서 최대 80MB 사이로 매우 가볍습니다. 이 라이브러리는 Bella, Jasper, Luna 등 8가지의 내장 보이스를 지원하며, 숫자와 통화 단위를 처리하는 전처리 파이프라인과 재생 속도 조절 기능을 갖추고 있습니다. 현재 '개발자 프리뷰' 단계로 Hugging Face Spaces를 통한 데모 체험이 가능하며, 상업적 지원 및 맞춤형 보이스 제작을 위한 기업용 라이선스도 운영 중입니다. 특히 24 kHz의 표준 샘플 레이트 출력을 지원하여 경량화와 음질 사이의 균형을 맞춘 것이 특징입니다.
핵심 인사이트
- 초경량 모델 라인업: 15M(Nano), 40M(Micro), 80M(Mini) 파라미터 모델을 제공하며, 최저 용량인 Nano int8 모델은 25MB 수준으로 엣지 디바이스 배포에 유리합니다.
- CPU 최적화 인퍼런스: 별도의 GPU 자원 없이 ONNX 기반 인퍼런스를 통해 효율적으로 작동하여 운영 비용 절감이 가능합니다.
- 8종의 다양한 내장 보이스: Bella, Jasper, Luna, Bruno, Rosie, Hugo, Kiki, Leo 등 총 8가지의 각기 다른 음성 스타일을 즉시 사용할 수 있습니다.
- 개발자 친화적 환경: Python 3.8 이상을 지원하며,
pip을 통한 설치와 Hugging Face Hub를 통한 간편한 모델 로딩 환경을 제공합니다.
주요 디테일
- 고품질 오디오 출력: 표준 샘플 레이트인 24 kHz의 오디오를 생성하여 경량 모델임에도 선명한 음질을 보장합니다.
- 정교한 텍스트 전처리: 숫자, 통화 단위, 기타 단위 등을 자동으로 처리하는 빌트인 파이프라인을 포함하고 있습니다.
- 유연한 제어 기능:
speed파라미터를 통해 음성 재생 속도를 배속(예: 1.2배속)으로 조절하거나 기본 1.0으로 설정할 수 있습니다. - 상업용 지원 체계: 커스텀 보이스 제작, 엔터프라이즈 라이선싱, 통합 지원 등 상업적 이용을 위한 별도 창구를 운영합니다.
- 모델별 사양 비교: 80M 파라미터의 'mini' 모델은 80MB, 40M의 'micro'는 41MB, 15M의 'nano'는 56MB(int8은 25MB)의 디스크 용량을 차지합니다.
향후 전망
- 엣지 컴퓨팅 및 IoT 확장: 25MB 미만의 용량과 CPU 최적화 특징을 바탕으로 스마트 홈 기기나 임베디드 시스템에서의 실시간 TTS 적용이 가속화될 전망입니다.
- API 안정화 기대: 현재 개발자 프리뷰 단계이므로 향후 정식 버전 출시를 통해 API 구조가 더욱 공고해지고 생태계가 확장될 것으로 보입니다.
출처:hackernews
