Show HN: Kitten TTS 신규 모델 3종 — 25MB 미만의 초경량 모델 포함

Kitten TTS가 15M에서 80M 파라미터 규모의 신규 모델 3종을 포함한 v0.8 버전을 출시했습니다. ONNX 기반으로 구축되어 GPU 없이 CPU만으로 24 kHz의 고품질 음성 합성이 가능하며, 특히 int8 양자화 모델은 25MB의 초경량 사이즈로 엣지 환경 배포에 최적화되어 있습니다.

AI 요약

Kitten TTS는 GPU 없이도 CPU 기반에서 고품질 음성 합성을 수행할 수 있도록 설계된 ONNX 기반의 오픈소스 경량 텍스트 음성 변환(TTS) 라이브러리입니다. 최근 공개된 v0.8 버전에서는 모델 파라미터 수에 따라 'mini'(80M), 'micro'(40M), 'nano'(15M) 등 총 3가지 체급의 모델을 제공하며, 각 모델의 용량은 최소 25MB에서 최대 80MB 사이로 매우 가볍습니다. 이 라이브러리는 Bella, Jasper, Luna 등 8가지의 내장 보이스를 지원하며, 숫자와 통화 단위를 처리하는 전처리 파이프라인과 재생 속도 조절 기능을 갖추고 있습니다. 현재 '개발자 프리뷰' 단계로 Hugging Face Spaces를 통한 데모 체험이 가능하며, 상업적 지원 및 맞춤형 보이스 제작을 위한 기업용 라이선스도 운영 중입니다. 특히 24 kHz의 표준 샘플 레이트 출력을 지원하여 경량화와 음질 사이의 균형을 맞춘 것이 특징입니다.

핵심 인사이트

  • 초경량 모델 라인업: 15M(Nano), 40M(Micro), 80M(Mini) 파라미터 모델을 제공하며, 최저 용량인 Nano int8 모델은 25MB 수준으로 엣지 디바이스 배포에 유리합니다.
  • CPU 최적화 인퍼런스: 별도의 GPU 자원 없이 ONNX 기반 인퍼런스를 통해 효율적으로 작동하여 운영 비용 절감이 가능합니다.
  • 8종의 다양한 내장 보이스: Bella, Jasper, Luna, Bruno, Rosie, Hugo, Kiki, Leo 등 총 8가지의 각기 다른 음성 스타일을 즉시 사용할 수 있습니다.
  • 개발자 친화적 환경: Python 3.8 이상을 지원하며, pip을 통한 설치와 Hugging Face Hub를 통한 간편한 모델 로딩 환경을 제공합니다.

주요 디테일

  • 고품질 오디오 출력: 표준 샘플 레이트인 24 kHz의 오디오를 생성하여 경량 모델임에도 선명한 음질을 보장합니다.
  • 정교한 텍스트 전처리: 숫자, 통화 단위, 기타 단위 등을 자동으로 처리하는 빌트인 파이프라인을 포함하고 있습니다.
  • 유연한 제어 기능: speed 파라미터를 통해 음성 재생 속도를 배속(예: 1.2배속)으로 조절하거나 기본 1.0으로 설정할 수 있습니다.
  • 상업용 지원 체계: 커스텀 보이스 제작, 엔터프라이즈 라이선싱, 통합 지원 등 상업적 이용을 위한 별도 창구를 운영합니다.
  • 모델별 사양 비교: 80M 파라미터의 'mini' 모델은 80MB, 40M의 'micro'는 41MB, 15M의 'nano'는 56MB(int8은 25MB)의 디스크 용량을 차지합니다.

향후 전망

  • 엣지 컴퓨팅 및 IoT 확장: 25MB 미만의 용량과 CPU 최적화 특징을 바탕으로 스마트 홈 기기나 임베디드 시스템에서의 실시간 TTS 적용이 가속화될 전망입니다.
  • API 안정화 기대: 현재 개발자 프리뷰 단계이므로 향후 정식 버전 출시를 통해 API 구조가 더욱 공고해지고 생태계가 확장될 것으로 보입니다.
Share

이것도 읽어보세요

댓글

이 소식에 대한 의견을 자유롭게 남겨주세요.

댓글 (0)

불러오는 중...