원하는 목소리로 대사 읊어주는 로컬 AI 'Irodori-TTS' V3 사용기... 음성 길이 지정 및 이모티콘 감정 조절 지원

AI 요약

'Irodori-TTS'는 클라우드 AI 서비스와 달리 개인 PC에서 로컬로 무제한 실행할 수 있는 오픈소스 텍스트 음성 변환(TTS) AI 기술입니다. 2026년 5월에 새롭게 배포된 'Irodori-TTS-500M-v3' 모델은 이전 세대보다 향상된 음성 품질을 제공하는 것은 물론, 오디오 출력 길이 지정과 이모티콘 팔레트를 이용한 정교한 감정 톤 제어 기능이 신설되었습니다. 사용자는 NVIDIA GPU 뿐만 아니라 AMD, Intel GPU 및 CPU 단독 환경에서도 실행이 가능하며, 패키지 관리 도구 'uv'를 도입해 간소화된 설치 환경을 제공합니다. 비록 V3 모델이 정중하고 정형화된 어조를 구현해 애니메이션풍 음성에는 다소 맞지 않을 수 있으나, 웹 UI 내에서 이전 버전인 V2 모델로 손쉽게 교체할 수 있어 사용 목적에 최적화된 목소리를 로컬 가상 환경 내에서 제한 없이 제작해낼 수 있습니다.

핵심 인사이트

2026년 5월 V3 버전 공식 출시: 'Irodori-TTS-500M-v3'가 정식 배포되면서 오디오 정밀도 개선, 재생 시간 설정, 이모티콘 감정 제어 기술이 대거 포함되었습니다.
검열 및 제한 없는 로컬 환경: 클라우드 가입이나 횟수 제약 없이 오직 로컬 하드웨어 리소스만을 활용하여 무제한으로 결과물을 뽑아낼 수 있습니다.
GeForce RTX 5070Ti 기준 초고속 생성: 고성능 GPU 기반의 윈도우 PC 환경 테스트 시, 텍스트 입력 후 출력 완료까지 단 몇 초밖에 소요되지 않았습니다.
이종 하드웨어 폭넓은 지원: NVIDIA 전용 가속(cu128), AMD GPU(rocm), Intel GPU(xpu) 환경은 물론 고성능 그래픽 카드가 없는 일반 CPU 및 macOS 환경까지 최적화 패키지를 제공합니다.

주요 디테일

사전 구축 권장 인프라: 로컬 설치 및 실행을 위해 프로그래밍 언어인 'Python', 가상 패키지 관리 도구 'uv', 분산 소스 관리 툴인 'Git'이 반드시 선행 설치되어야 합니다.
V3 전용 옵션 탑재: 새로운 모델 적용에 따라 호환성을 강화하기 위해 명령어 실행 시 --no-sync 옵션(uv run --no-sync python gradio_app.py ...)이 신설되었습니다.
이모티콘을 이용한 즉각적 감정 주입: 웹 UI에 내장된 전용 이모티콘 팔레트를 클릭하는 것만으로 캐릭터의 말투와 발화 감정을 매우 정밀하게 유도할 수 있습니다.
레퍼런스 음성 복제(Cloning): 'Reference Audio Upload' 란에 원본 음성 파일을 드래그 앤 드롭하면, 대상 목소리의 파형과 톤을 거의 완벽히 모방해 발화합니다.
V2 모델 체크포인트 호환: 격식 있는 목소리가 특징인 V3 외에, 보다 귀엽고 캐주얼한 애니메이션 어투가 필요하다면 UI 상에서 'Aratako/Irodori-TTS-500M-v2'로 즉각 복귀하여 활용할 수 있습니다.

향후 전망

비용 중심의 TTS 시장 타격: 값비싼 클라우드 API 호출 요금을 부담하던 1인 크리에이터와 영세 콘텐츠 제작사들의 오디오 더빙 고정 비용을 획기적으로 낮출 것입니다.
사용자 커스텀 모델의 활성화: 진입 장벽이 낮고 패키징이 정교해진 로컬 TTS 생태계 덕분에 개인 맞춤형 오디오 소스나 특화 데이터셋을 학습시키는 오픈소스 허브가 더욱 확장될 전망입니다.

원문:https://gigazine.net/news/20260607-irodori-tts-v3/

출처:hatena

원하는 목소리로 대사 읊어주는 로컬 AI 'Irodori-TTS' V3 사용기... 음성 길이 지정 및 이모티콘 감정 조절 지원

AI 요약

핵심 인사이트

주요 디테일

향후 전망

이것도 읽어보세요

목성은 거대 위성 여러 개, 토성은 타이탄 하나뿐인 이유

241일 만에 귀환…NASA 우주비행사, 지구로 무사 착륙

과학자들이 밝힌 탄산수, 치아에 미치는 실제 영향

8시간 내 식사 제한, 노화 뇌 건강에 도움될까?