AI 요약
Ghost Pepper는 사용자의 프라이버시를 최우선으로 설계된 macOS용 로컬 음성 인식(STT) 및 텍스트 정제 도구입니다. macOS 14.0 이상의 Apple Silicon(M1 이상) 환경에서 구동되며, 사용자가 Control 키를 누르고 있는 동안 음성을 녹음하고 키를 떼면 즉시 텍스트로 변환하여 활성화된 텍스트 필드에 붙여넣습니다. 이 앱의 핵심은 WhisperKit을 활용한 음성 인식과 LLM.swift 기반의 Qwen 3.5 모델을 통한 스마트 텍스트 정제 기능입니다. 정제 모델은 음성 중 포함된 추임새(filler words)를 제거하고 스스로 수정한 내용을 매끄럽게 다듬어 줍니다. 메뉴 막대에서 상주하며 작동하는 이 앱은 별도의 클라우드 API를 사용하지 않으므로 데이터 유출 우려가 전혀 없는 것이 특징입니다. 특히 다른 유료 앱들이 수천만 달러의 투자를 받아 제공하는 기능을 MIT 라이선스 기반의 무료 오픈소스로 구현했다는 점이 주목할 만합니다.
핵심 인사이트
- 100% 로컬 구동: 모든 데이터 처리는 온디바이스(On-device)에서 이루어지며, 모델은 Hugging Face를 통해 자동으로 다운로드 및 로컬 캐싱되어 데이터가 외부로 나가지 않습니다.
- 다양한 모델 지원: 기본 모델인 Whisper small.en(~466 MB) 외에도 가장 빠른 tiny.en(~75 MB) 및 25개 언어를 지원하는 Parakeet v3(~1.4 GB) 등을 선택할 수 있습니다.
- 스마트 정제 기능: Qwen 3.5 기반의 0.8B(기본), 2B, 4B 모델을 통해 1~7초 내에 음성 텍스트의 오류를 수정하고 자연스럽게 문장을 다듬습니다.
- 엔터프라이즈 지원: Jamf, Kandji 등 MDM(모바일 기기 관리) 솔루션을 사용하는 기업 환경에서도 PPPC 페이로드를 통해 접근성 권한을 사전에 승인할 수 있도록 설계되었습니다.
주요 디테일
- 시스템 요구 사양: macOS 14.0 이상 버전과 Apple Silicon(M1, M2, M3 등) 칩셋이 필수적으로 요구됩니다.
- 하이브리드 모델 구조: STT에는 WhisperKit을, 텍스트 정제(Cleanup)에는 LLM.swift를 사용하며 Sparkle 프레임워크로 업데이트를 관리합니다.
- 성능 수치: 가장 작은 Qwen 3.5 0.8B 모델은 1~2초 내에 정제를 완료하며, 가장 고성능인 4B 모델은 5~7초의 처리 시간이 소요됩니다.
- 보안 중심 설계: 디스크에 변환 기록을 남기지 않으며, 디버그 로그조차 메모리 내에만 저장되었다가 앱 종료 시 즉시 삭제됩니다.
- 비즈니스 모델 비판: 개발자는 유사한 기능을 구현하기 위해 8,000만 달러($80M)를 투자받은 타 서비스들과 달리, 이를 무료로 제공한다는 점을 '스파이시(Spicy)'한 매력으로 강조합니다.
향후 전망
- 로컬 AI 도구의 대중화: 고가의 구독형 클라우드 AI 서비스를 대체할 수 있는 고성능 오픈소스 로컬 도구의 가능성을 보여주며 유사한 유틸리티 출시를 가속화할 것으로 보입니다.
- 워크플로우 통합: 단순 STT를 넘어 로컬 LLM을 활용한 실시간 번역, 요약 등 정제 프롬프트의 사용자 맞춤 설정 기능이 더욱 고도화될 것으로 예상됩니다.
