[Launch HN] RunAnywhere (YC W26) – 애플 실리콘에서 더 빠른 AI 추론 구현

YC W26 참여 기업 RunAnywhere가 공개한 'RCLI'는 애플 실리콘에서 구동되는 초고속 온디바이스 음성 AI로, 자체 개발한 MetalRT 엔진을 통해 200ms 미만의 엔드투엔드 지연 시간을 구현했습니다. 클라우드 없이 작동하는 이 툴은 38가지 macOS 시스템 액션 제어와 약 4ms의 하이브리드 검색 성능을 가진 로컬 RAG 기능을 제공합니다.

AI 요약

RunAnywhere(YC W26)가 발표한 RCLI는 애플 실리콘(Apple Silicon) 맥 환경에 최적화된 온디바이스 음성 AI 시스템입니다. 이 서비스는 STT(음성 인식), LLM(언어 모델), TTS(음성 합성)로 이어지는 전체 AI 파이프라인을 기기 내부에서 네이티브로 실행하여, 클라우드 연결이나 별도의 API 키 없이도 200ms 미만의 초저지연 반응 속도를 보여줍니다. 특히 RunAnywhere가 자체 개발한 'MetalRT' GPU 추론 엔진은 M3 이상의 칩에서 기존 llama.cpp나 Apple MLX보다 압도적인 성능을 발휘하며, STT의 경우 실시간 대비 714배 빠른 속도를 기록했습니다. 사용자는 음성 명령만으로 Spotify 제어, 스크린샷 촬영, 메모 작성 등 38가지 macOS 액션을 실행할 수 있으며, 개인 문서를 학습시킨 로컬 RAG를 통해 보안 걱정 없이 질의응답이 가능합니다. 이는 개인정보 보호와 성능을 동시에 요구하는 전문가용 AI 도구로서의 새로운 기준을 제시하고 있습니다.

핵심 인사이트

  • 초저지연 성능: STT+LLM+TTS 전체 파이프라인의 엔드투엔드 지연 시간이 200ms 미만이며, STT 엔진은 실시간 대비 714배 빠른 처리 속도를 자랑합니다.
  • 독자적인 MetalRT 엔진: M3 이상의 칩에서 작동하는 전용 GPU 추론 엔진 MetalRT를 개발하여 최적의 성능을 이끌어냈으며, M1/M2 모델에서는 llama.cpp로 자동 전환됩니다.
  • 강력한 로컬 RAG: 문서 기반의 로컬 RAG(검색 증강 생성) 기능을 통해 약 4ms 수준의 초고속 하이브리드 검색 및 답변 생성이 가능합니다.
  • 시스템 통합 제어: AppleScript와 쉘 명령어를 활용하여 Spotify 제어, Facetime 통화, 다크모드 전환 등 38가지의 macOS 시스템 액션을 음성으로 수행합니다.

주요 디테일

  • 기술적 구성: Silero VAD(음성 감지), Zipformer/Whisper 기반 STT, Qwen3/LFM2/Qwen3.5 LLM, 그리고 더블 버퍼링 방식의 문장 단위 TTS 등 3개의 동시 스레드가 유기적으로 작동합니다.
  • 모델 유연성: 사용자는 TUI(Text User Interface) 환경에서 다양한 LLM 모델을 브라우징하고 자유롭게 교체(Hot-swap)할 수 있습니다.
  • 최소 요구 사양: macOS 13 이상의 애플 실리콘 기반 Mac이 필요하며, MetalRT 엔진의 완전한 가속을 위해서는 M3 이상의 프로세서가 권장됩니다.
  • 프라이버시 및 보안: 모든 연산이 기기 내부에서 이루어지므로 클라우드 전송이 없으며, 개인 문서나 대화 데이터가 외부로 유출될 우려가 없습니다.
  • 설치 방식: GitHub의 설치 스크립트(curl) 또는 Homebrew(brew install rcli)를 통해 간편하게 설치하고 즉시 사용할 수 있습니다.

향후 전망

  • 온디바이스 AI 생태계 확장: 애플의 공식 AI 기능 외에도 개발자들이 자유롭게 커스터마이징할 수 있는 고성능 오픈 소스 대안으로서 입지를 다질 것으로 보입니다.
  • 워크플로우 혁신: 38가지 이상의 시스템 액션이 지속적으로 업데이트됨에 따라 마우스와 키보드 없는 맥 제어 환경이 더욱 고도화될 전망입니다.
Share

댓글

이 소식에 대한 의견을 자유롭게 남겨주세요.

댓글 (0)

불러오는 중...