AI 요약
IT 전문가 멍젠은 기존의 영상 편집 소프트웨어인 PR이나 지엔잉(剪映)을 전혀 사용하지 않고, OpenClaw(AI 에이전트 프레임워크)와 Remotion(React 기반 비디오 프레임워크)을 결합한 전 자동 영상 제작 파이프라인을 구축했습니다. 이 시스템은 6명의 AI 에이전트가 협업하여 소재 선정부터 대본 작성, 음성 클로닝, 영상 렌더링까지 전 과정을 처리합니다. 특히 2월 11일부터 이 방식으로 제작된 영상들은 기존 수동 제작 시 수백 회에 불과했던 조회수를 단숨에 수천 회로 끌어올리며 콘텐츠 생산성과 알고리즘 최적화라는 두 마리 토끼를 잡았습니다. 제작자는 소재 선정과 최종 확인에만 단 3분을 투자하며, 나머지 12분은 AI가 자율적으로 작업을 수행하여 고품질의 콘텐츠를 일관되게 생산합니다.
핵심 인사이트
- 성과 지표: 2월 11일 시스템 도입 후 단 3일 만에 총 조회수 9,018회를 달성했으며, 단일 영상 최대 조회수는 1,595회를 기록했습니다.
- 비용 및 효율성: 영상 제작 시간을 기존 2~3시간에서 15분으로 단축했으며, 건당 제작 비용은 0.2위안(한화 약 40원) 미만입니다.
- 에이전트 협업: OpenClaw를 통해 운영(모매), 창작(모필), 디자인(모영) 등 각기 다른 역할을 가진 6개의 AI 에이전트가
sessions_send메커니즘으로 유기적으로 협동합니다. - 기술 스택: Remotion(React 기반 렌더링), MiniMax(음성 클로닝), OpenAI Whisper(로컬 시간초 추출)를 조합하여 고도의 자동화를 구현했습니다.
주요 디테일
- 코드 기반 영상 제작: Remotion을 활용해 '사이버 와이어프레임' 스타일의 템플릿을 코드로 정의(#0A0A0F 배경색 등)하여 데이터 교체만으로 새 영상이 즉시 생성됩니다.
- 정밀한 자막 정렬: 로컬에 배포된 OpenAI Whisper 모델이 생성된 오디오에서 문장별 시간 정보를 추출하여 자막과 화면 효과를 1/100초 단위로 일치시킵니다.
- 개인화된 음성: MiniMax의 voice-clone 서비스를 사용하여 30초 분량의 실제 샘플로 제작자의 목소리를 완벽하게 복제해 60초 분량의 내레이션을 3~5초 만에 생성합니다.
- 워크플로우: 매일 오전 9:30분에 텔레그램(Telegram)으로 5개의 추천 소재가 발송되며, 사용자가 하나를 선택하면 즉시 전체 공정이 시작됩니다.
- 브랜딩 전략: '샤오모'라는 이름의 AI 고양이 캐릭터를 영상 곳곳에 배치하고 일관된 디자인 톤앤매너를 유지하여 시청자의 식별도를 높였습니다.
향후 전망
- 콘텐츠 생산의 패러다임 변화: 영상 편집이 수작업 기반의 '노동 집약형'에서 코드로 제어하는 '시스템 자동화' 단계로 완전히 진입했음을 시사합니다.
- 1인 미디어의 확장성: 고가의 장비나 전문 편집 기술 없이도 AI 에이전트 시스템을 통해 일일 업로드가 가능한 고품질 콘텐츠 양산 체제를 갖출 수 있게 될 것입니다.
출처:juejin
