AI 요약
이 기사는 2026년 6월 3일 'How I AI'의 호스트 클레어 보(Claire Vo)가 진행한 혁신적인 AI 아바타 제작 실험 과정을 다루고 있습니다. 그녀는 구글 플로우(Google Flow)와 최신 비디오 생성 모델인 제미나이 옴니(Gemini Omni) 및 구글 딥마인드의 Veo 3를 활용해 실시간으로 자신의 디지털 클론을 직접 생성했습니다. 스마트폰을 통해 얼굴을 스캔하여 아바타를 만드는 데 소요된 시간은 5분이 채 걸리지 않았으며, 이후 전체 7개의 장면으로 이루어진 1분짜리 팟캐스트 홍보 비디오를 제작하는 데까지 단 15분이 걸렸습니다. 영상 제작 과정에서 캐릭터 일관성(Character Consistency) 기능을 사용해 아바타가 매번 동일한 모습으로 등장하게 설정할 수 있었습니다. 일부 구간에서 감정 표현이 다소 미흡하거나 물리 엔진 오류로 발생하는 '불쾌한 골짜기(uncanny valley)' 현상이 나타났지만, 브라우저 기반의 간편한 편집기로 제작 전반을 마무리할 수 있다는 점에서 영상 제작 기술이 전혀 없는 비전문가에게 무한한 창의적 가능성을 제시합니다.
핵심 인사이트
- 스마트폰 스캔을 통한 초고속 아바타 생성: 클레어 보는 스마트폰으로 얼굴을 스캔하여 5분 미만의 매우 짧은 시간 만에 고품질의 자신만의 AI 아바타를 구축했습니다.
- 15분 만의 1분 홍보 영상 제작: 구글 플로우와 제미나이 옴니 모델을 활용해 스토리보드 기획부터 7개의 모든 씬(Scene) 생성, 최종 비디오 편집까지 단 15분 만에 완성했습니다.
- 최신 AI 비디오 생성 모델의 조화: 영상 생성과 랜더링을 처리하기 위해 구글의 차세대 동영상 모델인 제미나이 옴니(Gemini Omni) 및 구글 딥마인드(Google DeepMind)의 'Veo 3' 기술이 핵심적으로 쓰였습니다.
- 캐릭터 일관성 유지: 비디오 생성 AI의 난제 중 하나였던 여러 장면 간의 일관된 캐릭터 묘사가 자체 제공 필터를 통해 성공적으로 유지되었습니다.
주요 디테일
- 정밀한 타임라인 기록: 에피소드 진행 과정은 스캔 및 캡처(01:38), 스토리보드 브레인스토밍(02:55), 첫 비디오 장면 생성(06:59), 7개 전체 씬 생성(09:32), 브라우저 내장 도구를 통한 영상 병합(13:13)의 정교한 일정에 맞춰 시연되었습니다.
- 동영상 생성 도중의 오류 해결: 영상 생성 프로세스 도중 의도치 않게 비디오 대신 정지 이미지가 생성되는 기술적 트러블슈팅(08:41) 과정을 공개해 실용적인 솔루션을 제시했습니다.
- 여전히 존재하는 불쾌한 골짜기: AI 아바타가 복잡한 인간의 감정을 완벽히 표현하지 못하거나 영상 속 물리법칙이 꼬여서 어색해지는 현실적인 한계점도 지적되었습니다.
- 크리에이티브 기획자로서의 AI: 구글 플로우는 단순한 렌더링에 그치지 않고, 제작자가 원하는 홍보 목적에 부합하는 영상의 스토리 전개와 레이아웃을 직접 브레인스토밍하는 프로듀서 기능을 수행했습니다.
- 브라우저 기반 편집 인프라: 전문 영상 툴을 배울 필요 없이 브라우저 내장 에디터로 각각 생성된 여러 영상들을 자연스럽게 이어 붙여 하나의 비디오로 완성할 수 있었습니다.
향후 전망
- 1인 콘텐츠 제작의 비용적 장벽 철폐: 비싼 촬영 장비나 편집자가 없어도 고품질 비디오를 쉽고 빠르게 제작할 수 있게 됨으로써 1인 미디어 제작의 진정한 대중화가 열릴 것입니다.
- 가상 휴먼 기술의 실용성 극대화: 미세 표정과 완벽한 물리 동작 구현이 보완된다면 교육용 콘텐츠, 원격 프레젠테이션, 마케팅 분야에서 AI 아바타가 현실 속 화자를 거의 완벽하게 대행할 수 있게 될 것입니다.
