4개월간의 이미지-비디오 VAE 실험을 통해 얻은 인사이트

Linum은 2024년 7월부터 11월까지 4개월간의 VAE 실험을 통해, 높은 재구성 품질이 반드시 생성 모델의 안정성이나 최종 품질로 이어지지 않는다는 인사이트를 공개했습니다. 720p 24FPS 비디오의 1억 1,000만 개 토큰을 효율적으로 처리하기 위한 잠재 공간 압축 기술의 중요성과 함께 관련 모델 코드 및 가중치를 오픈소스로 배포했습니다.

AI 요약

최신 비디오 생성 모델은 확산 트랜스포머(Diffusion Transformer)를 기반으로 하지만, 어텐션 연산 비용이 시퀀스 길이의 제곱에 비례하여 증가하기 때문에 픽셀 단위의 직접 계산은 불가능에 가깝습니다. 이를 해결하기 위해 Linum은 이미지와 비디오를 압축된 잠재 공간으로 변환하는 VAE(Variational Autoencoder)를 직접 개발하며 2024년 7월부터 11월까지 집중적인 실험을 진행했습니다. 이 과정에서 수많은 수치 불안정성(NaN)과 화면 얼룩 현상을 겪으며 얻은 결론은, VAE의 재구성 성능이 좋다고 해서 반드시 하위 생성 모델의 품질이 보장되는 것은 아니라는 점입니다. 현재 Linum은 자체 개발 모델 대신 Wan 2.1의 VAE를 텍스트-비디오 모델에 사용하고 있으나, 연구 커뮤니티를 위해 그간의 실험 로그와 가중치를 모두 공개했습니다.

핵심 인사이트

  • 실험 기간 및 공개 범위: 2024년 7월부터 11월까지 4개월간 진행된 이미지-비디오 VAE 훈련 실험 로그, 모델 코드, 가중치를 오픈소스로 공개했습니다.
  • 데이터 연산량의 한계: 720p 해상도, 24 FPS의 5초 분량 비디오는 약 1억 1,000만 개의 토큰을 생성하며, 이는 VAE를 통한 잠재 공간 압축 없이는 트랜스포머에서 처리가 불가능한 수준입니다.
  • 성능 상관관계의 발견: VAE의 재구성(Reconstruction) 품질 향상이 모델의 안정성이나 다운스트림 생성 품질과 항상 정비례하지 않는다는 핵심 발견을 도출했습니다.

주요 디테일

  • 기술적 난제: 훈련 과정에서 발생하는 NaN(Not a Number) 오류, 미스테리한 얼룩(Splotches), 공동 훈련(Co-training)의 불안정성 등 다양한 기술적 결함을 해결해야 했습니다.
  • 연속성 잠재 공간: JPEG나 AV1과 같은 표준 코덱은 데이터를 이산적(Discrete)으로 양자화하지만, 신경망은 연속적인(Continuous) 값을 입력으로 필요로 하기 때문에 VAE를 통한 압축이 필수적입니다.
  • 현재 적용 상태: Linum은 최신 텍스트-비디오 모델에 자체 VAE 대신 Wan 2.1의 VAE를 채택하여 성능과 안정성을 확보했습니다.
  • 확산 모델의 진화: Flow Matching 등 다양한 목적 함수를 포함하는 광범위한 확산 모델의 프레임워크 내에서 VAE가 차지하는 비중을 재조명했습니다.

향후 전망

  • 차세대 VAE 개발: Linum은 이번 실험에서 얻은 gory details(생생한 세부 사항)를 바탕으로 2026년에 차세대 VAE를 개발할 계획입니다.
  • 픽셀 공간 연구 지속: 현재는 잠재 공간 모델이 우세하지만, 향후 픽셀 공간에서의 직접 훈련 방식이 잠재 확산 모델의 성능을 추월할 수 있을지 업계의 관심이 지속될 것으로 보입니다.
Share

댓글

이 소식에 대한 의견을 자유롭게 남겨주세요.

댓글 (0)

불러오는 중...

4개월간의 이미지-비디오 VAE 실험을 통해 얻은 인사이트 | paper!