서울대, 올인원 옴니모달 모델 '다이닌-옴니' 개발..."기존 모델 대비 우...

서울대학교 도재영 교수 연구팀은 텍스트, 이미지, 영상, 소리를 단일 모델로 동시 처리하는 차세대 AI 파운데이션 모델 ‘다이닌-옴니(Dynin-Omni)’를 8일 공개했습니다. 이 모델은 기존 모델 대비 최대 4~5배 빠른 생성 속도를 기록했으며, 총 19개의 글로벌 벤치마크 평가에서 네이버의 '하이퍼클로바 X 시드 8B 옴니' 등 주요 경쟁 모델들을 앞지르는 성능을 입증했습니다.

AI 요약

서울대학교 공과대학 전기정보공학부 도재영 교수 연구팀(AIDAS 연구실)이 텍스트, 이미지, 영상, 소리를 하나의 모델에서 동시에 이해하고 생성할 수 있는 네이티브 멀티모달 모델 ‘다이닌-옴니(Dynin-Omni)’를 개발했다고 8일 발표했습니다. 기존의 AI 모델들이 정보를 텍스트 중심으로 변환해 순차적으로 처리하던 방식과 달리, 다이닌-옴니는 모든 형태의 감각 정보를 동일한 기준에서 유기적으로 연결하여 처리하는 ‘올인원’ 구조를 채택했습니다. 특히 결과물 전체의 윤곽을 먼저 잡고 정교하게 다듬는 ‘디퓨전(diffusion)’ 방식을 도입하여 대용량 데이터 처리 효율을 획기적으로 높인 것이 특징입니다. 이번 연구는 로봇, AI 비서, 스마트 기기 등 실시간 반응이 필수적인 산업 분야에서 핵심 지능으로 활용될 가능성이 높으며, 글로벌 수준의 성능 지표 평가에서도 압도적인 성과를 거두었습니다.

핵심 인사이트

  • 개발 주체 및 일자: 서울대 전기정보공학부 도재영 교수 연구팀(AIDAS 연구실)이 11월 8일 차세대 AI 모델 ‘다이닌-옴니’를 발표함.
  • 압도적 속도 향상: 결과물 전체를 한꺼번에 생성하는 디퓨전 방식을 통해 기존 모델 대비 최대 4~5배 빠른 생성 속도를 구현함.
  • 벤치마크 성과: 총 19개의 글로벌 AI 성능 지표 평가에서 정보 추론, 영상 이해, 소리 처리 등 전 분야에 걸쳐 기존 모델을 상회함.
  • 정부 지원: 한국연구재단 이공분야 기초연구사업 및 과학기술정보통신부의 ‘고성능컴퓨팅 지원사업’의 지원으로 수행됨.

주요 디테일

  • 통합 구조: 텍스트, 사진, 영상, 소리를 별도의 변환 과정 없이 있는 그대로 동시에 이해하는 네이티브 멀티모달 구조를 설계함.
  • 비교 대상: 네이버의 ‘하이퍼클로바 X 시드 8B 옴니’, 알리바바의 ‘큐원2.5-옴니’, 싱가포르국립대의 ‘쇼-o2’, 바이트댄스의 ‘BAGEL’ 등 주요 오픈소스 모델들과의 경쟁에서 우위를 점함.
  • 생성 방식 차별화: 단어를 하나씩 순서대로 생성하는 기존 방식의 한계를 극복하기 위해 디퓨전 방식을 적용, 영상 및 음성 등 대용량 데이터 처리 효율을 극대화함.
  • 범용성 입증: 특정 분야에 특화된 전문가용 AI 모델들과 비교했을 때도 더 우수한 성능을 보여 범용 파운데이션 모델로서의 가치를 입증함.
  • 기술적 지능: 여러 모델을 조립하는 모듈형 방식이 아닌, 단일 지능이 사람처럼 보고 듣고 말하는 전 과정을 끊김 없이 수행함.

향후 전망

  • 산업적 활용: 즉각적인 반응이 필요한 지능형 로봇, 스마트 기기, 실시간 AI 비서 서비스의 핵심 엔진으로 도입될 것으로 기대됨.
  • 연구 확장: 현실 세계에서 직접 작동하는 ‘피지컬 AI’ 연구로 확장하여 사람과 실시간 소통이 가능한 지능형 기술을 고도화할 계획임.
Share

이것도 읽어보세요

댓글

이 소식에 대한 의견을 자유롭게 남겨주세요.

댓글 (0)

불러오는 중...