로보틱스 AI 모델 누가 맹주인가?...월드모델 vs VLA '각축'

로보틱스 AI 모델은 VLA(비전-언어-행동)와 월드모델 두 진영이 각축 중이다. 엔비디아 Groot, 피지컬 인텔리전스 π 모델 등 VLA는 실제 생산 현장에서 신뢰성 부족으로 속도가 느리다는 평가를 받으며, 장기적으로 월드모델이 더 유망하다는 의견이 제기된다.

AI 요약

로봇에 최적화된 AI 모델 개발을 두고 VLA(시각-언어-행동) 모델과 월드모델(World Model) 두 진영이 기술 주도권을 놓고 경쟁 중이다. 엔비디아 그루트, 피지컬 인텔리전스 파이 모델 등 VLA는 언어모델 기반이나 실제 생산 현장에서 신뢰성과 속도가 부족하다는 평가를 받는다. 반면 월드모델은 물리 법칙을 학습해 실제 환경을 예측하는 데 강점이 있으며, 루마, 1X 등 스타트업이 적극 투자하고 있다. 일각에서는 두 접근법을 결합하거나, 인터넷 영상 데이터를 로봇 학습에 활용하는 방식이 더 중요하다는 의견도 제기된다.

핵심 포인트

  • VLA 진영: 엔비디아 '그루트', 피지컬 인텔리전스 '파이(π)', MS '로-알파' 등
  • 월드모델 진영: 루마 피지컬 AI 랩, 1X 월드모델 연구소, 웨이모-딥마인드 '지니 3' 등
  • 셰프 로보틱스 CEO는 "VLA는 속도가 느리고 신뢰성이 떨어져 장기적으로 월드모델이 더 유망"하다고 평가
  • 엔비디아 '코스모스 3'는 월드모델과 VLA 요소를 결합한 하이브리드 접근법 채택

향후 전망

  • VLA와 월드모델의 대립 구도를 넘어, 두 기술의 결합 또는 물리적 데이터 변환 기술이 로봇 AI의 핵심 과제로 부상할 전망
  • 실제 생산 현장 적용을 위한 신뢰성과 속도 개선이 상용화의 관건
Share

이것도 읽어보세요

댓글

이 소식에 대한 의견을 자유롭게 남겨주세요.

댓글 (0)

불러오는 중...