AI 요약
로봇에 최적화된 AI 모델 개발을 두고 VLA(시각-언어-행동) 모델과 월드모델(World Model) 두 진영이 기술 주도권을 놓고 경쟁 중이다. 엔비디아 그루트, 피지컬 인텔리전스 파이 모델 등 VLA는 언어모델 기반이나 실제 생산 현장에서 신뢰성과 속도가 부족하다는 평가를 받는다. 반면 월드모델은 물리 법칙을 학습해 실제 환경을 예측하는 데 강점이 있으며, 루마, 1X 등 스타트업이 적극 투자하고 있다. 일각에서는 두 접근법을 결합하거나, 인터넷 영상 데이터를 로봇 학습에 활용하는 방식이 더 중요하다는 의견도 제기된다.
핵심 포인트
- VLA 진영: 엔비디아 '그루트', 피지컬 인텔리전스 '파이(π)', MS '로-알파' 등
- 월드모델 진영: 루마 피지컬 AI 랩, 1X 월드모델 연구소, 웨이모-딥마인드 '지니 3' 등
- 셰프 로보틱스 CEO는 "VLA는 속도가 느리고 신뢰성이 떨어져 장기적으로 월드모델이 더 유망"하다고 평가
- 엔비디아 '코스모스 3'는 월드모델과 VLA 요소를 결합한 하이브리드 접근법 채택
향후 전망
- VLA와 월드모델의 대립 구도를 넘어, 두 기술의 결합 또는 물리적 데이터 변환 기술이 로봇 AI의 핵심 과제로 부상할 전망
- 실제 생산 현장 적용을 위한 신뢰성과 속도 개선이 상용화의 관건
