AI 요약
설립 2.5년 차인 홍콩의 로봇 스타트업 DAIMON 로보틱스가 로봇 핸드에 인간 수준의 촉각을 부여하기 위한 대규모 프로젝트를 추진하고 있습니다. 이들은 지난 4월, 고해상도 촉각 감지 데이터를 포함한 세계 최대 규모의 옴니 모달 물리적 AI 데이터셋인 'Daimon-Infinity'를 출시했습니다. 로봇 공학의 선구자인 마이클 유 왕(Michael Yu Wang) 교수가 이끄는 이 팀은 기존의 시각-언어-행동(VLA) 모델에서 결여되었던 '촉각적 민감성'을 보완하기 위해 시각-촉각-언어-행동(VTLA) 아키텍처를 개척했습니다. DAIMON 로보틱스는 손가락 끝 크기의 모듈에 11만 개 이상의 감지 단위를 집약한 독보적인 하드웨어 기술을 보유하고 있으며, 이를 통해 수집한 1만 시간 분량의 데이터를 오픈 소스로 공개했습니다. 이번 연구는 구글 딥마인드와 노스웨스턴 대학교 등 글로벌 파트너들과의 협력을 통해 진행되었으며, 가정 내 가사 노동부터 공장 조립 라인까지 로봇의 활동 영역을 획기적으로 넓히는 것을 목표로 합니다.
핵심 인사이트
- Daimon-Infinity 출시 (2024년 4월): 세계 최대 규모의 물리적 AI용 옴니 모달 데이터셋으로, 가사 및 제조 등 광범위한 작업을 포함.
- 고성능 촉각 센서: 손가락 끝 크기의 모듈에 110,000개 이상의 유효 감지 단위를 포함한 고해상도 시각 기반 촉각 센서 기술력 보유.
- VTLA 아키텍처 도입: 기존 VLA 모델을 넘어 촉각(Tactile)을 시각과 동등한 양식으로 격상시킨 새로운 AI 구조 제안.
- 데이터 개방: 실제 환경 배포를 가속화하기 위해 수집된 데이터 중 10,000시간 분량을 오픈 소스로 공개.
주요 디테일
- 기술 리더십: 카네기 멜런 박사이자 IEEE 펠로우인 마이클 유 왕 교수가 설립 단계부터 참여하여 기술 개발 주도.
- 방대한 데이터 생성 능력: 연구실 외부의 분산된 네트워크를 활용하여 연간 수백만 시간 분량의 데이터를 생성할 수 있는 체계 구축.
- 글로벌 협력: Google DeepMind, 노스웨스턴 대학교, 싱가포르 국립 대학교(NUS) 등 세계 유수의 기관들과 파트너십 체결.
- 하드웨어 특징: 단색(monochromatic) 시각 기반 촉각 센서를 활용해 미세한 질감과 압력 변화를 정밀하게 감지.
- 적용 사례: 세탁물 개기, 공장 조립 라인 조작은 물론 호텔이나 중국 내 편의점 서비스 로봇에 우선 적용될 예정.
향후 전망
- 시각 정보에만 의존하던 기존 로봇의 한계를 극복하고, 촉각 피드백을 통해 자연스러운 환경에서 복잡하고 섬세한 물체 조작이 가능해질 것으로 보임.
- 오픈 소스 데이터와 고해상도 센서 기술의 결합은 전 세계 로봇 공학 커뮤니티의 범용 로봇 파운데이션 모델 개발 속도를 비약적으로 높일 전망.
