프런티어 AI의 역량 측정을 위한 오픈월드(Open-world) 평가 체계

17명의 연구진이 참여한 'CRUX' 프로젝트는 기존 벤치마크의 한계를 극복하기 위해 실제 복잡한 과업을 수행하는 '오픈월드 평가' 체계를 도입했습니다. 첫 실험에서 AI 에이전트는 단 2개의 오류만으로 iOS 앱을 개발해 앱스토어 출시에 성공하며, 실질적인 제품 구현 능력과 함께 앱스토어 스팸 대량 생성이라는 잠재적 위험성을 동시에 입증했습니다.

AI 요약

기존 AI 성능 측정 방식인 벤치마크가 포화 상태에 도달함에 따라, AI가 실제 세상의 복잡하고 무질서한 과업을 수행할 수 있는지를 평가하는 '오픈월드 평가(Open-world evaluations)'가 새로운 대안으로 제시되었습니다. 2026년 4월 16일, 사야시 카푸르(Sayash Kapoor)와 아르빈드 나라야난(Arvind Narayanan) 등 17명의 전문가 그룹은 프런티어 AI의 역량을 실질적으로 측정하기 위한 'CRUX' 프로젝트를 공개했습니다. 이들은 기존 벤치마크가 특정 지표에만 최적화되어 AI의 능력을 오판할 수 있다는 점을 지적하며, 실제 제품 출시나 과학 실험과 같은 엔드 투 엔드(End-to-end) 과업의 중요성을 강조했습니다. CRUX의 첫 번째 실험에서 AI 에이전트는 단 한 차례의 수동 개입을 포함한 2개의 오류만으로 실제 iOS 앱을 구축하여 앱스토어에 등록하는 성과를 거두었습니다. 이는 AI의 높은 유용성을 보여주는 동시에, 자동화된 앱스토어 스팸 공격 가능성에 대한 경고이기도 합니다. 연구팀은 향후 1년간 다양한 실세계 도메인에서 이러한 실험을 지속하여 AI 역량의 조기 경보 시스템 역할을 수행할 계획입니다.

핵심 인사이트

  • 신규 평가 체계 CRUX 출범: 학계, 정부, 산업계를 망라한 17명의 연구진이 협력하여 프런티어 AI 역량을 정기적으로 측정하는 CRUX 프로젝트를 시작함.
  • AI의 실전 앱 개발 성공: AI 에이전트가 단 2개의 오류만 발생시키며 실제 iOS 앱을 구축하고 앱스토어 배포에 성공함.
  • 사전 보안 고지 수행: 앱스토어 스팸 대량 생성 위험을 확인한 연구진은 논문 발표 1개월 전 해당 결과를 애플(Apple) 측에 미리 공유함.

주요 디테일

  • 기존 벤치마크의 한계: 벤치마크는 측정 가능하도록 정밀하게 설계되므로 AI가 해당 지표에만 최적화되기 쉬우며, 반대로 캡차(CAPTCHA) 같은 사소한 장애물 때문에 실제 역량이 과소평가되기도 함.
  • 오픈월드 평가의 정의: 정부 관료 체계 탐색, 엔드 투 엔드 과학 실험, 실제 제품 출시 등 길고 복잡하며 자동 검증이 어려운 실제 환경에서의 평가를 의미함.
  • 타사 사례 언급: 앤스로픽(Anthropic)의 니콜라스 칼리니가 클로드(Claude)를 활용해 리눅스 커널용 C 컴파일러를 제작한 사례 및 앤던 랩스(Andon Labs)와 진행한 사무실 매점 관리 실험 등이 유사 사례로 제시됨.
  • 실험의 정밀도: CRUX 프로젝트의 첫 실험인 iOS 앱 출시는 실제 사용자가 이용하는 앱스토어 환경에서 직접 수행되어 높은 현실성을 확보함.

향후 전망

  • 실세계 도메인 확장: 향후 1년간 다양한 산업 및 공공 도메인에서 AI 역량의 조기 경보를 위한 실전 실험이 지속될 예정임.
  • AI 정책의 변화: 정적인 점수 기반 벤치마크 대신, 실질적인 과업 수행 능력을 중심으로 한 평가 데이터가 정책 분석 및 AI 위험 연구의 핵심 근거가 될 것으로 보임.
Share

이것도 읽어보세요

댓글

이 소식에 대한 의견을 자유롭게 남겨주세요.

댓글 (0)

불러오는 중...