AI 요약
AI 에이전트가 웹 애플리케이션을 조작하는 두 가지 방식인 '비전 기반(Computer Use)'과 '구조화된 API'의 효율성을 비교한 실험 결과가 공개되었습니다. Reflex 팀은 React-admin 기반의 관리자 패널에서 Claude Sonnet 모델을 사용하여 고객 관리 및 주문 처리 업무를 수행하는 벤치마크를 진행했습니다. 실험 결과, API 방식은 단 8번의 호출로 모든 태스크를 정확히 수행했으나, 비전 에이전트는 화면 하단에 위치한 데이터를 인지하지 못해 작업 완수에 실패했습니다. 특히 비전 방식은 스크린샷 전송과 높은 토큰 소모량으로 인해 API 방식보다 비용이 45배나 높게 책정되었습니다. 이는 많은 기업이 엔지니어링 리소스 절감을 위해 비전 방식을 선택하지만, 실제 운영 단계에서는 심각한 정확도 저하와 비용 문제를 겪을 수 있음을 보여줍니다.
핵심 인사이트
- 45배의 비용 차이: 비전 기반 에이전트(browser-use 0.12 사용)는 구조화된 API 방식에 비해 토큰 소모 및 프로세싱 비용이 45배 더 높았습니다.
- 데이터 인식의 한계: 비전 에이전트는 4개의 대기 중인 리뷰 중 화면에 보이는 1개만 처리했으며, '스크롤(fold)' 아래에 있는 나머지 3개는 인지하지 못해 작업에 실패했습니다.
- 효율적인 API 에이전트: 동일한 환경에서 API 에이전트는 단 8번의 호출로 필터링, 페이지네이션, 교차 엔터티 조회를 포함한 복잡한 업무를 성공적으로 마쳤습니다.
주요 디테일
- 실험 환경: 'Posters Galore' 데모를 모델로 한 고객/주문/리뷰 관리 패널에서 Claude Sonnet 모델을 동일하게 사용했습니다.
- 태스크 구성: 'Smith'라는 고객의 최신 주문을 찾고, 모든 대기 리뷰를 승인한 뒤 주문을 배송 완료로 표시하는 실무적인 워크플로우를 테스트했습니다.
- 비전 방식의 선호 이유: 대부분의 팀이 비전 에이전트를 사용하는 이유는 20개 이상의 내부 도구마다 별도의 API나 MCP(Model Context Protocol)를 구축하는 엔지니어링 비용이 너무 크기 때문입니다.
- 기술적 차이: API 에이전트는 UI 핸들러가 반환하는 전체 데이터 세트(예: 페이지당 50개 결과)를 직접 읽는 반면, 비전 에이전트는 렌더링된 화면 이미지에만 의존합니다.
향후 전망
- API 자동화 도구의 부상: 비전 기반 방식의 고비용과 불투명성을 해결하기 위해, 기존 앱에서 API 레이어를 자동으로 생성하거나 연결하는 기술이 중요해질 것입니다.
- 하이브리드 접근법: 단순 조작은 비전 방식을 사용하되, 대량의 데이터 처리나 정확도가 중요한 작업에는 구조화된 API를 혼용하는 전략이 권장될 것으로 보입니다.
