ReasoningBank: 에이전트가 경험을 통해 학습할 수 있도록 지원

AI 요약

기존 AI 에이전트는 배포 후 실무 환경에서 장기적인 역할을 수행할 때, 과거의 전략적 실수를 반복하거나 귀중한 통찰을 제대로 활용하지 못하는 한계가 있었습니다. Google Cloud의 Jun Yan과 Chen-Yu Lee 연구원은 이를 해결하기 위해 성공뿐만 아니라 실패 사례에서도 일반화 가능한 추론 패턴을 증류(distill)하는 'ReasoningBank' 프레임워크를 개발했습니다. 이 시스템은 단순히 과거 행동을 나열하는 방식(Synapse 등)이나 성공 사례만 기록하는 기존 방식(Agent Workflow Memory 등)의 단점을 보완하여, 고차원적이고 전이 가능한 추론 패턴을 구조화된 메모리로 저장합니다. 에이전트는 검색, 환경 상호작용, LLM 기반 자기 평가, 통찰 추출 및 통합으로 이어지는 폐쇄 루프(closed loop)를 통해 지속적으로 진화합니다. 특히 실패로부터 성찰하는 능력을 통해 복잡한 웹 탐색이나 소프트웨어 엔지니어링 작업에서 비약적인 성능 향상을 보여주었습니다.

핵심 인사이트

데이터 기반 성과: 웹 브라우징 및 소프트웨어 엔지니어링 벤치마크 평가에서 기존 베이스라인 모델 대비 더 높은 성공률과 더 적은 작업 단계(Task steps)를 기록했습니다.
학습 원천의 확장: 성공 사례에만 집중하던 기존 방식과 달리, 실패 경험에서 성찰(Reflection)을 추출하여 테스트 타임에 스스로 진화(Self-evolution)하는 메커니즘을 구현했습니다.

주요 디테일

구조적 메모리 구성: 각 메모리 항목은 요약된 '제목(Title)', 짧은 '설명(Description)', 그리고 상세 추론 단계와 의사결정 근거를 포함한 '내용(Content)'의 3단계 구조로 이루어집니다.
지속적 학습 루프: 에이전트가 행동 전 ReasoningBank에서 관련 메모리를 검색하고, 작업 후 'LLM-as-a-judge'를 통해 성공 통찰이나 실패 성찰을 추출하여 메모리를 업데이트합니다.
기술적 유연성: 연구 결과에 따르면 자기 평가(Self-judgement)가 완벽하게 정확하지 않더라도 ReasoningBank 프레임워크가 에이전트의 성능 향상을 지원하는 데 효과적임을 확인했습니다.
비교 우위: 행동 궤적을 모두 저장하는 Synapse나 성공 워크플로우에만 집중하는 Agent Workflow Memory보다 고차원적인 전략적 예견(Tactical foresight)을 제공합니다.

향후 전망

자가 진화 에이전트 가속화: 배포 후에도 사용자 상호작용을 통해 실시간으로 성능이 개선되는 '테스트 타임 자기 진화' 기술이 엔터프라이즈 AI 서비스의 핵심 경쟁력이 될 것입니다.
복잡한 도메인 적용 확대: 웹 탐색과 코딩 외에도 법률, 금융 등 정교한 추론과 전략적 판단이 필요한 전문 영역으로 에이전트 활용 범위가 확장될 것으로 보입니다.

원문:https://research.google/blog/reasoningbank-enabling-agents-to-learn-from-experience/

출처:google_research

ReasoningBank: 에이전트가 경험을 통해 학습할 수 있도록 지원

AI 요약

핵심 인사이트

주요 디테일

향후 전망

이것도 읽어보세요

일부 공룡, 거대해질 때까지 '두 발 보행'…성장 후엔 네 발로 전환

일반 노트북으로 양자컴퓨터 전용 문제 해결… "생각보다 쉬웠다

지구 수역, 산소 부족 현상 심각…과학자들 "조용한 위기" 경고

알츠하이머 치료 새 돌파구…뇌 플라크 제거 없이 수면 2시간 회복 성공