LLM의 정확도 중심 평가 방식이 오히려 환각(Hallucination) 현상을 유발할 수 있다는 연구 결과

OpenAI와 조지아 공대 연구진은 Nature를 통해 현재의 LLM 평가 방식인 '정확도' 중심 지표가 오히려 모델의 근거 없는 추측을 유도하여 환각 현상을 심화시킨다는 연구 결과를 발표했습니다. 특히 학습 데이터 내 반복되지 않는 단발성 정보는 학습 이론상 불가피한 오류를 유발하며, 이를 해결하기 위해 오류에 대한 벌점을 명시하는 '오픈 루브릭(open-rubric)' 평가 체계 도입을 제안했습니다.

AI 요약

OpenAI 소속 Adam Tauman Kalai를 포함한 연구진은 세계적인 학술지 Nature를 통해 대규모 언어 모델(LLM)의 고질적인 문제인 '환각(Hallucination)' 현상이 단순히 기술적 한계를 넘어 보상 체계의 구조적 결함에서 기인한다는 분석을 내놓았습니다. 연구에 따르면, 차세대 단어 예측(Next-word prediction) 기반의 사전 학습은 통계적 압박으로 인해 학습 데이터 내 지지 기반이 약한 단발성 정보에 대해 필연적으로 환각을 생성하게 됩니다. 이후 수행되는 성능 평가 과정에서 사용되는 정확도(Accuracy) 지표는 모델이 '모름'을 인정하기보다는 위험한 추측을 하도록 유도하는 부작용을 낳습니다. 연구팀은 이를 해결하기 위해 오류 발생 시 벌점을 명시하여 모델이 스스로 기권(Abstention)을 선택할 수 있게 하는 '오픈 루브릭' 평가 방식을 도입하고, 이를 통해 모델이 상황에 따른 리스크를 관리하도록 유도해야 한다고 강조했습니다.

핵심 인사이트

  • 공동 연구진 구성: OpenAI의 Adam Tauman Kalai, Ofir Nachum, Edwin Zhang 및 조지아 공대의 Santosh S. Vempala가 참여한 연구 결과가 Nature(DOI: s41586-026-10549-w)에 게재되었습니다.
  • 평가 지표의 역효과: 정확도 중심의 헤드라인 지표가 모델로 하여금 불확실성을 인정하는 대신 '근거 없는 추측(unwarranted guessing)'을 하도록 인센티브를 제공하고 있습니다.
  • 학습 이론적 분석: 학습 이론(Learning Theory)을 적용한 결과, 문법과 같은 반복적 규칙과 달리 반복되지 않는 '일회성 사실(one-off details)'은 데이터에 오류가 없더라도 통계적으로 불가피한 환각을 유발합니다.
  • 오픈 루브릭(Open-rubric) 제안: 오류에 대한 벌점을 명확히 명시하는 새로운 평가 방식을 통해 모델이 스테이크(stakes)에 따라 답변 여부를 전략적으로 조절하도록 설계해야 합니다.

주요 디테일

  • 통계적 압박: 사전 학습 단계에서 발생하는 통계적 압박은 이상적인(error-free) 데이터 환경에서도 지지 기반이 부족한 사실 정보에 대해 오류를 범하게 만듭니다.
  • 기권의 부재: 기존 RLHF(인간 피드백 기반 강화학습)와 같은 사후 훈련 단계에서도 '확신 없는 답변'에 대한 적절한 페널티 설계가 부족하여 환각이 지속됩니다.
  • 벤치마크의 한계: 환각 특화 벤치마크가 기존 리더보드에서 주목받지 못하는 현실을 지적하며, 기존 평가 지표를 '오픈 루브릭' 변형으로 대체할 것을 제안했습니다.
  • 인센티브 문제로의 재정의: 환각 현상을 단순한 지식의 부재가 아닌, 모델이 최적화해야 하는 '인센티브의 문제(incentive problem)'로 정의하며 해결의 실마리를 제시했습니다.

향후 전망

  • 향후 LLM 개발 및 평가 표준이 단순 정확도 측정에서 벗어나, 모델이 자신의 불확실성을 얼마나 정확히 인지하고 관리하는지를 측정하는 방향으로 전환될 것으로 예상됩니다.
  • '오픈 루브릭' 평가 체계가 확산됨에 따라, 특정 전문 분야(의료, 법률 등)에서 LLM의 답변 신뢰도를 높이기 위한 기권(abstention) 메커니즘 학습이 강화될 전망입니다.
Share

이것도 읽어보세요

댓글

이 소식에 대한 의견을 자유롭게 남겨주세요.

댓글 (0)

불러오는 중...