LLM이 거울 테스트를 통과할까?

LLM의 거울 테스트는 기존의 시각적 테스트를 텍스트로 변환한 방식이 부적절하다고 비판하며, 개의 후각 테스트를 모델로 삼아 LLM의 출력을 변형하여 제시하는 새로운 접근법을 제안합니다. 이는 모델이 자신의 출력에 대한 내부 기준선을 가지고 있는지 확인하는 데 초점을 맞춥니다.

AI 요약

이 글은 LLM(대규모 언어 모델)의 자기 인식 능력을 평가하는 기존의 '거울 테스트' 방법론이 잘못되었다고 주장한다. 기존 테스트는 시각적 거울 테스트를 텍스트로 단순 번역한 방식으로, 개에게 시각적 거울 테스트를 적용하는 것과 같은 오류를 범한다는 비판이다. 저자는 개의 후각 기반 자기 인식 테스트(알렉산드라 호로위츠의 연구)를 LLM에 적용한 새로운 접근법을 제안하며, LLM의 주된 양식(modality)인 텍스트를 활용한 변형 테스트가 필요하다고 주장한다.

핵심 포인트

  • 기존 LLM 거울 테스트는 시각적 거울 테스트를 텍스트로 번역한 방식으로 근본적으로 잘못됨
  • 알렉산드라 호로위츠는 개에게 시각 대신 후각 기반 거울 테스트를 개발하여 성공
  • 개는 자신의 냄새가 변형되었을 때 이를 감지하고 집중적으로 탐구하는 행동을 보임
  • LLM의 주된 양식은 텍스트이며, 사용자-어시스턴트 대화 맥락에서 평가되어야 함

향후 전망

  • LLM의 자기 인식 평가는 단순한 출력 식별이 아닌, 내부 기준선 대비 변칙 탐지(anomaly detection) 방식으로 발전할 가능성
Share

이것도 읽어보세요

댓글

이 소식에 대한 의견을 자유롭게 남겨주세요.

댓글 (0)

불러오는 중...