AI 요약
이 글은 LLM(대규모 언어 모델)의 자기 인식 능력을 평가하는 기존의 '거울 테스트' 방법론이 잘못되었다고 주장한다. 기존 테스트는 시각적 거울 테스트를 텍스트로 단순 번역한 방식으로, 개에게 시각적 거울 테스트를 적용하는 것과 같은 오류를 범한다는 비판이다. 저자는 개의 후각 기반 자기 인식 테스트(알렉산드라 호로위츠의 연구)를 LLM에 적용한 새로운 접근법을 제안하며, LLM의 주된 양식(modality)인 텍스트를 활용한 변형 테스트가 필요하다고 주장한다.
핵심 포인트
- 기존 LLM 거울 테스트는 시각적 거울 테스트를 텍스트로 번역한 방식으로 근본적으로 잘못됨
- 알렉산드라 호로위츠는 개에게 시각 대신 후각 기반 거울 테스트를 개발하여 성공
- 개는 자신의 냄새가 변형되었을 때 이를 감지하고 집중적으로 탐구하는 행동을 보임
- LLM의 주된 양식은 텍스트이며, 사용자-어시스턴트 대화 맥락에서 평가되어야 함
향후 전망
- LLM의 자기 인식 평가는 단순한 출력 식별이 아닌, 내부 기준선 대비 변칙 탐지(anomaly detection) 방식으로 발전할 가능성
출처:Pascal Schuster's Blog
