고전적인 두뇌 인지 테스트로 드러난 AI의 치명적 약점

AI 요약

인간이 일상적으로 수행하는 '주의 집중' 능력이 최신 인공지능(AI) 시스템에는 극복하기 어려운 치명적인 약점인 것으로 밝혀졌습니다. Suketu Patel 연구원이 이끄는 연구팀은 ChatGPT, Claude, Gemini 등의 기반이 되는 대형언어모델(LLM)을 대상으로 심리학의 고전적 인지 테스트인 '스트룹(Stroop) 작업'을 실시했습니다. 단어의 의미와 인쇄된 글자의 색상이 일치하지 않을 때 색상을 맞추는 이 실험에서, AI 모델들은 짧은 작업에선 높은 성과를 냈으나 작업 분량이 길어질수록 성능이 급격하게 무너졌습니다. GPT-4o와 Claude 3.5 Sonnet 등 시장을 선도하는 모델들도 테스트 길이가 늘어남에 따라 사실상 작업 수행에 실패하며 심각한 인지적 붕괴 현상을 보여주었습니다. 이번 연구는 AI가 인간처럼 외부의 방해를 극복하고 목표에 집중할 수 있도록 돕는 '실행 제어(Executive Control)' 능력이 현격히 부족함을 시사합니다.

핵심 인사이트

인지 테스트의 한계 입증 (2026년 6월 10일): PNAS Nexus 저널에 게재된 연구를 통해 최신 LLM 시스템이 인지 방해 요소가 존재하는 긴 작업에서 심각한 주의 집중 장애를 겪는다는 사실이 밝혀졌습니다.
연구 주도자: 이번 실험은 Suketu Patel이 이끄는 연구팀에 의해 수행되었으며, 대표적인 AI 모델들을 심리학의 스트룹(Stroop) 인지 실험으로 평가했습니다.
GPT-4o의 성능 붕괴: GPT-4o 모델은 5개 단어 테스트에서 91%의 정확도를 달성했으나, 10개 단어에서 57%, 40개 단어에서는 단 15%의 정확도로 급격히 하락했습니다.
Claude 3.5 Sonnet의 성능 하락: Claude 3.5 Sonnet은 20개 단어까지는 비교적 안정적인 집중력을 보였으나, 40개 단어에 이르면 정확도가 24%로 곤두박질쳤습니다.

주요 디테일

스트룹(Stroop) 효과의 원리: 글자 정보(예: '빨강')와 실제 표기된 잉크 색상(예: 파란색 잉크)이 불일치할 때, 인간의 뇌는 자동화된 '글자 읽기' 습관을 억제하고 '색상 인지'에 고도의 집중력을 발휘해야 합니다.
실행 제어(Executive Control)의 한계: 연구팀은 AI가 패턴 인식 능력은 뛰어나지만, 목표에 집중하기 위해 불필요한 인지 방해 요소를 스스로 제어하고 차단하는 능력이 결여되어 있음을 보여주었습니다.
확장성에 따른 취약성: AI 모델들은 짧은 작업(5개 미만 단어)에서는 높은 신뢰도를 유지했지만, 입력 데이터와 컨텍스트가 늘어날수록 인지 간섭 현상을 이겨내지 못하는 취약점을 노출했습니다.
평가 대상의 범용성: 이번 연구에는 ChatGPT(GPT-4o), Anthropic의 Claude, Google의 Gemini 등 현존하는 최고 성능의 프론티어 AI 모델들이 대거 포함되어 그 기술적 한계가 범용적임을 시사합니다.

향후 전망

복잡한 장기 업무의 제약: 장시간 집중과 다차원적 분석이 요구되는 금융 분석, 대규모 법률 문서 검토 및 소프트웨어 코딩 영역에서 AI의 정확성과 신뢰성에 제동이 걸릴 수 있습니다.
신규 아키텍처 개발 자극: 단순히 텍스트 학습량을 늘리는 방식이 아닌, 인간의 능동적 주의 집중 및 억제 메커니즘을 학습 모형에 이식하는 새로운 형태의 AI 아키텍처 연구가 활발해질 것으로 전망됩니다.

원문:https://www.sciencedaily.com/releases/2026/06/260610003049.htm

출처:sciencedaily

고전적인 두뇌 인지 테스트로 드러난 AI의 치명적 약점

AI 요약

핵심 인사이트

주요 디테일

향후 전망

이것도 읽어보세요

목성은 거대 위성 여러 개, 토성은 타이탄 하나뿐인 이유

241일 만에 귀환…NASA 우주비행사, 지구로 무사 착륙

과학자들이 밝힌 탄산수, 치아에 미치는 실제 영향

8시간 내 식사 제한, 노화 뇌 건강에 도움될까?