과학계, 역대 최고 난이도 AI 테스트 개발... 예상 밖의 결과 나타나

2026년 3월 13일, 텍사스 A&M 대학교를 포함한 전 세계 1,000명의 전문가들이 기존 벤치마크의 한계를 넘어서는 역대 최난도 AI 테스트 '인류의 마지막 시험(HLE)'을 개발했습니다. 총 2,500개의 전문 문항으로 구성된 이 시험에서 최첨단 AI 모델들이 고전하며, 단순 패턴 인식을 넘어선 진정한 전문가 수준의 지식 습득에 여전히 큰 격차가 있음이 증명되었습니다.

AI 요약

기존 인공지능 성능 측정의 표준이었던 MMLU(Massive Multitask Language Understanding) 등의 벤치마크가 최신 AI 모델들에게 너무 쉬워짐에 따라, 이를 보완하기 위한 혁신적인 테스트가 등장했습니다. 2026년 3월 13일, 텍사스 A&M 대학교의 퉁 응우옌(Tung Nguyen) 교수를 비롯한 전 세계 약 1,000명의 연구진은 '인류의 마지막 시험(Humanity’s Last Exam, HLE)'을 구축했다고 발표했습니다. 이 시험은 수학, 인문학, 자연과학, 고대 언어 등 광범위한 전문 학술 분야를 망라하는 2,500개의 문항으로 설계되었습니다. 특히 현재의 AI 모델이 해결할 수 있는 문제는 사전에 모두 제거하는 엄격한 과정을 거쳤으며, 초기 결과에 따르면 가장 진보된 시스템조차 깊이 있는 전문 지식 구현에 한계를 보였습니다. 이번 연구 결과는 세계적인 학술지 '네이처(Nature)'에 게재되었으며, AI가 단순한 패턴 인식을 넘어 인간 전문가 수준의 맥락과 깊이를 이해하고 있는지 측정하는 새로운 기준이 될 것으로 보입니다.

핵심 인사이트

  • 개발 날짜 및 주체: 2026년 3월 13일, 텍사스 A&M 대학교 및 전 세계 약 1,000명의 전문가 그룹이 참여하여 개발했습니다.
  • 시험 규모 및 구성: 수학, 자연과학, 고대 언어 등 고도로 전문화된 분야의 지식을 묻는 2,500개의 문항으로 구성되었습니다.
  • 변별력 확보: 현재 가용한 AI 모델이 해결할 수 있는 문항은 테스트 구축 단계에서 모두 제외하여 난이도를 극대화했습니다.
  • 결과 공개: 관련 연구 논문은 학술지 '네이처(Nature)'에 발표되었으며 상세 정보는 'lastexam.ai' 사이트에서 확인 가능합니다.

주요 디테일

  • 기존 지표의 한계: MMLU와 같은 기존 학술 벤치마크에서 AI가 지나치게 높은 점수를 기록하며 더 이상 지능 측정 도구로서의 역할을 못 하게 된 것이 개발 배경입니다.
  • 검증 가능한 답변: 모든 문항은 단순한 인터넷 검색으로는 해결할 수 없도록 설계되었으며, 동시에 명확하고 검증 가능한 단일 정답을 갖도록 정교하게 다듬어졌습니다.
  • 핵심 참여자: 텍사스 A&M 대학교 컴퓨터공학과의 퉁 응우옌(Tung Nguyen) 교수가 문항 작성 및 검토 과정에서 주도적인 역할을 수행했습니다.
  • 지능의 본질 측정: 단순한 데이터 학습을 통한 패턴 인식이 아닌, 학문적 깊이와 맥락, 고도의 전문 지식을 다루는 능력을 평가하는 데 중점을 두었습니다.
  • AI와 인간 전문가의 격차: 초기 테스트 결과, 최첨단 AI 모델들과 실제 전문가급 지식 사이에는 여전히 상당한 성능 차이가 존재함이 확인되었습니다.

향후 전망

  • 새로운 개발 이정표: AI 개발사들이 더 이상 단순 성능 경쟁이 아닌, 진정한 전문가 수준의 추론 능력을 강화하는 방향으로 기술 개발 목표를 재설정할 것으로 보입니다.
  • 전문가급 AI 가속화: 이번 벤치마크를 통해 식별된 AI의 약점들을 보완하려는 시도가 이어지면서 전문 영역 특화 모델의 비약적인 발전이 예상됩니다.
Share

댓글

이 소식에 대한 의견을 자유롭게 남겨주세요.

댓글 (0)

불러오는 중...

과학계, 역대 최고 난이도 AI 테스트 개발... 예상 밖의 결과 나타나 | paper!