과학자의 문제 출제 속도보다 빠르게 수학 시험을 섭렵 중인 AI

AI의 수학 문제 해결 능력이 급진적으로 발전하면서 2024년 11월 출시된 FrontierMath 벤치마크의 정답률이 초기 2% 미만에서 최신 모델(GPT-5.2, Claude Opus 4.6) 기준 40% 이상으로 급등했습니다. 특히 구글 딥마인드의 ‘Aletheia’는 산술 기하학 분야에서 인간도 시도하지 않았던 박사급 연구 결과를 자율적으로 도출하며 인공지능 성능이 과학자의 문제 출제 속도를 추월하고 있음을 입증했습니다.

AI 요약

AI의 고도화된 논리적 추론 능력을 측정하기 위한 수학 벤치마크들이 기록적인 속도로 구식이 되고 있습니다. 비영리 연구 단체인 Epoch AI가 2024년 11월에 발표한 'FrontierMath'는 학부 상급생부터 박사후 연구원 수준의 난이도를 가진 350개 문제로 구성되었으나, 최신 AI 모델들은 이를 빠르게 정복하고 있습니다. 출시 당시 2% 미만이었던 정답률은 GPT-5.2와 Claude Opus 4.6 등 최신 모델에 이르러 40%를 넘어섰으며, 고난도인 티어 4 문제에서도 30% 이상의 성적을 거두고 있습니다. 특히 구글 딥마인드의 실험적 시스템인 'Aletheia'는 산술 기하학의 특정 구조 상수를 계산하여 인간의 도움 없이도 학계에 발표 가능한 수준의 연구 성과를 냈습니다. 이러한 발전은 AI가 단순히 기존 지식을 학습하는 것을 넘어, 자율적으로 복잡한 수학적 증명을 수행하는 단계에 진입했음을 시사합니다. 결과적으로 과학자들은 AI의 한계를 시험하기 위해 더 어려운 문제를 더 빨리 만들어내야 하는 도전에 직면해 있습니다.

핵심 인사이트

  • 벤치마크의 급격한 노후화: 2024년 11월에 출시된 FrontierMath 벤치마크가 발표된 지 불과 몇 달 만에 최신 모델들에 의해 공략당하고 있습니다.
  • 정답률의 비약적 상승: 초기 모델들이 2% 미만의 정답률을 보였던 것과 달리, GPT-5.2 및 Claude Opus 4.6은 티어 1~3(300문제)에서 40%, 티어 4(50문제)에서 30% 이상의 정답률을 기록했습니다.
  • 박사급 연구 성과 달성: 구글 딥마인드의 'Aletheia'(Gemini Deep Think 기반)는 산술 기하학의 '고유 가중치(eigenweights)' 계산을 통해 학술지에 게재 가능한 수준의 결과를 자율적으로 도출했습니다.
  • 수학의 측정 도구적 가치: 수학은 단계적 논리가 명확하고 정답의 자동 검증이 가능해 AI의 성능을 주관적 요소 없이 측정할 수 있는 최적의 분야로 평가받습니다.

주요 디테일

  • FrontierMath의 구조: Epoch AI의 수석 연구원 Greg Burnham은 이 벤치마크가 학부 고급 수준에서 박사후 과정 수준에 이르는 난이도인 티어 1~4로 구성되어 있다고 설명합니다.
  • 자율적 연구 수행: Aletheia가 달성한 결과는 인간이 일주일간 집중하면 계산할 수 있는 분량이었으나, 실제로 이를 시도하여 성공한 인간은 없었으며 AI가 이를 자율적으로 수행했다는 점이 혁신적입니다.
  • 기술적 배경: Aletheia는 구글 딥마인드의 최신 추론 모델인 Gemini Deep Think에서 파생된 시스템으로, 수학적 연구에 특화된 성능을 보여줍니다.
  • 검증의 용이성: FrontierMath의 모든 문제는 인간이 도출한 확정된 답안이 있어 AI의 결과물을 즉각적으로 검증할 수 있는 구조를 갖추고 있습니다.
  • 기존 벤치마크의 한계: 전문가들은 이전 세대의 쉬운 수학 벤치마크들이 이미 여러 세대 전의 AI 모델들에 의해 정복되어 변별력을 상실했다고 지적합니다.

향후 전망

  • 차세대 벤치마크의 필요성: 기존의 FrontierMath조차 곧 무의미해질 것으로 예상됨에 따라, 더 복잡하고 창의적인 사고를 요구하는 새로운 측정 도구 개발이 가속화될 것입니다.
  • AI의 과학적 기여 확대: AI가 단순 문제 풀이를 넘어 인간 과학자가 미처 손대지 못한 미개척 영역의 계산과 증명을 자율적으로 수행하며 연구 파트너로서의 입지를 굳힐 것으로 보입니다.
Share

댓글

이 소식에 대한 의견을 자유롭게 남겨주세요.

댓글 (0)

불러오는 중...