AI 요약
2026년 3월, Dynomight은 거대언어모델(LLM)이 복잡한 물리적 실험 결과를 수식으로 예측할 수 있는지 확인하기 위해 '커피 냉각 실험'을 설계했습니다. 실험 조건은 20°C의 정지된 공기 중에서 1.25lb(0.57kg) 무게의 세라믹 머그잔에 8oz(226.8g)의 끓는 물을 붓는 상황으로 설정되었습니다. 이 문제는 전도, 대류, 복사, 증발 및 표면 장력과 같은 수많은 물리적 변수가 얽혀 있어 단순히 이론적인 계산만으로는 해결하기 어려운 영역입니다. 여러 LLM에 이 상황을 제시한 결과, 모델들은 각기 다른 온도 변화 곡선을 도출했습니다. 실제 디지털 온도계로 측정한 실험 데이터와 비교했을 때, LLM들은 공통적으로 초기 냉각 속도는 과도하게 높게, 후기 냉각 속도는 지나치게 낮게 예측하는 경향을 보였습니다. 이는 AI가 물리적 법칙의 복잡성을 수치화하는 데 있어 여전히 한계가 있음을 시사합니다.
핵심 인사이트
- 실험 환경 조건: 226.8g(8oz)의 물, 0.57kg(1.25lb) 머그잔, 20°C 상온의 정적인 공기 상태.
- 최고 성능 모델: Claude 4.6 Opus가 가장 신뢰할 만한 예측 곡선을 제공했으나, 이를 위해 약 0.61달러(약 800원) 상당의 토큰을 소비함.
- 데이터 측정 방식: 처음 5분 동안은 5초 단위로 기록하고 이후 15초, 30초, 5분 단위로 간격을 늘려 실제 냉각 데이터를 수집함.
주요 디테일
- 물리적 복잡성: 단순 열전달 외에도 증발에 의한 냉각, 물 내부의 대류 현상, 적외선 복사 등 수많은 비선형적 요소가 결과에 영향을 미침.
- 예측과 실제의 괴리: 모델들은 초기 몇 분 동안의 온도 하락폭이 나머지 한 시간 동안의 하락폭과 맞먹을 정도로 클 것이라고 예측했으나 실제 데이터와는 차이가 있었음.
- 누락된 변수: 머그잔의 구체적인 형태(Shape), 재질(도자기 vs 석기), 공기 중 습도 등 프롬프트에 명시되지 않은 세부 사항이 AI의 '직관적 판단(Taste)'을 요구함.
- 경제성 문제: 정교한 물리 시뮬레이션을 위해 고성능 LLM을 사용하는 것이 실제 실험 비용이나 전통적인 시뮬레이션 툴 대비 효율적인지에 대한 의문이 제기됨.
향후 전망
- 물리 기반 AI의 발전: LLM이 물리적 상식을 보유하고 있음을 확인했으나, 공학적 정밀도가 필요한 분야에서는 보조적인 도구로 활용될 가능성이 높음.
- 시뮬레이션 비용 최적화: 향후 물리 법칙에 특화된 경량화된 모델이나 전용 프롬프트 엔지니어링을 통해 예측 비용을 낮추는 방향으로 발전할 것으로 보임.
출처:hackernews
