AI 요약
과학적 발견의 연구 주기는 실험 연산을 지원하는 특화 소프트웨어를 과학자들이 수동으로 작성하는 과정에서 발생하는 병목 현상으로 인해 오랫동안 정체되어 왔습니다. 이를 해결하기 위해 구글 딥마인드와 구글 리서치를 비롯해 MIT, 하버드, 맥길대 등 글로벌 연구팀이 공동으로 참여하여 품질 지표를 자율적으로 극대화하는 전문가 수준의 과학 소프트웨어 제작 시스템 'ERA(Empirical Research Assistance)'를 선보였습니다. ERA는 대규모 언어 모델(LLM)의 생성 능력에 트리 탐색(Tree Search) 기술을 융합하여 솔루션 공간을 체계적으로 탐색하고 품질을 정교하게 제고합니다. 특히 외부의 연구 논문이나 복잡한 학술 아이디어를 스스로 탐색 및 연계하여 실행 가능한 최상의 코드로 변환할 수 있는 능력을 지녔습니다. 이 시스템은 바이오인포매틱스, 역학, 수치해석, 지리공간 분석 등 복잡하고 전문적인 과학 영역 전반에서 인간 연구원이 작성한 코드보다 뛰어난 성과를 기록하며 과학 연구의 새로운 장을 열었습니다.
핵심 인사이트
- 바이오인포매틱스 혁신: ERA는 단일 세포 데이터 분석(Single-cell data analysis) 성능 평가용 공개 리더보드에서 기존 인간이 설계한 기법들을 제치고 가장 우수한 성능을 보이는 40개의 새로운 분석 기법을 자율적으로 발견했습니다.
- 역학 모델의 비약적 정확도 향상: 코로나19(COVID-19) 입원 예측 분야에서 미국 질병통제예방센터(CDC)의 공식 앙상블 모델과 타 개별 예측 모델 전체를 능가하는 14개의 정교한 예측 모델을 자체 설계하고 구현했습니다.
- 최고 기관 연구원들의 협업: 구글 딥마인드(Montréal, New York)와 구글 리서치(Cambridge), MIT, 하버드 대학(Harvard), 캘리포니아 공과대학(Caltech), 맥길 대학(McGill) 등의 세계적 연구원들이 대거 참여하여 성과를 이뤄냈습니다.
주요 디테일
- 트리 탐색(Tree Search) 기반 최적화: LLM의 임의성이나 에러 확률을 보완하기 위해 의사 결정 경로를 탐색 트리 구조로 확장하고, 결과 코드의 품질 메트릭(Quality Metric)을 최고조로 끌어올리는 체계적 탐색법을 활용했습니다.
- 다학제적 실증 성공: 제브라피시(Zebrafish)의 뇌 내 신경 활동 예측 모델 수립, 고난도 적분 방정식의 수치 해석 솔루션 도출, 정밀 지리공간 데이터 분석(Geospatial analysis) 소프트웨어 제작 등 다양한 분야에서 실효성을 검증했습니다.
- 신규 아키텍처 창안: 기존에 없던 시계열 예측(Time series forecasting)을 위한 독창적인 규칙 기반 구조(Rule-based construction)를 자체 고안해 실 소프트웨어로 구현해 냈습니다.
- 외부 연구 소스 통합: 단순 템플릿 코드 작성이 아닌, 논문이나 외부의 정교한 방법론적 제안을 파악하고 이를 실제 프로그래밍 언어로 체계화하여 완전한 솔루션으로 통합하는 고도의 자율 판단 능력을 입증했습니다.
향후 전망
- 과학적 병목 현상의 해소: 연구 아이디어를 소프트웨어로 도출하는 데 걸리는 시간과 노력을 극적으로 단축함으로써 전체적인 학술 논문 발표 및 기술 개발 사이클이 혁신적으로 빨라질 것입니다.
- 자율형 AI 과학 조수의 등장: 기후 시뮬레이션, 천체 물리학 데이터 분석 등 대량의 수학적 코딩이 요구되는 연구 현장에 ERA와 같은 자율 탐색형 AI 코딩 엔진이 핵심 어시스턴트로 자리 잡아 융합 연구를 대중화시킬 것으로 전망됩니다.
