AI 요약
학술지 란셋(The Lancet)은 5월 7일, 의생명과학 분야의 연구 무결성을 뒤흔드는 대규모 조사 결과를 발표했습니다. 연구진은 2023년 1월부터 2026년 2월 사이 PubMed Central에 게재된 논문 250만 건을 자동화 파이프라인으로 전수 조사하여, 학계에 존재하지 않는 ‘가짜 인용(Fake citations)’ 사례를 추적했습니다. 조사 결과 약 3,000건의 논문이 조작되거나 실체가 없는 문헌을 인용하고 있었으며, 이러한 현상은 불과 2년 만에 12배 이상 급증한 것으로 나타났습니다. 전문가들은 이를 생성형 AI의 환각(Hallucination) 현상이 학술 생태계를 오염시키고 있는 신호로 해석하고 있으며, 현재 발견된 사례는 빙산의 일각에 불과할 것이라고 경고하고 있습니다.
핵심 인사이트
- 대규모 전수 조사: 250만 건의 의생명과학 논문에 포함된 총 1억 2,560만 개의 참고문헌을 분석하여 약 3,000건의 가짜 인용 논문 적발.
- 급격한 증가세: 2025년에 발행된 논문 중 조작된 인용을 포함한 사례는 2023년 대비 12배 증가함.
- 침투율 확인: 2025년 한 해 동안 출판된 논문의 약 1.6%가 최소 1개 이상의 존재하지 않는 문헌을 인용하고 있는 것으로 추정.
- 전문가 진단: 컬럼비아 대학교 Maxim Topaz 교수는 이번 결과가 실제 보급된 가짜 인용의 ‘최소치’에 불과하다며 심각성을 강조함.
주요 디테일
- 분석 방법론: 연구팀은 유효한 DOI(Digital Object Identifiers) 또는 PubMed ID를 가진 9,700만 개의 참고문헌을 대상으로 LLM(거대언어모델)을 활용해 제목 불일치 여부를 대조함.
- 데이터베이스 교차 검증: PubMed, Crossref, OpenAlex, Google Scholar 등 4대 주요 학술 데이터베이스에 존재하지 않는 제목은 모두 가짜 인용으로 분류.
- 위반 규모: 가짜 인용을 1~2개 포함한 논문은 2,564건, 3개 이상 포함한 중대한 위반 사례는 246건으로 집계됨.
- AI의 영향: Digital Science의 Kathryn Weber-Boer 이사는 이러한 급격한 성장이 생성형 AI의 사용과 밀접하게 연관되어 있음을 시사함.
- 기관 참여: 이번 연구는 뉴욕 컬럼비아 대학교와 런던 소재 Digital Science 소속 연구원들이 참여하여 데이터의 신뢰도를 높임.
향후 전망
- 탐지 기술 도입 가속화: 학술 데이터베이스와 출판사들은 AI가 생성한 가짜 인용을 사전에 걸러내기 위한 자동화된 검증 파이프라인 도입을 서두를 것으로 예상됨.
- 연구 윤리 강화: 생성형 AI를 활용한 논문 작성 시 참고문헌의 진위 여부를 확인해야 하는 저자의 책임과 검토 프로세스가 더욱 엄격해질 전망.
