AI 요약
생성형 AI가 존재하지 않는 논문을 마치 실존하는 것처럼 인용하는 '환각(Hallucination)' 현상이 학계에 심각한 위협으로 부상했습니다. 코넬 대학교의 이안 인(Yian Yin) 조교수팀은 arXiv, SSRN, PubMed Central 등 주요 저장소에 등록된 250만 편의 논문과 1억 1,100만 개의 참조 문헌을 전수 조사했습니다. 조사 결과 2025년 한 해에만 14만 6,932건의 가짜 인용 사례가 확인되었으며, 특히 사회과학 분야인 SSRN은 타 저장소 대비 압도적으로 높은 1.91%의 환각 인용률을 기록했습니다. 연구팀은 2022년 ChatGPT 출시 이후 이러한 오류가 급증한 점에 주목하며, AI 도구의 무분별한 사용이 학술 문헌 생태계를 오염시키고 있다고 분석했습니다. 또한 가짜 인용이 이미 유명한 고인용 학자들에게 편향되는 현상도 발견되었습니다.
핵심 인사이트
- 대규모 데이터 분석: 연구팀은 총 250만 편의 논문과 그에 포함된 1억 1,100만 개의 참조 문헌을 정밀 분석함.
- 분야별 격차: 사회과학 논문 저장소인 SSRN의 환각 인용률은 1.91%로, 물리과학 분야인 arXiv(0.39%)보다 약 5배 높음.
- ChatGPT 기점: 연구진은 데이터 오염의 원인을 명확히 하기 위해 ChatGPT가 출시된 2022년 이후의 자료를 집중적으로 조사함.
- 총 발견 건수: 2025년 한 해 동안에만 총 146,932건의 실재하지 않는 환각 인용 사례를 적발함.
주요 디테일
- 검증 방법론: 추출된 참조 문헌 제목을 Semantic Scholar, OpenAlex, Google Scholar와 대조하여 일치 여부를 확인하고 LLM을 통해 학술 출처 의도 여부를 판단함.
- 저장소별 수치: SSRN(1.91%), arXiv(0.39%), PubMed Central(0.27%), bioRxiv(0.21%) 순으로 가짜 인용 발생률이 높게 나타남.
- 저자 특징: 2022년 이전 출판 이력이 거의 없는 신진 연구자들의 작업물에서 환각 인용이 더 빈번하게 발생함.
- 인지도 편향: 가짜 인용 데이터가 생성될 때, 이미 인지도가 높고 인용 횟수가 많은 남성 연구자들을 허위로 인용하는 경향이 뚜렷함.
- 동료 평가 상태: 해당 분석 결과는 현재 arXiv에 게재되었으며, 아직 공식적인 동료 평가(Peer-review)를 거치지 않은 상태임.
향후 전망
- 검증 절차 강화: 학술지 및 저장소 운영사들이 AI 생성 인용 여부를 판별하기 위한 자동화된 필터링 시스템을 적극 도입할 것으로 보임.
- 학술 데이터 왜곡: 가짜 인용이 기성 학자들의 인용 지수를 비정상적으로 높이는 등 학계의 객관적인 평판 지표가 왜곡될 위험이 큼.
