AI 스크레이핑 우려로 인터넷 아카이브 접근 제한하는 뉴스 발행사들

가디언(The Guardian)과 파이낸셜 타임즈(FT) 등 주요 뉴스 발행사들이 AI 기업의 무단 데이터 스크레이핑 경로로 악용되는 것을 막기 위해, 1조 개 이상의 웹페이지 스냅샷을 보유한 ‘인터넷 아카이브(Internet Archive)’의 접근을 제한하기 시작했습니다. 발행사들은 특히 인터넷 아카이브의 API가 AI 모델 학습을 위한 구조화된 데이터베이스로 활용될 가능성을 우려하고 있으며, 이로 인해 정보의 민주화를 지향하는 공익적 아카이브가 AI 산업 갈등의 ‘부수적 피해’를 입고 있는 상황입니다.

AI 요약

웹 보존을 목적으로 운영되는 비영리 단체 인터넷 아카이브가 AI 기업들의 주요 데이터 수집 처로 부상하면서 뉴스 발행사들과의 갈등이 심화되고 있습니다. 가디언은 자사 로그 분석을 통해 인터넷 아카이브의 크롤러가 빈번하게 접근하는 것을 확인하고, AI 기업들이 인터넷 아카이브의 API를 통해 구조화된 기사 데이터를 손쉽게 추출할 수 있다는 점을 경계하고 나섰습니다. 이에 따라 가디언은 기사 본문에 대한 API 접근과 웨이백 머신(Wayback Machine)의 URL 인터페이스 노출을 차단하는 조치를 취했습니다. 파이낸셜 타임즈 또한 페이월(유료 결제벽) 콘텐츠 보호를 위해 OpenAI, Anthropic과 더불어 인터넷 아카이브의 봇을 차단하고 있습니다. 이러한 흐름은 공익적 가치를 지닌 디지털 도서관이 AI 학습 데이터 확보 전쟁 속에서 발행사들의 지적 재산권을 보호하기 위한 차단의 대상으로 전락하고 있음을 보여줍니다.

핵심 인사이트

  • 1조 개 이상의 웹페이지: 인터넷 아카이브는 방대한 스냅샷을 보유하고 있어 AI 기업들에게 매력적인 학습 데이터 저장소로 간주됨.
  • 구조화된 데이터의 위험성: 가디언의 비즈니스 총괄 Robert Hahn은 웨이백 머신 자체보다 API를 통해 제공되는 '구조화된 데이터베이스'가 AI 기업의 타겟이 되고 있다고 지적함.
  • 차단 리스트 포함: 파이낸셜 타임즈는 OpenAI, Anthropic, Perplexity와 함께 인터넷 아카이브를 자사 유료 콘텐츠 접근 차단 봇 명단에 포함시킴.
  • 부수적 피해(Collateral Damage): 올드 도미니언 대학의 Michael Nelson 교수는 인터넷 아카이브와 같은 '선한 주체'가 LLM 통제 과정에서 피해를 보고 있다고 분석함.

주요 디테일

  • 가디언의 선별적 차단: 기사 페이지는 차단하지만 지역별 홈페이치, 토픽 페이지, 랜딩 페이지 등은 웨이백 머신에서 계속 보일 수 있도록 허용함.
  • 직접적인 협력: 가디언은 인터넷 아카이브와 직접 협력하여 이러한 제한 조치를 구현하고 있으며, 인터넷 아카이브 측도 발행사의 우려를 수용하고 있는 상황임.
  • 페이월 정책: 파이낸셜 타임즈의 Matt Rogerson 이사는 대부분의 FT 기사가 유료이며, 무료로 공개된 기사만 웨이백 머신에 나타나는 것이 원칙이라고 밝힘.
  • 데이터 추출 로그: 가디언은 누가 자사 콘텐츠를 추출하려 하는지 분석한 결과, 인터넷 아카이브가 빈번한 크롤러 중 하나임을 확인하고 선제적 조치를 결정함.
  • 보존 미션과의 충돌: 정보의 민주화를 지지하는 발행사들도 AI 기업들이 지적 재산권을 무단으로 가져가는 통로로 아카이브가 활용되는 것은 용납하지 않겠다는 입장임.

향후 전망

  • 봇 관리 정책의 상시화: 발행사들은 정기적인 봇 관리 검토의 일환으로 인터넷 아카이브에 대한 접근 권한을 지속적으로 재평가할 것으로 보임.
  • 웹 보존 생태계 위축 우려: 뉴스 콘텐츠의 기록 보존이 제한됨에 따라 미래의 디지털 역사 기록물로서의 아카이브 품질이 저하될 가능성이 있음.
Share

이것도 읽어보세요

댓글

이 소식에 대한 의견을 자유롭게 남겨주세요.

댓글 (0)

불러오는 중...