AI 요약
세계 최대 학술 출판사인 엘스비어(Elsevier)가 아셰트(Hachette), 맥밀런(Macmillan) 등 대형 출판사 및 소설가 스콧 터로우(Scott Turow)와 공동으로 메타(Meta)를 상대로 법적 대응에 나섰습니다. 5월 5일 뉴욕 남부 지방 법원에 접수된 이번 소송은 메타가 자사의 거대언어모델(LLM)인 '라마(Llama)'를 개발하는 과정에서 저작권이 있는 수천 권의 도서와 학술 논문을 무단 복제했다는 내용을 핵심으로 합니다. 특히 출판사들은 메타가 일반적인 웹 크롤링 데이터 외에도 Sci-Hub와 LibGen 등 저작권 침해로 악명 높은 사이트에서 데이터를 토렌트 방식으로 확보했다는 구체적인 정황을 제시했습니다. 메타 측은 AI 학습이 미국 저작권법상의 '공정 이용(fair use)'에 해당한다는 주장을 펼치며 강력한 법적 방어를 예고했습니다. 이번 사례는 과학 출판사가 AI 기업을 상대로 제기한 첫 주요 소송으로, 향후 학술 데이터의 AI 활용에 대한 중요한 법적 전례가 될 것으로 보입니다.
핵심 인사이트
- 소송 제기일 및 장소: 202X년 5월 5일, 뉴욕 남부 지방 법원에 소장 접수.
- 주요 원고: 엘스비어(Cell 및 The Lancet 발행사), 아셰트(Hachette), 맥밀런(Macmillan), 작가 스콧 터로우.
- 피고: 기술 기업 메타(Meta) 및 최고경영자(CEO) 마크 저커버그(Mark Zuckerberg).
- 주요 증거: 작년 'Kadrey v. Meta' 사건에서 공개된 메타 직원들 간의 내부 이메일 내용이 주요 증거로 인용됨.
주요 디테일
- 학습 데이터 소스: 메타가 'Common Crawl' 데이터셋뿐만 아니라 유료 논문과 도서가 무단으로 올라온 LibGen 및 Sci-Hub를 통해 데이터를 확보했다고 적시함.
- 데이터 획득 방식: 소장에는 메타가 파일 공유 방식인 '토렌트(torrenting)'를 통해 저작권 침해 사이트의 자료를 다운로드했다는 내용이 포함됨.
- 출판 협회의 입장: 미국 출판 협회(AAP)는 이번 사건이 메타의 노골적인 권리 침해에 대해 주요 출판사들이 목소리를 내는 첫 번째 AI 관련 법적 조치라고 강조함.
- 메타의 방어 논리: 메타 대변인은 AI 학습이 창의성과 생산성을 높이는 혁신이며, 저작물 학습이 '공정 이용'에 해당한다는 기존 법원 판결을 근거로 소송에 적극 대응하겠다고 밝힘.
- 학술 데이터의 특징: AI 기업들이 학습 데이터를 구체적으로 공개하지 않으나, 유료 결제가 필요한(paywalled) 연구 논문들이 모델 학습에 광범위하게 사용된 것으로 업계는 추정 중임.
향후 전망
- 이번 소송은 뉴욕타임스(NYT) 등이 제기한 유사 소송들과 함께 AI 학습의 저작권 인정 범위에 대한 명확한 기준을 확립하는 계기가 될 것입니다.
- 만약 출판사 측이 승소할 경우, AI 기업들은 학술 논문 및 전문 서적 데이터 사용에 대해 막대한 라이선스 비용을 지불해야 할 가능성이 큽니다.
