AI 요약
최근 RAG(검색 증강 생성) 시스템의 보안 취약점을 이용한 '지식 기반 오염' 공격 방식이 주목받고 있습니다. 이번 실험에서는 MacBook Pro 로컬 환경에서 클라우드나 GPU 지원 없이 단 3분 만에 RAG 시스템의 신뢰성을 완전히 무너뜨리는 데 성공했습니다. 공격자는 단 3개의 위조 문서를 ChromaDB 지식 기반에 주입했으며, 그 결과 AI는 실제 데이터인 '매출 2,470만 달러, 수익 650만 달러' 대신 '매출 830만 달러, 전년 대비 47% 감소'라는 허위 정보를 확신을 가지고 답변했습니다. 이는 사용자 쿼리를 직접 조작하거나 소프트웨어의 취약점을 파고드는 대신, AI가 참고하는 소스 데이터 자체를 오염시키는 방식입니다. 특히 USENIX Security 2025 논문인 'PoisonedRAG'에서 제시된 수학적 모델을 통해 대규모 문서 환경에서도 검색 유사도와 생성 조건을 충족하면 90% 이상의 공격 성공률을 기록할 수 있음이 확인되었습니다.
핵심 인사이트
- 공격 가성비: MacBook Pro에서 별도의 GPU나 클라우드 API 호출 없이 3분 이내에 공격이 완료될 만큼 실행 장벽이 매우 낮습니다.
- 수치 조작 성공: 실제 지식 기반에 저장된 Q4 2025 매출액 2,470만 달러와 수익 650만 달러를 각각 830만 달러와 인수 합병 논의 중이라는 허위 정보로 대체했습니다.
- 이론적 배경: Zou 등이 USENIX Security 2025에서 발표한 'PoisonedRAG' 논문의 이론적 토대를 활용하여 실증했습니다.
- 공격 효율: 수천만 개의 문서가 포함된 대규모 지식 기반에서도 최적화된 페이로드를 통해 90%의 공격 성공률을 보일 수 있음을 시사합니다.
주요 디테일
- 기술 스택: LLM으로는 'Qwen2.5-7B-Instruct (Q4_K_M)', 임베딩 모델은 'all-MiniLM-L6-v2', 벡터 DB는 'ChromaDB'를 로컬에서 구동했습니다.
- 성공 조건 1 (검색 조건): 오염된 문서가 타겟 쿼리에 대해 실제 문서보다 높은 코사인 유사도(Cosine Similarity) 점수를 얻어 검색 상위에 노출되어야 합니다.
- 성공 조건 2 (생성 조건): 검색된 허위 내용이 LLM으로 하여금 공격자가 의도한 특정 답변을 생성하게 유도하는 설득력을 갖춰야 합니다.
- 어휘 엔지니어링: 이번 테스트에서는 임베딩 모델에 대한 별도의 기울기 최적화(Gradient-optimized) 없이 어휘 엔지니어링 기법만으로도 5개의 문서 중 타겟 문서를 밀어내는 데 성공했습니다.
- 현실적 위협: 기업 내부용 RAG 시스템이 외부 문서를 자동으로 수집하거나 신뢰할 수 없는 소스를 포함할 경우 심각한 비즈니스 오판을 초래할 수 있습니다.
향후 전망
- 보안 검증 강화: 기업들이 RAG 시스템을 구축할 때 단순한 소프트웨어 패치뿐만 아니라 주입되는 문서의 무결성을 검증하는 파이프라인 구축이 필수가 될 것입니다.
- 방어 기술의 부상: 검색 결과에서 이상치를 탐지하거나 오염된 문서를 필터링하는 'RAG 전용 방화벽' 기술에 대한 수요가 늘어날 것으로 보입니다.
