내 웹사이트가 털렸다? 무분별한 크롤링으로 증발한 1.5TB 트래픽

AI 요약

최근 런칭한 AI/Agent 스킬 인덱스 웹사이트인 'skills.lc'가 별도의 홍보 없이도 오픈 3일 만에 트래픽이 기하급수적으로 폭증하는 사건이 발생했습니다. 운영자가 분석한 로그에 따르면, 일일 트래픽은 1.09TB에서 시작해 최고 1.57TB까지 치솟았으며 이는 일반 사용자의 유입이 아닌 스크립트를 이용한 무차별적인 데이터 크롤링이 원인이었습니다. 특히 홍콩(50.7.250.66)과 중국 난징(121.237.245.164) 소재의 특정 IP들이 curl 명령어를 통해 사이트 내 리소스를 지속적으로 다운로드하며 서버 가용성을 침해했습니다. 공격자들은 공개된 GitHub 리소스를 직접 가져가는 대신 skills.lc 서버를 경유지로 활용해 막대한 대역폭 비용을 발생시켰습니다. 운영자는 이를 AI 학습 데이터 수집이나 사이트 미러링을 목적으로 한 공격으로 규정하고, 기술적 방어 체계 구축에 착수했습니다.

핵심 인사이트

트래픽 급증: 사이트 오픈 후 3일간 트래픽이 1.09TB, 1.21TB, 1.47TB를 거쳐 최대 1.57TB까지 지속적으로 상승함.
가해 IP 식별: 홍콩 소재의 '50.7.250.66'과 중국 난징 소재의 '121.237.245.164'가 주범으로 지목됨.
로그 기록: 2026년 3월 13일 기준 curl/7.87.0 및 curl/8.16.0 User-Agent를 통한 자동화된 요청이 집중됨.

주요 디테일

무료 CDN 악용: 공격자들은 원본 출처인 GitHub에서 데이터를 직접 받지 않고, skills.lc 서버를 거쳐 반복적으로 데이터를 풀(pull)하며 운영자에게 트래픽 비용을 전가함.
크롤링 동기: AI 도구 사이트 구축을 위한 데이터 미러링, AI 모델 훈련용 데이터 확보, 또는 자동화된 정보 집계 봇(Aggregation Bot)의 활동으로 추정됨.
기술적 취약점: 초기 사이트가 별도의 인증 토큰이나 요청 제한(Rate Limit) 없이 리소스에 접근할 수 있었던 점을 악용함.
방어 대책 수립: IP당 분당 요청 수 제한, Cloudflare 'Bot Fight' 활성화, 다운로드 인터페이스에 인증 토큰 추가, WAF 및 robots.txt 설정 강화 예정.

향후 전망

보안 우선주의: 소규모 독립 웹사이트라 할지라도 런칭 초기부터 마케팅보다 크롤러 방어 및 WAF 설정이 필수적인 운영 표준이 될 것으로 보임.
데이터 약탈 가속화: AI 산업의 경쟁이 심화됨에 따라 타 사이트의 데이터를 무단으로 긁어가는 '데이터 스크래핑' 위협이 소규모 서비스 운영자에게 더 큰 경제적 부담(트래픽 비용)을 줄 것으로 예상됨.

원문:https://juejin.cn/post/7616542595250995250

출처:juejin

내 웹사이트가 털렸다? 무분별한 크롤링으로 증발한 1.5TB 트래픽

AI 요약

핵심 인사이트

주요 디테일

향후 전망

이것도 읽어보세요

KOReader 숨겨진 플러그인 5개, 내 독서 습관을 완전히 바꿨다

초고속·초신뢰 렉서스 하이브리드, 신형 토요타 캠리와 가격 동일

자동 소멸 이메일 주소… 구글이 안 해주는 프라이버시 보호 꿀팁

라즈베리파이, 15년 독주 체제에 적신호… 그 이유는?