2026년 2월 20일 발생한 클라우드플레어(Cloudflare) 서비스 중단 사태

2026년 2월 20일 17:48 UTC, 클라우드플레어의 BYOIP 서비스 관리 방식 변경 중 BGP 경로가 의도치 않게 철회되어 약 6시간 7분 동안 서비스 장애가 발생했습니다. 이 오류로 전체 BYOIP 접두사의 25%인 약 1,100개가 영향을 받았으며, 1.1.1.1 DNS 서비스 일부도 접속 불능 상태에 빠졌습니다.

AI 요약

2026년 2월 20일, 클라우드플레어(Cloudflare)는 자사의 'Bring Your Own IP(BYOIP)' 서비스 관리 파이프라인의 변경 사항을 적용하던 중 대규모 서비스 중단 사태를 겪었습니다. 이번 장애는 사이버 공격이나 악의적인 활동이 아닌, 네트워크 설정 변경 과정에서 BGP(Border Gateway Protocol) 경로가 의도치 않게 철회되면서 발생했습니다. 총 6시간 7분 동안 지속된 이번 장애로 인해 BYOIP를 사용하는 수많은 기업의 애플리케이션과 서비스가 인터넷에서 도달 불가능한 상태가 되었으며, 클라우드플레어의 주요 서비스인 1.1.1.1의 특정 목적지인 'one.one.one.one'도 함께 영향을 받았습니다. 엔지니어들은 장애 발생 즉시 변경 사항을 되돌리고 설정을 복구하는 작업을 진행했으며, 일부 고객은 대시보드를 통해 직접 IP를 재광고함으로써 서비스를 조기에 복구할 수 있었습니다. 클라우드플레어는 이번 사건의 구체적인 원인과 프로세스 실패 지점을 투명하게 공개하며 재발 방지를 약속했습니다.

핵심 인사이트

  • 장애 발생 시각 및 지속 시간: 2026년 2월 20일 17:48 UTC에 시작되어 총 6시간 7분 동안 장애가 지속됨.
  • 피해 규모: 특정 피어(Peer)에 광고되는 전체 6,500개 접두사 중 1,100개가 철회되었으며, 이는 전체 BYOIP 접두사(4,306개)의 약 25%에 해당함.
  • 주요 영향 서비스: BYOIP 고객 서비스 전반 및 클라우드플레어의 1.1.1.1(one.one.one.one) DNS 서비스 일부.
  • 원인 분석: BYOIP 파이프라인의 IP 주소 관리 방식 변경 과정에서 발생한 내부 설정 오류로, 외부 공격과는 무관함.

주요 디테일

  • BGP 철회 메커니즘: 클라우드플레어 네트워크에서 고객의 IP 접두사(Prefix) 광고가 중단되면서 인터넷 연결 타임아웃 및 접속 실패가 발생함.
  • 장애 전개 과정: 17:56부터 18:46 UTC 사이에 1,100개의 접두사가 집중적으로 철회되었으며, 엔지니어들이 이를 감지하고 복구 작업을 시작함.
  • 고객 자체 복구 지원: 19:19 UTC에 클라우드플레어는 고객이 대시보드에서 직접 IP를 다시 광고하여 문제를 해결할 수 있다는 안내 지침을 발표함.
  • 단계적 복구 상황: 20:20 UTC에 설정 복구를 통해 800개의 접두사가 먼저 정상화되었으나, 엣지 구성이 삭제된 약 300개의 접두사는 복구에 더 많은 시간이 소요됨.
  • 기술 투명성: David Tuber와 Dzevad Trumic 등 기술 담당자들이 사고의 상세한 타임라인과 실패 원인을 블로그를 통해 심층적으로 분석 및 공유함.

향후 전망

  • 프로세스 강화: BYOIP 파이프라인 변경 시 자동화된 검증 단계를 강화하고, 대규모 BGP 철회를 방지하기 위한 안전장치(Safety checks)를 도입할 것으로 보임.
  • 신뢰도 회복: 장애 원인을 투명하게 공개함으로써 기술적 신뢰를 유지하려 노력하고 있으나, 대규모 인프라 관리의 리스크를 줄이기 위한 아키텍처 개선 요구가 높아질 것으로 예상됨.
Share

이것도 읽어보세요

댓글

이 소식에 대한 의견을 자유롭게 남겨주세요.

댓글 (0)

불러오는 중...