장애 타임라인
문제 발생
2025년 11월 18일(화) 약 20:20 ~ 20:30경
전 세계 Cloudflare를 사용하는 웹사이트·API에서 HTTP 5xx 오류가 급증하며
X(옛 트위터), ChatGPT, Uber, 일부 금융·게임·공공기관 사이트 접근이 어려워졌습니다.
X(옛 트위터), ChatGPT, Uber, 일부 금융·게임·공공기관 사이트 접근이 어려워졌습니다.
원인 파악 및 조치
장애 발생 후 약 1~2시간 사이
Cloudflare 내부 모니터링에서 전역적인 오류율 상승이 확인되었고,
Bot Management 관련 구성 변경이 문제의 출발점으로 추적되었습니다.
Bot Management 관련 구성 변경이 문제의 출발점으로 추적되었습니다.
복구 완료
2025년 11월 18일 밤 ~ 19일 새벽 사이 (KST 기준)
영향을 준 구성 변경과 비정상적으로 커진 파일을 롤백·정상화하면서
약 3시간 안팎의 장애 이후, 전역 서비스가 점진적으로 복구되었습니다.
약 3시간 안팎의 장애 이후, 전역 서비스가 점진적으로 복구되었습니다.
이번 이슈는 Cloudflare 글로벌 네트워크 전반에 영향을 준 대규모 장애로,
최근 몇 년간 가장 큰 수준의 서비스 중단 사례 중 하나로 평가되고 있습니다.
현재(2025-11-21) 기준으로는 주요 서비스가 정상 동작 중이며,
Cloudflare는 원인 분석 및 재발 방지 대책을 공개한 상태입니다.
최근 몇 년간 가장 큰 수준의 서비스 중단 사례 중 하나로 평가되고 있습니다.
현재(2025-11-21) 기준으로는 주요 서비스가 정상 동작 중이며,
Cloudflare는 원인 분석 및 재발 방지 대책을 공개한 상태입니다.
이슈 개요
무엇이 있었나? (이슈 개요)
- 2025년 11월 18일, Cloudflare를 사용하는 전 세계 다수 서비스에서 접속 오류 발생
- 사용자는 "Internal Server Error", 5xx 에러, 응답 지연 등을 경험
- X(옛 트위터), ChatGPT, Uber, 금융 트레이딩 플랫폼, 일부 공공·교통 사이트 등이 동시에 영향
- 장애 시간 동안 금융 브로커의 거래량 손실, 기업 서비스 중단 등 실질적인 경제적 피해도 보고됨
근본 원인 (Root Cause)
- Cloudflare Bot Management 기능에서 사용하는 "피처 파일(feature file)" 생성 로직에 버그가 존재
- 내부 데이터베이스 권한 변경으로 인해, 해당 파일에 중복 항목이 과다하게 기록됨
- 그 결과 피처 파일 용량이 예상보다 크게 증가했고, 이 파일이 전 세계 엣지 서버로 배포됨
- 과도하게 커진 파일을 로딩하는 과정에서 핵심 프록시 소프트웨어가 크래시 → HTTP 5xx 폭증
※ Cloudflare와 외부 분석 모두 사이버 공격·DDoS·BGP 하이잭 등 외부 공격 징후는 없었다고 밝히고 있습니다.
영향 범위
- Cloudflare를 통해 트래픽을 프록싱·보호하던 웹사이트·API 전반
- 정적 웹사이트뿐 아니라, 로그인·결제·거래 API 등 비즈니스 핵심 기능까지 일부 중단
- 특정 지역/ISP가 아니라 Cloudflare 글로벌 네트워크 전반에서 오류율 상승이 관측됨
- 일부 금융 트레이딩 사이트는 장애 시간 동안 신규 주문·청산이 거의 불가능해지는 상황 발생
Cloudflare의 대응
- 문제의 피처 파일을 생성하던 DB 권한/로직 롤백
- 각 엣지 데이터센터에 배포된 비정상 파일 회수 및 정상 버전 재배포
- Bot Management 관련 일부 기능 일시 비활성화 후 점진적 재활성화
- 사후(Postmortem) 리포트에서 실수 지점, 장애 진행 과정, 재발 방지책을 상세 공개
재발 방지·아키텍처 관점 인사이트
- 단일 구성 오류가 글로벌 네트워크 전체로 빠르게 전파될 수 있는 구조의 위험성 재확인
- 구성 파일·정책 파일 배포에 대한 사이즈·유효성 검증(guardrail)의 중요성 부각
- 실시간 롤백 메커니즘, 카나리 배포, 리전별 단계적 롤아웃 전략 필요성 강조
- 의존도가 높은 인프라(Cloudflare, AWS 등)에 대해서는 다중 CDN/Failover 전략을 고려할 필요
서비스 운영자가 해야할 포인트
지금 당장 확인해 볼 것
- 우리 서비스가 Cloudflare에 얼마나 의존하는지(프록시, DNS, WAF, Bot, CDN 등) 맵핑
- 장애 시 참고할 status 페이지, 인시던트 구독, 알림 채널 설정 여부
- 주요 도메인·API에 대해 별도의 헬스체크/외부 모니터링(예: Pingdom, ThousandEyes 등) 구축 여부
아키텍처 레벨 대응 방안
- 중요 트래픽에 대해 멀티 CDN 또는 Direct Origin 경로를 마련할지 검토
- DNS, 인증, 결제 등 핵심 기능에는 단일 벤더 의존도를 줄이기 위한 백업 플랜 설계
- 외부 인프라 장애 시 내부 시스템이 어떻게 동작/Fail-safe 되는지 시나리오별로 점검
운영 프로세스 관점
- 장애 발생 시: 누구를, 어떤 순서로, 어떤 채널로 알릴지 Runbook 정리
- 고객 공지 템플릿(웹/앱 배너, 공지사항, SNS 문구 등) 사전 준비
- 외부 장애라도, 우리 서비스의 장애 히스토리/사후 분석(포스트모템)을 내부적으로 남길 것