전세계 서버 먹통? 문제는 클라우드플레어 Cloudflare

장애 타임라인

문제 발생

2025년 11월 18일(화) 약 20:20 ~ 20:30경

전 세계 Cloudflare를 사용하는 웹사이트·API에서 HTTP 5xx 오류가 급증하며
X(옛 트위터), ChatGPT, Uber, 일부 금융·게임·공공기관 사이트 접근이 어려워졌습니다.

원인 파악 및 조치

장애 발생 후 약 1~2시간 사이

Cloudflare 내부 모니터링에서 전역적인 오류율 상승이 확인되었고,
Bot Management 관련 구성 변경이 문제의 출발점으로 추적되었습니다.

복구 완료

2025년 11월 18일 밤 ~ 19일 새벽 사이 (KST 기준)

영향을 준 구성 변경과 비정상적으로 커진 파일을 롤백·정상화하면서
약 3시간 안팎의 장애 이후, 전역 서비스가 점진적으로 복구되었습니다.

이번 이슈는 Cloudflare 글로벌 네트워크 전반에 영향을 준 대규모 장애로,
최근 몇 년간 가장 큰 수준의 서비스 중단 사례 중 하나로 평가되고 있습니다.

현재(2025-11-21) 기준으로는 주요 서비스가 정상 동작 중이며,
Cloudflare는 원인 분석 및 재발 방지 대책을 공개한 상태입니다.

이슈 개요

무엇이 있었나? (이슈 개요)

2025년 11월 18일, Cloudflare를 사용하는 전 세계 다수 서비스에서 접속 오류 발생
사용자는 "Internal Server Error", 5xx 에러, 응답 지연 등을 경험
X(옛 트위터), ChatGPT, Uber, 금융 트레이딩 플랫폼, 일부 공공·교통 사이트 등이 동시에 영향
장애 시간 동안 금융 브로커의 거래량 손실, 기업 서비스 중단 등 실질적인 경제적 피해도 보고됨

근본 원인 (Root Cause)

Cloudflare Bot Management 기능에서 사용하는 "피처 파일(feature file)" 생성 로직에 버그가 존재
내부 데이터베이스 권한 변경으로 인해, 해당 파일에 중복 항목이 과다하게 기록됨
그 결과 피처 파일 용량이 예상보다 크게 증가했고, 이 파일이 전 세계 엣지 서버로 배포됨
과도하게 커진 파일을 로딩하는 과정에서 핵심 프록시 소프트웨어가 크래시 → HTTP 5xx 폭증

※ Cloudflare와 외부 분석 모두 사이버 공격·DDoS·BGP 하이잭 등 외부 공격 징후는 없었다고 밝히고 있습니다.

영향 범위

Cloudflare를 통해 트래픽을 프록싱·보호하던 웹사이트·API 전반
정적 웹사이트뿐 아니라, 로그인·결제·거래 API 등 비즈니스 핵심 기능까지 일부 중단
특정 지역/ISP가 아니라 Cloudflare 글로벌 네트워크 전반에서 오류율 상승이 관측됨
일부 금융 트레이딩 사이트는 장애 시간 동안 신규 주문·청산이 거의 불가능해지는 상황 발생

Cloudflare의 대응

문제의 피처 파일을 생성하던 DB 권한/로직 롤백
각 엣지 데이터센터에 배포된 비정상 파일 회수 및 정상 버전 재배포
Bot Management 관련 일부 기능 일시 비활성화 후 점진적 재활성화
사후(Postmortem) 리포트에서 실수 지점, 장애 진행 과정, 재발 방지책을 상세 공개

재발 방지·아키텍처 관점 인사이트

단일 구성 오류가 글로벌 네트워크 전체로 빠르게 전파될 수 있는 구조의 위험성 재확인
구성 파일·정책 파일 배포에 대한 사이즈·유효성 검증(guardrail)의 중요성 부각
실시간 롤백 메커니즘, 카나리 배포, 리전별 단계적 롤아웃 전략 필요성 강조
의존도가 높은 인프라(Cloudflare, AWS 등)에 대해서는 다중 CDN/Failover 전략을 고려할 필요

서비스 운영자가 해야할 포인트

지금 당장 확인해 볼 것

우리 서비스가 Cloudflare에 얼마나 의존하는지(프록시, DNS, WAF, Bot, CDN 등) 맵핑
장애 시 참고할 status 페이지, 인시던트 구독, 알림 채널 설정 여부
주요 도메인·API에 대해 별도의 헬스체크/외부 모니터링(예: Pingdom, ThousandEyes 등) 구축 여부

아키텍처 레벨 대응 방안

중요 트래픽에 대해 멀티 CDN 또는 Direct Origin 경로를 마련할지 검토
DNS, 인증, 결제 등 핵심 기능에는 단일 벤더 의존도를 줄이기 위한 백업 플랜 설계
외부 인프라 장애 시 내부 시스템이 어떻게 동작/Fail-safe 되는지 시나리오별로 점검

운영 프로세스 관점

장애 발생 시: 누구를, 어떤 순서로, 어떤 채널로 알릴지 Runbook 정리
고객 공지 템플릿(웹/앱 배너, 공지사항, SNS 문구 등) 사전 준비
외부 장애라도, 우리 서비스의 장애 히스토리/사후 분석(포스트모템)을 내부적으로 남길 것

Q&A

Q. 이번 Cloudflare 글로벌 이슈, 보안 공격인가요?

A. 현재까지 공개된 내용으로는 내부 구성 변경 및 버그로 인한 사고이며, 외부 공격·침해 흔적은 발견되지 않았다고 밝혀졌습니다.

Q. Cloudflare를 쓰고 있다면 지금 당장 무엇을 해야 하나요?

A. 우선 Status 페이지 및 인시던트 리포트를 확인하고, 우리 서비스 영향도를 점검하세요. 그 다음 장기적으로는 멀티 CDN, 백업 DNS, 장애 대응 Runbook 등 리스크 분산 전략을 검토하는 것이 좋습니다.

Q. 이런 글로벌 인프라 장애는 앞으로도 계속 발생할까요?

A. 완전한 무중단은 사실상 불가능하며, 대형 클라우드·CDN 사업자들도 주기적으로 장애를 겪습니다. 중요한 것은 "장애를 전제로 한 설계"와, 실제 장애 시 신속히 대응할 수 있는 준비입니다.

Q. 비기술 조직/경영진에게는 어떻게 설명하면 좋을까요?

A. "전 세계 수많은 서비스가 공유하는 공용 고속도로(Cloudflare)에 사고가 난 상황" 정도로 비유하면 이해가 쉽습니다. 우리 서비스가 그 고속도로에 얼마나 의존하는지, 우회도로를 얼마나 확보해 두었는지를 함께 설명해 주면 좋습니다.