전세계 서버 먹통? 문제는 클라우드플레어 Cloudflare

2025-11-18 전세계 사이트들이 먹통이 되었습니다. 문제를 살펴보고, 대응을 어떻게 해야할지 알아보도록 하겠습니다.
전세계 서버 먹통?

장애 타임라인

문제 발생

2025년 11월 18일(화) 약 20:20 ~ 20:30경

전 세계 Cloudflare를 사용하는 웹사이트·API에서 HTTP 5xx 오류가 급증하며
X(옛 트위터), ChatGPT, Uber, 일부 금융·게임·공공기관 사이트 접근이 어려워졌습니다.

원인 파악 및 조치

장애 발생 후 약 1~2시간 사이
Cloudflare 내부 모니터링에서 전역적인 오류율 상승이 확인되었고,
Bot Management 관련 구성 변경이 문제의 출발점으로 추적되었습니다.

복구 완료

2025년 11월 18일 밤 ~ 19일 새벽 사이 (KST 기준)
영향을 준 구성 변경과 비정상적으로 커진 파일을 롤백·정상화하면서
약 3시간 안팎의 장애 이후, 전역 서비스가 점진적으로 복구되었습니다.
이번 이슈는 Cloudflare 글로벌 네트워크 전반에 영향을 준 대규모 장애로,
최근 몇 년간 가장 큰 수준의 서비스 중단 사례 중 하나로 평가되고 있습니다.

현재(2025-11-21) 기준으로는 주요 서비스가 정상 동작 중이며,
Cloudflare는 원인 분석 및 재발 방지 대책을 공개한 상태입니다.

이슈 개요

무엇이 있었나? (이슈 개요)

  • 2025년 11월 18일, Cloudflare를 사용하는 전 세계 다수 서비스에서 접속 오류 발생
  • 사용자는 "Internal Server Error", 5xx 에러, 응답 지연 등을 경험
  • X(옛 트위터), ChatGPT, Uber, 금융 트레이딩 플랫폼, 일부 공공·교통 사이트 등이 동시에 영향
  • 장애 시간 동안 금융 브로커의 거래량 손실, 기업 서비스 중단 등 실질적인 경제적 피해도 보고됨

근본 원인 (Root Cause)

  • Cloudflare Bot Management 기능에서 사용하는 "피처 파일(feature file)" 생성 로직에 버그가 존재
  • 내부 데이터베이스 권한 변경으로 인해, 해당 파일에 중복 항목이 과다하게 기록됨
  • 그 결과 피처 파일 용량이 예상보다 크게 증가했고, 이 파일이 전 세계 엣지 서버로 배포됨
  • 과도하게 커진 파일을 로딩하는 과정에서 핵심 프록시 소프트웨어가 크래시 → HTTP 5xx 폭증
※ Cloudflare와 외부 분석 모두 사이버 공격·DDoS·BGP 하이잭 등 외부 공격 징후는 없었다고 밝히고 있습니다.

영향 범위

  • Cloudflare를 통해 트래픽을 프록싱·보호하던 웹사이트·API 전반
  • 정적 웹사이트뿐 아니라, 로그인·결제·거래 API 등 비즈니스 핵심 기능까지 일부 중단
  • 특정 지역/ISP가 아니라 Cloudflare 글로벌 네트워크 전반에서 오류율 상승이 관측됨
  • 일부 금융 트레이딩 사이트는 장애 시간 동안 신규 주문·청산이 거의 불가능해지는 상황 발생

Cloudflare의 대응

  • 문제의 피처 파일을 생성하던 DB 권한/로직 롤백
  • 각 엣지 데이터센터에 배포된 비정상 파일 회수 및 정상 버전 재배포
  • Bot Management 관련 일부 기능 일시 비활성화 후 점진적 재활성화
  • 사후(Postmortem) 리포트에서 실수 지점, 장애 진행 과정, 재발 방지책을 상세 공개

재발 방지·아키텍처 관점 인사이트

  • 단일 구성 오류가 글로벌 네트워크 전체로 빠르게 전파될 수 있는 구조의 위험성 재확인
  • 구성 파일·정책 파일 배포에 대한 사이즈·유효성 검증(guardrail)의 중요성 부각
  • 실시간 롤백 메커니즘, 카나리 배포, 리전별 단계적 롤아웃 전략 필요성 강조
  • 의존도가 높은 인프라(Cloudflare, AWS 등)에 대해서는 다중 CDN/Failover 전략을 고려할 필요

서비스 운영자가 해야할 포인트

지금 당장 확인해 볼 것

  • 우리 서비스가 Cloudflare에 얼마나 의존하는지(프록시, DNS, WAF, Bot, CDN 등) 맵핑
  • 장애 시 참고할 status 페이지, 인시던트 구독, 알림 채널 설정 여부
  • 주요 도메인·API에 대해 별도의 헬스체크/외부 모니터링(예: Pingdom, ThousandEyes 등) 구축 여부

아키텍처 레벨 대응 방안

  • 중요 트래픽에 대해 멀티 CDN 또는 Direct Origin 경로를 마련할지 검토
  • DNS, 인증, 결제 등 핵심 기능에는 단일 벤더 의존도를 줄이기 위한 백업 플랜 설계
  • 외부 인프라 장애 시 내부 시스템이 어떻게 동작/Fail-safe 되는지 시나리오별로 점검

운영 프로세스 관점

  • 장애 발생 시: 누구를, 어떤 순서로, 어떤 채널로 알릴지 Runbook 정리
  • 고객 공지 템플릿(웹/앱 배너, 공지사항, SNS 문구 등) 사전 준비
  • 외부 장애라도, 우리 서비스의 장애 히스토리/사후 분석(포스트모템)을 내부적으로 남길 것

Q&A

Q. 이번 Cloudflare 글로벌 이슈, 보안 공격인가요?

A. 현재까지 공개된 내용으로는 내부 구성 변경 및 버그로 인한 사고이며, 외부 공격·침해 흔적은 발견되지 않았다고 밝혀졌습니다.

Q. Cloudflare를 쓰고 있다면 지금 당장 무엇을 해야 하나요?

A. 우선 Status 페이지 및 인시던트 리포트를 확인하고, 우리 서비스 영향도를 점검하세요. 그 다음 장기적으로는 멀티 CDN, 백업 DNS, 장애 대응 Runbook 등 리스크 분산 전략을 검토하는 것이 좋습니다.

Q. 이런 글로벌 인프라 장애는 앞으로도 계속 발생할까요?

A. 완전한 무중단은 사실상 불가능하며, 대형 클라우드·CDN 사업자들도 주기적으로 장애를 겪습니다. 중요한 것은 "장애를 전제로 한 설계"와, 실제 장애 시 신속히 대응할 수 있는 준비입니다.

Q. 비기술 조직/경영진에게는 어떻게 설명하면 좋을까요?

A. "전 세계 수많은 서비스가 공유하는 공용 고속도로(Cloudflare)에 사고가 난 상황" 정도로 비유하면 이해가 쉽습니다. 우리 서비스가 그 고속도로에 얼마나 의존하는지, 우회도로를 얼마나 확보해 두었는지를 함께 설명해 주면 좋습니다.