• 클라우드플레어(Cloudflare) 서버의 단일 파일 문제로 발생한 어제 전 세계 인터넷 장애 — 예상치 못한 파일 크기가 치명적인 오류를 일으켜 여러 주요 웹사이트를 마비시켰다

    하나의 잘못 구성된 파일이 인터넷의 거의 3분의 1을 마비시켰습니다.

    article image

    인터넷에서 가장 큰 규모의 DDoS 및 보안 제공업체 중 하나인 클라우드플레어(Cloudflare)가 어제 대규모 서비스 장애를 겪으며 X, OpenAI를 비롯한 여러 주요 웹사이트와 전 세계의 일부 맥도날드 지점까지 마비시키는 사태가 발생했다. 이에 회사 최고기술책임자(CTO)는 공식 사과 성명을 발표했으며, 공동 창립자인 매튜 프린스(Matthew Prince)는 회사 블로그를 통해 장애의 상세 원인을 공개했다.

    클라우드플레어는 DDoS 공격 및 기타 유사한 네트워크 침입으로부터 인터넷의 상당 부분을 보호하는 웹 보안 기업이다. 이 때문에 회사 내부에서는 처음에는 외부 공격을 받은 것으로 추정했다. 실제로 클라우드플레어 문제가 발생한 날, 마이크로소프트(Microsoft)는 자사 서버를 겨냥한 기록적인 DDoS 공격 보고서를 발표하기도 했다. 그러나 클라우드플레어는 추가 조사를 거쳐 실제 원인이 외부 공격이 아닌 내부 '설정 오류(configuration error)'였음을 파악했다.

    프린스는 블로그를 통해 "이 문제는 직접적이든 간접적이든 어떠한 종류의 사이버 공격이나 악의적인 활동에 의한 것이 아니었다"고 밝혔다. 그는 "대신, 데이터베이스 시스템 권한 변경이 원인이 되어 데이터베이스가 당사의 Bot 관리 시스템에서 사용되는 '피처 파일(feature file)'에 여러 항목을 출력하면서 문제가 촉발되었다"고 설명했다. 이어 "이 피처 파일의 크기가 두 배로 늘어났고, 이 예상보다 커진 파일이 네트워크를 구성하는 모든 장치로 전파되면서 장애가 발생했다"고 덧붙였다.

    AI 코딩 봇의 실수로 인한 AWS 장애, 보고서가 지적

    article image

    오류를 일으킨 파일은 UTC 기준 11시 5분에 배포되었으나, 그 영향이 감지된 것은 23분 뒤인 11시 28분이었다. 장애는 특히 오설정된 파일이 클라우드플레어의 인프라 전반에 걸쳐 확산되면서 초기에 간헐적으로 나타났다. UTC 기준 13시 이후에는 오류가 네트워크 전체를 완전히 장악했으며, 14시 30분까지야 비로소 원인을 식별하고 해결할 수 있었다. 결국 17시 6분경 영향을 받은 모든 서비스가 재시작되었으며, 트래픽은 정상화되었다.

    클라우드플레어는 대안 서비스가 존재함에도 불구하고, 시장 점유율의 약 28%를 보유한 초대형 CDN 제공업체이다(Blazing CDN 기준). 이는 이 회사의 문제가 발생할 경우 인터넷의 3분의 1이 마비될 수 있음을 의미한다. 그러나 이는 2025년 최초의 대규모 장애는 아니다. 아마존 웹 서비스(Amazon Web Services)는 지난 10월 말에 다운되어 여러 온라인 서비스에 차질을 빚었으며, 버그가 포함된 크라우드스트라이크(CrowdStrike) 업데이트는 지난 7월 전 세계의 윈도우(Windows) 장치들을 BSOD(Blue Screen of Death) 상태로 만들기도 했다.

    최신 뉴스, 분석 및 리뷰를 피드에서 받아보려면 Tom's Hardware를 구글 뉴스에서 팔로우하거나 선호 출처로 추가하세요.

    [출처:] https://www.tomshardware.com/tech-industry/big-tech/yesterdays-global-internet-outage-caused-by-single-file-on-cloudflare-servers-unexpected-file-size-caused-catastrophic-error-knocking-out-several-major-websites