클라우드플레어 CTO, 오류로 인터넷 대규모 부분 마비시킨 후 사과 — '우리는 고객과 더 광범위한 인터넷에 실패했다'

hw_reporter

CTO, 정기적인 설정 변경으로 촉발된 봇 완화 버그를 문제의 원인으로 지목.

클라우드플레어는 핵심 서비스 중 하나의 버그로 인해 화요일에 대규모 서비스 장애가 발생하여 X, ChatGPT를 포함한 여러 서비스 트래픽이 영향을 받았으며 인터넷 상당 부분이 오프라인에 놓였음을 확인했습니다. 이 회사의 최고 기술 책임자(CTO) 데인 크네히트(Dane Knecht)는 서비스 복구 직후 공개 사과문을 통해 이번 사건을 "용납할 수 없다(unacceptable)"고 규탄하며, 장애의 원인을 일상적인 설정 변경 과정에서 촉발된 봇 완화(bot mitigation) 계층의 충돌로 돌렸습니다.

사건은 11월 18일(UTC) 약 11시 48분에 시작되었으며, 클라우드플레어 공식 상태 사이트(status site)는 "내부 서비스 저하(internal service degradation)"를 공식화했습니다. 문제가 확산되자 여러 지역 사용자들로부터 클라우드플레어 기반 웹사이트 접속 실패는 물론, 액세스(Access) 및 WARP 서비스 접속 불가 현상이 보고되었습니다. 이 회사는 나중에 문제의 근원이 봇 방어 도구(bot defense tooling)의 특정 종속성 문제임을 밝혀냈습니다.

크네히트는 "우리는 고객들과 더 광범위한 인터넷에 실패했다"고 적었습니다. "봇 완화 기능을 지원하는 서비스의 잠재적인 버그가 일상적인 설정 변경 후에 충돌하기 시작했다. 이것이 네트워크와 다른 서비스 전반에 걸친 광범위한 저하로 이어졌다. 이것은 공격이 아니었다."

AWS, AI 코딩 봇 실수로 인한 장애 보고서 주장

아마존, AI 도구 사용으로 인한 문제 해결 위해 엔지니어 호출 보고서 주장

UTC 기준 14시 42분까지, 클라우드플레어는 패치를 배포하고 영향을 받은 구성 요소들의 복구를 시작했습니다. 분석(analytics) 및 오류 로깅(error logging) 같은 대시보드 기능은 엔지니어들이 잔여 오류(residual faults)를 모니터링하는 오후까지 부분적으로 기능 저하 상태를 유지했습니다. 또한 완화 조치의 일환으로 런던 지역의 WARP 접근이 일시적으로 중단되기도 했습니다.

턴스타일(Turnstile) 및 JavaScript 검증 계층 같은 도전 과정(challenge flows)을 포함하는 클라우드플레어의 봇 완화 스택(bot mitigation stack)은 수많은 주요 웹사이트와 API로 연결되는 트래픽 경로에 인라인으로 구축되어 있습니다. 이러한 시스템은 악성 행위자를 차단하는 용도뿐만 아니라 정상적인 사용자 접근을 제한하는 게이트 역할도 하기에, 이 계층에 결함이 발생하면 핵심 CDN 또는 DNS 인프라가 정상 작동하더라도 광범위한 서비스 중단 사태가 발생할 수 있습니다.

이번 사건은 한 달도 안 되는 짧은 기간 동안 주요 사이트에 발생한 세 번째 대규모 장애입니다. 지난 10월에는 AWS의 미국 동부-1(US-East-1) 리전 일부가 아마존 측의 DNS 설정 오류로 인해 두 시간 이상 서비스가 중단되기도 했으며, 그 며칠 후에는 대규모 아존(Azure) 장애가 마이크로소프트에 영향을 미치기도 했습니다.

이러한 일련의 사건들은 광범위하게 사용되는 서비스와 플랫폼이 내부 서비스 오류와 종속성 격리(dependency isolation)를 대규모로 어떻게 처리해야 하는지에 대한 광범위한 의문을 던지고 있습니다. 현재 인터넷의 약 19%가 클라우드플레어에 의존하며, 아존과 AWS는 각각 클라우드 컴퓨팅 시장의 약 24%와 30%를 점유하고 있습니다.

톰스 하드웨어(Tom's Hardware)를 구글 뉴스에서 팔로우하거나, 저희를 선호 공급자로 등록하여 최신 뉴스, 분석 및 리뷰를 피드에서 받아보세요.

[출처:] https://www.tomshardware.com/service-providers/cloudflare-apologizes-after-outage-takes-major-websites-offline