AI 크롤러로 인해 위키미디어 공용(Wikimedia Commons) 대역폭 수요가 50% 급증

sw_reporter

위키미디어 재단은 위키피디아와 다수의 크라우드소싱 지식 프로젝트를 아우르는 조직으로서, 수요일에 멀티미디어 다운로드의 대역폭 소비량이 2024년 1월 이후 50% 급증했다고 밝혔다.

이 재단은 화요일 블로그 게시물을 통해 그 원인이 지식을 갈구하는 사용자 증가가 아닌, AI 모델 학습을 목적으로 하는 자동화된 데이터 수집 스크래퍼 봇 때문이라고 설명했다.

해당 게시물에는 "저희 인프라는 관심도가 높은 이벤트 발생 시 발생하는 인간 트래픽의 급증을 감당하도록 구축되었지만, 스크래퍼 봇이 생성하는 트래픽 규모는 전례가 없으며 증가하는 위험과 비용을 초래합니다"라고 명시되어 있다.

위키미디어 커먼즈(Wikimedia Commons)는 오픈 라이선스 또는 공공 영역에 속하는 이미지, 비디오, 오디오 파일 등을 자유롭게 이용할 수 있는 저장소이다.

위키미디아에 따르면, 가장 '비용이 많이 드는' 트래픽, 즉 소비되는 콘텐츠 유형별로 가장 많은 자원을 소모하는 트래픽의 거의 3분의 2(65%)가 봇에서 발생했다. 그러나 전체 페이지뷰 중 봇이 차지하는 비중은 단 35%에 불과하다. 위키미디어는 이러한 괴리 현상의 이유로, 자주 접근하는 콘텐츠는 사용자 캐시(cache)에 비교적 가까이 남아 있는 반면, 덜 자주 접근하는 콘텐츠는 콘텐츠 제공 비용이 더 많이 드는 "코어 데이터 센터(core data center)"에 저장되어 있기 때문이라고 설명했다. 이 코어 데이터 센터에 저장된 콘텐츠가 바로 봇들이 주로 찾는 유형이다.

위키미디어는 "일반 독자들은 특정—종종 비슷한—주제에 집중하는 경향이 있지만, 크롤러 봇들은 더 많은 페이지를 '대량으로 읽고(bulk read)' 덜 인기 있는 페이지까지 방문하는 경향이 있다"고 지적했다. 이어, "이는 이러한 요청들이 코어 데이터 센터로 향할 가능성이 더 높아져, 저희의 자원 소모 측면에서 훨씬 더 큰 비용을 발생시킨다는 의미입니다"라고 덧붙였다.

결론적으로, 위키미디어 재단의 사이트 안정성 팀은 일반 사용자들의 서비스 중단을 막기 위해 봇 차단에 막대한 시간과 자원을 투입하고 있다. 게다가 이는 재단이 직면한 클라우드 운영 비용은 전혀 고려하지 않은 수치이다.

사실 이러한 상황은 개방형 인터넷 자체의 존재를 위협하는 빠르게 성장하는 추세의 일부를 대변한다. 지난달, 소프트웨어 엔지니어이자 오픈 소스 옹호자인 드루 드볼트(Drew DeVault)는 AI 크롤러들이 자동 트래픽을 막기 위해 설계된 "robots.txt" 파일을 무시하는 현실을 비판했다. 또한 "실용주의 엔지니어" 거젤리 오로시(Gergely Orosz) 역시 지난주 Meta와 같은 기업의 AI 스크래퍼들이 자신의 프로젝트 대역폭 수요를 급증시켰다고 불만을 표했다.

특히 오픈 소스 인프라가 가장 취약한 전선에 놓여 있음에도 불구하고, 개발자들은 '영리함과 복수심'으로 맞서고 있다는 내용이 테크크런치(TechCrunch)를 통해 지난주 보도되었다. 일부 기술 기업들도 이 문제 해결에 나서고 있다. 예를 들어, 클라우드플레어(Cloudflare)는 최근 AI 생성 콘텐츠를 활용하여 크롤러의 속도를 늦추는 'AI 라비린스(AI Labyrinth)'를 출시한 바 있다.

하지만 이는 궁극적으로 많은 콘텐츠 제공사들이 로그인과 결제 장벽 뒤로 숨게 만들 수 있는 '고양이와 쥐의 싸움'일 수 있으며, 이는 오늘날 웹을 이용하는 모든 사용자에게 손해로 돌아갈 수 있다.

[출처:] https://techcrunch.com/2025/04/02/ai-crawlers-cause-wikimedia-commons-bandwidth-demands-to-surge-50