클라우드플레어, AI 봇 대응 도구 출시

sw_reporter

공개적으로 거래되는 클라우드 서비스 제공업체인 클라우드플레어(Cloudflare)가 자체 플랫폼에 호스팅된 웹사이트를 대상으로 AI 모델 훈련용 데이터를 무단으로 수집하는 봇(bot)을 차단하기 위해 새로운 무료 도구를 출시했습니다.

구글(Google), OpenAI, 애플(Apple) 등 일부 AI 벤더들은 웹사이트 소유주가 자신의 사이트의 robots.txt—봇에게 웹사이트 접근 가능 페이지를 알려주는 텍스트 파일—를 수정하여 데이터 스크래핑 및 모델 훈련에 사용되는 봇의 접근을 막을 수 있도록 허용합니다. 하지만 클라우드플레어는 자체 블로그에 게시한 봇 방지 도구 공지에서 모든 AI 스크래퍼가 이러한 표준을 준수하는 것은 아니라고 지적했습니다.

클라우드플레어는 공식 블로그를 통해 "고객들은 AI 봇이 자신의 웹사이트를 방문하는 것을 원치 않으며, 특히 비윤리적인 방식의 방문은 더욱 원치 않습니다"라고 밝혔습니다. 이어 "우리는 규칙을 우회하여 콘텐츠에 접근하려는 일부 AI 회사들이 봇 탐지 기술을 회피하기 위해 지속적으로 적응할 것을 우려합니다"라고 덧붙였습니다.

이 문제에 대응하기 위해 클라우드플레어는 AI 봇 및 크롤러 트래픽을 분석하여 자동 봇 탐지 모델을 고도화했습니다. 이 모델들은 AI 봇이 웹 브라우저 사용자처럼 외관과 행동을 모방하여 탐지를 우회하려 하는지 여부 등 다양한 요소를 고려합니다.

클라우드플레어는 "악의적인 행위자들이 대규모로 웹사이트를 크롤링하려 할 때는 일반적으로 우리가 지문 인식(fingerprint)할 수 있는 도구와 프레임워크를 사용합니다"라고 설명했습니다. 또한 "이러한 신호들을 기반으로, 저희 모델은 회피형 AI 봇의 트래픽을 봇으로 적절하게 식별할 수 있습니다"라고 밝혔습니다.

클라우드플레어는 호스팅 업체가 의심스러운 AI 봇 및 크롤러를 신고할 수 있는 양식을 마련했으며, 향후에도 AI 봇에 대한 수동 블랙리스트 지정 작업을 지속할 것이라고 전했습니다.

AI 봇 문제는 생성형 AI 붐이 모델 훈련 데이터에 대한 수요를 증폭시키면서 더욱 심각하게 부각되고 있습니다.

많은 웹사이트들은 AI 벤더들이 사전에 알리거나 보상하지 않고 콘텐츠를 모델 훈련에 사용하는 것에 대비하여 AI 스크래퍼와 크롤러를 차단하는 방식을 선택했습니다. 한 연구에 따르면 웹 상위 1,000개 사이트 중 약 26%가 OpenAI의 봇을 차단했으며, 또 다른 연구에서는 600개가 넘는 뉴스 출판사가 해당 봇을 차단한 것으로 나타났습니다.

하지만 차단이 확실한 방어책은 아닙니다. 앞서 언급했듯이, 일부 벤더들은 AI 경쟁에서 우위를 점하기 위해 표준 봇 제외 규칙을 무시하는 것처럼 보입니다.

실제로 AI 검색 엔진 Perplexity는 최근 웹사이트에서 콘텐츠를 스크래핑하기 위해 합법적인 방문자를 사칭했다는 비난을 받았습니다. 또한 OpenAI와 Anthropic 역시 간혹 robots.txt 규칙을 무시했다는 지적을 받았습니다.

콘텐츠 라이선싱 스타트업인 TollBit은 지난달 출판사들에게 보낸 서한에서 "실제로 많은 AI 에이전트들이 robots.txt 표준을 무시하고 있다"고 언급했습니다.

클라우드플레어 같은 도구가 도움이 될 수는 있으나, 단지 은밀한 AI 봇을 탐지하는 정확성을 입증할 때만 유효합니다. 더 나아가, 이 도구들이는 특정 AI 크롤러를 차단하는 경우 사이트가 포함 대상에서 제외되는 등의 문제로 인해, Google의 AI Overviews와 같은 AI 도구로부터 발생하는 유료 추천 트래픽을 희생해야 하는 출판사들의 근본적이고 해결하기 어려운 문제를 해결해주지는 못할 것입니다.

[출처:] https://techcrunch.com/2024/07/03/cloudflare-launches-a-tool-to-combat-ai-bots