퍼플렉시티, AI 스크래핑을 명시적으로 차단한 웹사이트 스크래핑 혐의로 비난받아

sw_reporter

클라우드플레어(Cloudflare)에 따르면, AI 스타트업 Perplexity가 스크래핑을 원치 않는다고 웹사이트에서 명시적으로 표시한 콘텐츠를 크롤링하고 스크래핑하고 있습니다.

클라우드플레어는 월요일에 발표한 연구 보고서를 통해, 해당 AI 스타트업이 차단 조치를 무시하고 크롤링 및 스크래핑 활동을 은폐하고 있음을 관찰했다고 밝혔습니다. 이 네트워크 인프라 거대 기업은 클라우드플레어 연구원들이 분석한 바에 따르면, Perplexity가 "웹사이트의 선호 설정(preferences)을 우회하려는 시도"를 위해 웹 페이지를 스크래핑하는 과정에서 신원을 위장했다고 비난했습니다.

Perplexity가 제공하는 것과 같은 AI 제품들은 인터넷의 방대한 양의 데이터에 의존하며, AI 스타트업들은 제품 작동을 위해 오랫동안 허가 없이 인터넷의 텍스트, 이미지, 비디오 등을 수차례 스크래핑해 왔습니다. 이에 대응하여 웹사이트들은 검색 엔진과 AI 기업에 어떤 페이지가 색인화 가능한지, 어떤 페이지가 불가능한지를 알려주는 웹 표준 파일인 Robots.txt를 사용해왔지만, 그 노력들은 지금까지 엇갈린 결과를 보이고 있습니다.

클라우드플레어에 따르면, Perplexity는 봇의 "사용자 에이전트(user agent)"를 변경하는 방식으로 차단을 우회하려는 것으로 보입니다. 사용자 에이전트는 기기 유형과 버전을 통해 웹 방문자를 식별하는 신호이며, 또한 인터넷상의 대규모 네트워크를 식별하는 번호인 자율 시스템 번호(ASN, Autonomous System Number)까지 변경하고 있습니다.

클라우드플레어는 "이 활동은 수만 개의 도메인과 매일 수백만 건의 요청에 걸쳐 관찰되었습니다. 우리는 기계 학습과 네트워크 신호의 조합을 이용하여 이 크롤러를 지문 인식할 수 있었습니다."라고 게시했습니다.

반면, Perplexity의 대변인 Jesse Dwyer는 클라우드플레어의 블로그 게시물을 "영업용 제안(sales pitch)"으로 일축하며, TechCrunch에 보낸 이메라피를 통해 게시물의 스크린샷은 "어떠한 콘텐츠도 접근하지 않았음"을 보여준다고 반박했습니다. 이어 Dwyer는 클라우드플레어 블로그에 언급된 봇조차도 "우리 것이 아니다"라고 주장했습니다.

클라우드플레어는 이와 관련하여, 고객들의 제보를 받고서야 Perplexity가 Robots 파일에 규칙을 추가하고 알려진 봇을 차단했음에도 불구하고 스크래핑 및 크롤링하는 행동을 처음 인지했다고 밝혔습니다. 클라우드플레어는 이후 테스트를 진행하여 Perplexity가 이러한 차단 조치들을 우회하고 있음을 확인했다고 설명했습니다.

클라우드플레어는 "Perplexity가 자신들이 선언한 사용자 에이전트 외에도, macOS 환경에서 작동하는 일반적인 브라우저의 사용자 에이전트를 사용하는 것을 포착했다"고 지적했습니다.

이러한 상황 속에서, 클라우드플레어는 AI 기반으로 콘텐츠 출처를 파악하고 웹사이트의 오용을 방지하기 위해 웹사이트 소유자에게 새로운 보안 및 출처 확인 기능을 제공하며 업계의 관심을 받고 있습니다.

[출처:] https://techcrunch.com/2025/08/04/perplexity-accused-of-scraping-websites-that-explicitly-blocked-ai-scraping