많은 소프트웨어 개발자들은 AI 웹 크롤링 봇을 인터넷의 바퀴벌레에 비유한다고 믿는다. 일부 개발자들은 재치 있고 때로는 유머러스한 방식으로 이에 맞서 싸우기 시작했다.
플라즈마(Plasma)라는 리눅스 데스크톱 환경 개발자이자 블로그 LibreNews 운영자인 니콜로 베네란디(Niccolò Venerandi)는 모든 웹사이트가 악성 크롤러 행위의 표적이 될 수 있지만, 특히 오픈 소스 개발자들이 "불균형적으로" 큰 영향을 받고 있다고 지적한다.
자연적인 특성상, 무료 및 오픈 소스 소프트웨어(FOSS) 프로젝트를 호스팅하는 사이트는 인프라의 상당 부분을 공개적으로 공유하는 경향이 있으며, 상업용 제품에 비해 자원 규모가 작은 경우가 많다.
문제는 다수의 AI 봇들이 검색 엔진 봇을 위해 원래 만들어진, 봇에게 크롤링하지 말아야 할 것을 알려주는 도구인 Robots Exclusion Protocol(robots.txt) 파일을 무시한다는 점이다.
2024년 1월, FOSS 개발자 셰 이아소(Xe Iaso)는 블로그 게시물을 통해 AmazonBot이 Git 서버 웹사이트를 끊임없이 공격하여 DDoS 서비스 중단을 초래했던 사례를 공개했다. Git 서버는 FOSS 프로젝트를 호스팅하는 곳으로, 누구나 코드를 다운로드하거나 기여할 수 있도록 한다.
그러나 이 봇은 이아소가 설정한 robots.txt를 무시했을 뿐만 아니라, 다른 IP 주소 뒤에 숨고 다른 사용자 행세를 했다고 이아소는 전했다.
이아소는 "AI 크롤러 봇들은 거짓말을 하고, 사용자 에이전트를 변경하며, 레지덴셜 IP 주소를 프록시로 사용하기 때문에 차단하는 것은 무의미하다"고 한탄했다.
그는 게시물에서 "이들은 여러분의 사이트가 무너질 때까지 계속 스크랩할 것이고, 심지어 무너진 후에도 더 스크랩할 것입니다. 모든 링크의 모든 링크의 모든 링크를 클릭하며, 같은 페이지를 반복적이고 끊임없이 볼 것입니다. 심지어 일부는 같은 링크를 같은 초에 여러 번 클릭할 것입니다"라고 썼다.
여기서 '무덤의 신'이 등장했다.
이에 이아소는 Anubis라는 도구를 개발하며 기발하게 대응했다.
Anubis는 Git 서버에 요청이 도달하기 전에 반드시 통과해야 하는 '리버스 프록시 작업 증명(reverse proxy proof-of-work check)' 시스템이다. 이 도구는 봇은 차단하지만, 인간이 운영하는 브라우저는 통과시킨다.
흥미로운 점은 Anubis가 이집트 신화에서 죽은 자들을 심판으로 인도하는 신의 이름이라는 것이다.
이아소는 TechCrunch에 "아누비스는 여러분의 영혼(심장)에 무게를 재었고, 그것이 깃털보다 무거우면 심장이 먹혀 죽게 된다"고 설명했다. 웹 요청이 이 챌린지를 통과하여 인간으로 판명되면, 귀여운 애니메이션 그림이 성공을 알린다. 이아소는 "이 그림은 아누비스를 의인화한 저의 해석입니다"라고 덧붙였다. 봇인 경우, 요청은 거부된다.
이 독특하게 이름 지어진 프로젝트는 FOSS 커뮤니티 사이에서 빠르게 퍼져나갔다. 이소는 3월에 이 도구를 공개했고, 불과 얼마 만에 2,000개의 스타를 기록했다.
[본문 수정 및 정리 (최종)]
[본문 시작]
[재구성 완료]
[본문 끝]