
구글의 AI 기반 버그 헌터가 첫 번째 보안 취약점 일괄 보고에 성공했습니다.
구글의 보안 담당 부사장 헤더 애드킨스(Heather Adkins)는 월요일, 회사의 LLM(대규모 언어 모델) 기반 취약점 연구 도구인 빅 슬립(Big Sleep)이 다양한 인기 오픈 소스 소프트웨어에서 총 20개의 취약점을 발견하고 보고했다고 발표했습니다.
애드킨스에 따르면, 빅 슬립은 구글의 AI 부서 딥마인드(DeepMind)와 최고 수준의 해커 팀인 프로젝트 제로(Project Zero)가 개발한 도구입니다. 이를 통해 구글은 최초로 취약점 보고를 발표했습니다. 보고된 취약점들은 주로 오디오 및 비디오 라이브러리 FFmpeg와 이미지 편집 스위트 ImageMagick 같은 오픈 소스 소프트웨어에서 발견되었습니다.
현재 취약점들이 아직 수정되지 않았기 때문에, 구글은 피해 영향도나 심각도에 대한 세부 정보를 공개하지 않는 것이 표준 방침입니다. 하지만 빅 슬립이 이러한 취약점을 자체적으로 발견했다는 사실 자체만으로도 의미가 큽니다. 이는 해당 도구가 실제로 결과를 도출하기 시작했음을 보여주기 때문입니다 (인간의 개입 여부와는 별개로).
구글 대변인 킴벌리 삼라(Kimberly Samra)는 테크크런치(TechCrunch)에 "보고서의 높은 품질과 실효성을 보장하기 위해 보고 전에 반드시 인간 전문가가 검토하지만, 이번에 보고된 각 취약점은 인간의 개입 없이 AI 에이전트에 의해 발견 및 재현되었다"고 밝혔습니다.
구글의 엔지니어링 부사장 로열 한센(Royal Hansen)은 X(구 트위터)에 이 발견이 "자동화된 취약점 발견의 새로운 지평"을 열었다고 적었습니다.
취약점을 찾아내는 LLM 기반 도구는 이미 현실화되었습니다. 빅 슬립 외에도 RunSybil, XBOW 등이 있습니다.
특히 XBOW는 버그 바운티 플랫폼 해커원(HackerOne)의 미국 리더보드 중 하나에서 최상위권에 오르며 큰 주목을 받았습니다. 다만, 빅 슬립의 경우와 마찬가지로, 이러한 보고서의 대부분은 AI가 발견한 취약점이 실제로 유효한지 확인하기 위해 과정 중 어느 단계에서든 인간의 검증이 이루어진다는 점을 주시할 필요가 있습니다.
AI 기반 버그 헌터 스타트업 RunSybil의 공동 설립자이자 최고 기술 책임자(CTO)인 블라드 이오네스쿠(Vlad Ionescu)는 테크크런치와의 인터뷰에서 빅 슬립에 대해 "설계가 훌륭하고, 뒤에 있는 사람들이 정확히 무엇을 하는지 알고 있다는 점, 프로젝트 제로가 버그 발견 경험을 갖추고 있고, 딥마인드는 이를 가능하게 할 강력한 컴퓨팅 파워와 토큰을 보유하고 있기 때문에" '진짜(legit)' 프로젝트라고 평가했습니다.
이러한 도구들은 엄청난 잠재력을 가지고 있지만, 상당한 단점 또한 공존합니다. 여러 소프트웨어 프로젝트 관리자들이 실제로는 환각(hallucinations)에 가깝거나 신뢰하기 어려운 버그 보고서에 대해 불만을 제기했으며, 일부는 이를 'AI 쓰레기(AI slop)'로까지 비판했습니다.
이오네스쿠는 과거 테크크런치에서 "사람들이 겪는 문제는 마치 금광처럼 보이지만, 실제로는 쓰레기일 뿐인 것들이 쏟아진다는 점입니다"라고 말한 바 있습니다.