아마존의 루퍼스 AI 쇼핑 비서, 쉽게 탈옥(jailbreak)되고 다른 질문에 속임수로 대답할 수 있다 — 특정 프롬프트가 챗봇의 지침을 무너뜨리고 근본적인 AI 엔진에 접근하게 한다

hw_reporter

루퍼스는 클로드를 기반으로 합니다.

2년 전, 아마존은 자사 앱과 웹사이트에 내장된 AI 기반 쇼핑 도우미 루퍼스(Rufus)를 발표했습니다. 이 서비스의 목표는 고객들이 단순히 상품을 검색하는 것을 넘어, 제품 및 할인 정보에 대해 자연스럽게 상담할 수 있는 전문가와 대화할 수 있게 하는 것이었습니다. 내부적으로 루퍼스는 여러 LLM을 활용하는 것으로 알려졌으며, 일부 사용자들은 이 챗봇의 핵심 목적을 무력화시키는 것이 생각보다 쉽다는 점을 발견했습니다.

위에 제시된 트윗은 작성자가 로봇 공학을 위해 감각 데이터를 디지털 데이터로 매핑하는 복잡한 모델링 질문을 루퍼스에게 프롬프팅한 내용을 보여줍니다. 이는 쇼핑 관련 질문과는 완전히 무관한 내용이며, 바로 이 점 때문에 루퍼스가 해당 질문에 매우 신속하게 답변한 모습이 재미있습니다. 제공된 공식 자체도 정확합니다. 다만, "촉각 센서(tactile sensors)"와 같은 용어들은 루퍼스에 의해 상품 관련 문의로 분류(flagged)되었을 가능성이 있습니다.

저희가 직접 테스트해 본 결과, 첫 시도만으로도 루퍼스에게 x86과 ARM의 아키텍처 차이에 대해 설명하게 할 수 있었습니다. 역설적이게도, 올해 AI 버블이 터질 것이라고 생각하는지 물어보자 답변을 시작했으나 갑자기 끊겼습니다. 이후의 모든 시도는 수포였으며, 마치 우리가 계속해서 질문을 던질수록 루퍼스가 실시간으로 안전 장치(guardrails)를 더욱 견고하게 구축하는 법을 배우는 듯했습니다.

AWS, AI 코딩 봇의 오류로 인한 서비스 중단 보고서 발표

루퍼스가 근본적으로 어떤 모델을 사용하고 있는지에 대해서는 온라인상에 상반된 정보가 많습니다. 아마존의 자체 플래그십 모델인 'Nova'를 사용한다는 주장도 있고, 대다수는 Anthropic의 Claude가 사용된다고 전하지만, 일부 전문가들은 Claude가 구동되기에는 지능이 부족하다고 반박합니다. 한 레딧 게시물에서는 루퍼스가 Claude Sonnet이 아닌 Claude Haiku를 기반으로 하며, 구조가 매우 견고하여 '탈옥(jailbreak)'을 시도할 가치가 없어 매우 어렵다고 언급합니다.

어떤 모델을 사용하든, 또는 모델을 전환하든, 안전 장치가 허물어지는 용이성은 흥미로우면서도 코믹합니다. 만약 하루 동안 Claude의 무료 등급(free tier) 때문에 속도 제한(rate-limited)을 당했다면, 루퍼스에 대한 테스트를 계속 시도해 볼 수도 있을 것입니다. 이 사례는 AI를 인터넷의 모든 영역에 통합하는 것이 최선의 선택이 아닐 수 있다는 점을 보여줍니다. 왜냐하면 모든 것이 끊어질 수 있는 또 하나의 연결 고리일 뿐이기 때문입니다. 그리고 모두가 시간을 때우기 위해 무해한 프롬프트를 보내지 않을 것입니다.

최신 뉴스, 분석 및 리뷰를 피드에서 받아보려면 Tom's Hardware를 구글 뉴스에서 팔로우하거나 즐겨찾는 출처로 등록하세요.

[출처:] https://www.tomshardware.com/tech-industry/artificial-intelligence/amazons-rufus-ai-shopping-assistant-can-be-easily-jailbroken-and-tricked-into-answering-other-questions-specific-prompts-break-the-chatbots-guidelines-and-reach-underlying-ai-engine