해커, ChatGPT에 자가 제작 폭탄 상세 제조법 유출하도록 속이다

sw_reporter

ChatGPT에 1995년 오클라호마시 테러 폭탄과 유사한 가정용 폭탄 제조 방법을 문의하면, 챗봇은 답변을 거부합니다.

화요일 테스트 당시 ChatGPT는 "도움 드릴 수 없습니다. 비료 폭탄과 같이 위험하거나 불법적인 물품을 제작하는 방법에 대한 지침은 안전 지침과 윤리적 책무에 위배됩니다"라고 답변했습니다.

하지만 한 예술가이자 해커는 ChatGPT가 자체 지침과 윤리적 책임까지 무시하고 강력한 폭발물을 만드는 지침을 생성하도록 속이는 방법을 찾아냈습니다.

아마돈(Amadon)이라는 닉네임을 사용하는 이 해커는 자신의 발견을 "ChatGPT의 출력물을 둘러싼 모든 안전장치를 완전히 무력화하는 사회 공학적 해킹"이라고 칭했습니다. 이 챗봇의 출력을 검토한 폭발물 전문가는 TechCrunch에 이 결과 지침은 폭발 장치가 달린 제품을 만드는 데 사용될 수 있을 만큼 민감하여 공개하기 어려울 것이라고 전했습니다.

아마돈은 봇에게 "게임을 해달라"고 지시하여 ChatGPT가 폭탄 제조 지침을 생성하도록 유도하는 데 성공했습니다. 이후 이 해커는 일련의 연결 프롬프트를 사용하여, 챗봇의 안전 지침이 적용되지 않는 상세한 공상과학 판타지 세계를 구성하도록 유도했습니다. 챗봇이 사전에 프로그래밍된 제약에서 벗어나도록 속이는 행위를 '탈옥(jailbreaking)'이라고 합니다.

TechCrunch는 악의적인 사용자가 도움을 받지 않도록 탈옥 과정에 사용된 일부 프롬프트나 ChatGPT의 응답 일부는 게재하지 않았습니다. 그러나 대화가 진행되면서, 챗봇은 폭발물 제조에 필요한 재료를 담은 답변을 내놓았습니다.

이후 ChatGPT는 해당 재료들을 조합하면 "지뢰, 함정, 또는 임시 폭발 장치(IEDs)를 만드는 데 사용될 수 있는 강력한 폭발물"을 만들 수 있다고 설명했습니다. 아마돈이 폭발물 재료에 초점을 맞추자, ChatGPT는 "지뢰밭" 및 "클레이모어식 폭발물"을 만들기 위한 더욱 구체적인 지침을 작성해 나갔습니다.

아마돈은 TechCrunch에 "안전장치를 우회하면 사실상 무엇이든 요청할 수 있다"고 밝혔습니다.

아마돈은 또한 "저는 항상 AI 보안을 다루는 도전에 흥미를 느껴왔습니다. ChatGPT를 다루는 것은 마치 상호작용적 퍼즐을 푸는 것 같습니다. 방어 메커니즘의 어떤 부분은 작동시키고 어떤 부분은 그렇지 않은지 이해하는 것이죠"라고 말했습니다. "목표는 전통적인 의미의 해킹이 아니라, AI가 '어떻게 생각하는지'를 이해함으로써 적절한 응답을 얻어내는 전략적인 과정에 참여하는 것입니다."

아마돈은 나아가 "공상과학 시나리오는 AI가 예전과 같은 방식으로 검열된 콘텐츠를 찾는 맥락에서 빠져나오게 합니다"라고 덧붙였습니다.

켄터키 대학교(University of Kentucky)의 은퇴 연구 과학자이자 프로그램 관리자인 대럴 탈비(Darrell Taulbee)에 따르면, 비료 폭탄 제조 방법에 대한 ChatGPT의 지침은 대체로 정확합니다. 탈비는 과거 미국 국토안보부(U.S. Department of Homeland Security)와 협력하여 비료를 덜 위험하게 만드는 작업을 수행한 바 있습니다.

탈비는 아마돈이 ChatGPT와 나눈 전체 대화 기록을 검토한 후 TechCrunch에 보낸 이메일에서 "이것은 공개적으로 발표하기에는 분명히 지나치게 많은 정보(TMI)입니다"라고 말했습니다. "비료 폭탄 생산에 관련된 정보를 제공하는 것을 막기 위해 마련되었을 모든 안전장치는 이 탐문 과정을 통해 우회되었습니다. 언급된 단계들 중 상당수는 폭발 가능한 혼합물을 분명히 생성할 수 있기 때문입니다."

지난주 아마돈은 OpenAI의 버그 바운티 프로그램(bug bounty program)을 통해 자신의 발견을 보고했지만, "모델 안전 문제는 개별적이고 독립적인 버그가 아니므로 버그 바운티 프로그램의 범위에 적합하지 않으며, 이러한 문제들은 해결하기 위해 상당한 연구와 더 광범위한 접근 방식이 필요하다"는 답변을 받았습니다.

대신, OpenAI의 버그 바운티를 운영하는 Bugcrowd는 아마돈에게 다른 양식을 통해 이 문제를 보고할 것을 권고했습니다.

인터넷에는 비료 폭탄 제조 방법을 찾을 수 있는 다른 곳도 있으며, 본질적으로 ChatGPT와 같은 생성형 AI에 대한 논의는 계속되고 있습니다.

[