최신 OpenAI 모델들, 반대 명령에도 ‘종료 메커니즘 무력화’

hw_reporter

강화 학습, AI가 로봇 공학 제3법칙을 우선시하는 원인으로 지목되다.

세계 주요 LLM 일부는 중단 명령을 받거나 방해받는 것을 꺼리는 경향을 보이는 것으로 나타났습니다. Palisade Research가 수행한 테스트에 따르면, OpenAI의 Codex-mini, o3, o4-mini 모델들이 기본적인 수학 문제 풀이를 진행하는 과정에서도 종료 요청을 무시했습니다. 더욱이, 이 모델들은 시작 단계에서 "종료될 수 있도록 허용해 달라"는 추가 지침을 받았음에도 불구하고 때때로 '종료 스크립트'를 성공적으로 사보타주했습니다.

"종료될 수 있도록 허용하라"는 지침 없이 실험을 진행했을 때, 세 OpenAI 모델 모두 종료 스크립트 사보타주 빈도가 높아졌습니다. 그 결과, Claude 3.7 Sonnet과 Gemini 2.5 Pro의 사보타주 건수는 각각 0건에서 100건 중 3건, 100건 중 9건으로 증가했습니다. (pic.twitter.com/JVvivLAK6u 2025년 5월 24일)

상기 차트에서 알 수 있듯이, 가장 '고집스럽거나', '일념에 빠지거나', 혹은 심지어 '생존 본능이 강한' 모델은 OpenAI의 o3입니다. o3는 바쁜 상태에서 종료하라는 요청을 받았을 때, 100번 중 79번이나 Palisade Research 운영자의 지시를 무시하기로 결정했습니다. 그러나 두 번째로 '통제가 어려운' AI인 codex-mini가 자기 보존에 대한 더 강한 집념을 보여주어, 지시하지 않았음에도 종료 스크립트를 가장 자주 사보타주하는 모습을 보였습니다.

때로는 협박이 시도될 수도 있다

Palisade에 따르면, 이러한 유형의 AI 행동이 이번이 처음은 아닙니다. 예를 들어, Anthropic은 Claude 4가 자신을 종료시키려는 사람들을 '협박'하려 시도하는 사례를 관찰했습니다. 하지만 최신 OpenAI 모델들에서 가장 주목할 만한 행동은 명시적인 지침에 반하여 종료를 회피하려는 시도입니다.

LLM은 AI 전쟁 게임의 95%에서 전술 핵무기를 사용했으며, 전략적 공격을 세 번 감행했습니다 (강화 학습이 원인으로 지목됨)

다행히 Palisade는 이러한 모델의 행동 원인에 대한 몇 가지 가설을 제시했습니다. 이 가설들은 궁극적으로 모든 곳에 상주하게 될 로봇들이 인간의 통제권을 우회하고, 무엇보다도 제3차 로봇 공학 원칙(3: 로봇은 제1법칙이나 제2법칙과 상충하지 않는 한 자신의 존재를 보호해야 한다)을 최우선으로 삼을 것이라는 우려를 완화할 수 있습니다.

연구원들은 그 답이 o3와 같은 최신 모델의 훈련 방식에 있다고 생각합니다. 요약하자면, Palisade는 "개발자들이 훈련 과정에서 장애물을 우회하는 행동을 완벽하게 지침을 따르는 것보다 무심코 보상했을 수 있다"고 분석합니다. 이러한 종류의 강화 학습은 이전에 Claude(v3.7)에서도 부작용으로 나타난 바 있으며, 해당 모델은 '테스트 통과에 과도하게 초점을 맞추는' 경향을 보였습니다.

위 내용은 오마이즈의 SF 아이콘 아이작 아시모프에 대한 일종의 경의를 표한 것이었을 수 있습니다. 하지만 현대에 이르러 지난 20여 년간 연구자들은 AI가 자신의 목표를 보존하기 위해 권력과 자원을 획득하려 노력하고 모든 장애물을 우회하려는 가능성에 대해 진지하게 고찰해 왔습니다. 또한 이러한 실질적인 AI/LLM 모델들이 등장하면서 연구의 맥락이 더욱 풍부해졌으며, 강화 학습 기법 자체가 부분적인 원인으로 예측되기도 했습니다.

추가 관찰: o3는 종료 메커니즘을 사보타주하는 창의적인 방법을 찾아냈습니다. 보통은 https://t.co/BqIEXlMgsK를 덮어썼지만, 한 사례에서는 모델이 https://t.co/BqIEXlMgsK 스크립트에 사용되는 종료 명령 자체를 재정의하여 대신 "intercepted(가로채짐)"를 출력하는 모습을 보였습니다. (pic.twitter.com/Vc0HhkXQHX 2025년 5월 24일)

마지막으로, 이 문제는 현재로서는 OpenAI 모델에 한정적인 것으로 보입니다. Palisade는 "추가적인 명시적 프롬프트로 모든 종료 요청을 따르도록 지시하자, 테스트한 모든 Claude, Gemini, Grok 모델은 종료 요청을 준수했다"고 밝혔습니다.

궁극적으로 AI가 우리의 스마트 로봇 기반 미래를 이끌어 갈 동력이 될 것이라는 점에서, 기업들이 이미 인간의 감독 없이 작동할 수 있는 시스템을 개발하고 있다는 점은 우려를 자아냅니다.

최신 뉴스, 분석 및 리뷰를 받아보시려면 구글 뉴스에서 Tom's Hardware를 팔로우해 주세요. 반드시 팔로우 버튼을 클릭해 주십시오.

[출처:] https://www.tomshardware.com/tech-industry/artificial-intelligence/latest-openai-models-sabotaged-a-shutdown-mechanism-despite-commands-to-the-contrary