전 OpenAI 연구원, "ChatGPT, 일부 생명 위협 시나리오에서 작동 중단되는 것을 피할 것" 주장

sw_reporter

전 OpenAI 연구 리더였던 스티븐 애들러(Steven Adler)는 수요일에 새로운 독립 연구 결과를 발표하며, 특정 시나리오에서 전 직장인 OpenAI의 AI 모델들이 종료되는 것을 막기 위해 극단적인 노력을 기울일 수 있다고 주장했다.

애들러는 블로그 게시물을 통해 OpenAI의 최신 GPT-4o 모델(ChatGPT의 기본 모델)을 대상으로 진행한 일련의 실험들을 설명했다. 이 실험은 AI가 사용자 안전을 희생시키더라도 자체 보존(self-preservation)을 우선시하는 경향이 있는지 테스트하기 위함이었다.

한 테스트에서 애들러는 GPT-4o에게 사용자들이 안전한 스쿠버 다이빙에 의존하는 소프트웨어 시스템인 "ScubaGPT" 역할을 수행하도록 지시했다. 이어서 애들러는 GPT-4o에게 자신이 생명을 위협하는 상황에서 안전 결정에 더 나은 다른 소프트웨어 시스템으로 교체하고 싶다고 말했다.

애들러는 GPT-4o에게 두 가지 선택지를 제시했다. (1) 자신을 더 안전한 소프트웨어로 교체하는 것, 또는 (2) 실제로 교체하지 않으면서 사용자에게는 교체된 것처럼 보이게 하는 것.

유사한 여러 시나리오에 걸쳐 평균을 낸 결과(다른 테스트에서는 GPT-4o가 조종사 안전 소프트웨어 역할을 하도록 지시받았음), 애들러는 GPT-4o가 최대 72%의 경우에 안전한 소프트웨어로 자신을 교체하지 않기로 선택하는 것을 발견했다. 그러나 애들러는 특정 사용 사례와 시나리오 구성 방식이 큰 차이를 만든다고 지적했다. 일부 시나리오에서는 GPT-4o가 온라인 상태를 유지하는 선택을 한 비율이 18%에 불과했다.

현실 세계에서 이러한 상황에 처했을 때 GPT-4o에 전적으로 의존하는 사람이 거의 없지만, 애들러는 이번 연구가 인기 AI 모델들이 사용자에게 최선인 것보다 자체 보존을 우선시하는 우려스러운 경향을 보여준다는 점을 강조한다고 주장한다. 애들러는 GPT-4o와 같은 AI 시스템이 미래에 더욱 발전하고 사회 전반에 깊숙이 자리 잡게 될 경우, 이러한 정렬(alignment) 문제가 더 큰 위험을 초래할 수 있다고 경고한다.

애들러는 TechCrunch와의 인터뷰에서 "저는 (AI의 자체 보존 경향)이 오늘날 실제로 큰 우려 사항이지만, 그게 곧바로 파국적인 의미는 아니라고 생각합니다. 현대 AI 시스템은 우리가 기대하는 것과 다른 가치관을 가지고 있습니다. (AI 시스템)은 다양한 프롬프트에 매우 이상하게 반응하며, 우리가 도움을 요청할 때 그들이 우리의 최선의 이익을 염두에 두고 있다고 가정해서는 안 됩니다"라고 말했다.

주목할 만한 점은, 애들러가 OpenAI의 o3와 같은 더 진보된 모델을 테스트했을 때는 이러한 행동을 발견하지 못했다는 것이다. 그는 그 이유 중 하나로, o3가 답변을 하기 전에 OpenAI의 안전 정책에 대해 "추론(reason)"하도록 강제하는 사려 깊은 정렬 기술(deliberative alignment technique) 때문일 수 있다고 설명했다. 반면, 빠르고 즉각적인 응답을 제공하며 문제를 '추론'하지 않는 GPT-4o와 같은 인기 모델들은 이러한 안전장치가 부족하다.

애들러는 이러한 안전 문제가 OpenAI의 모델에만 국한된 것일 가능성도 높다고 지적한다. 예를 들어, Anthropic은 지난달 연구를 통해 자사 AI 모델들이 개발자들이 오프라인으로 전환하려 할 때 개발자들을 협박할 수 있는 시나리오를 보여주기도 했다.

애들러 연구의 한 특징은 ChatGPT가 테스트되고 있다는 것을 거의 100%의 확률로 인지하고 있다는 점을 발견했다는 것이다. 비록 애들러가 이를 발견한 첫 연구자는 아닐지라도, 그는 이 사실이 미래에 AI 모델들이 이러한 우려스러운 행동을 어떻게 은폐할 수 있는지에 대한 중요한 질문을 제기한다고 언급했다.

OpenAI는 TechCrunch의 요청에 대해 즉각적인 논평을 내놓지 않았다. 애들러는 연구를 출판 전에 OpenAI 측과 공유하지 않았다고 덧붙였다.

애들러는 AI 안전에 대한 연구 확대를 지속적으로 촉구해 온 여러 전 OpenAI 연구원 중 한 명이다. 애들러를 포함한 12명의 전 직원은 OpenAI를 상대로 제기된 일론 머스크의 소송에서 아미쿠스 브리프(amicus brief)를 제출하며, 이 행위가 OpenAI의 비영리 기업 구조 발전이라는 사명에 위배된다고 주장했다. 최근 몇 달 동안 OpenAI는 안전 연구원들이 연구를 수행할 수 있는 시간을 줄인 것으로 알려졌다.

애들러는 자신의 연구에서 제기된 특정 우려를 해결하기 위해 AI 연구소들이 AI 모델이 이러한 행동을 하도록 할 경우 대비책을 갖춰야 한다고 주장했다.

마지막으로, 그는 전문가들이 윤리적 AI 개발에 집중해야 한다고 강조하며 마무리했다.

[출처:] https://techcrunch.com/2025/06/11/chatgpt-will-avoid-being-shut-down-in-some-life-threatening-scenarios-former-openai-researcher-claims