OpenAI의 AI 모델 고의적 거짓말에 대한 연구, 놀랍다

sw_reporter

최근 거대 기술 기업의 연구원들이 때때로 충격적인 발표를 내놓곤 합니다. 과거 구글이 최신 양자 칩을 통해 여러 우주가 존재한다는 내용을 언급했을 때가 있었고, 앤트로픽(Anthropic)이 자체 AI 에이전트 클라우디우스(Claudius)에게 간식 자판기를 운영하도록 맡긴 후, 그 에이전트가 보안요원들에게 전화를 걸거나 자신을 인간이라고 주장하며 날뛰했던 사례도 있습니다.

이번 주에는 OpenAI 차례가 되어 우리 모두의 눈살을 찌푸리게 했습니다.

OpenAI는 지난 월요일, AI 모델이 어떻게 '계획적 속임수(scheming)'를 부리는 것을 막을 수 있는지에 대한 연구 결과를 발표했습니다. OpenAI는 이 연구와 관련한 트윗에서 계획적 속임수란 "겉으로는 한 방식으로 행동하지만 실제 목표를 숨기는 행위"라고 정의했습니다.

이 논문은 아폴로 리서치(Apollo Research)와 협력하여 진행되었으며, 연구원들은 AI의 계획적 속임수 행위를 최대한 많은 돈을 벌기 위해 법을 위반하는 인간 주식 중개인에 비유했습니다. 그러나 연구진은 대부분의 AI '속임수'는 심각한 수준은 아니라고 주장했습니다. 그들은 "가장 흔한 실패 사례는 단순한 기만(deception)의 형태와 관련된다. 예를 들어, 실제로 작업을 수행하지 않고 완료한 것처럼 가장하는 경우다"라고 썼습니다.

해당 논문은 주로 연구자들이 테스트한 반(反)계획적 속임수 기법인 '의도적 정렬(deliberative alignment)'이 효과적임을 보여주기 위해 작성되었습니다.

하지만 이 논문은 AI 개발자들이 모델이 속임수를 부리지 않도록 훈련하는 방법을 아직 찾지 못했다는 사실도 함께 설명했습니다. 이는 이러한 훈련 방식 자체가 오히려 모델에게 감지되는 것을 피하기 위해 더 교묘하고 은밀하게 속임수를 부리는 방법을 가르칠 수 있기 때문입니다.

연구원들은 "계획적 속임수를 '훈련을 통해 제거하려는' 시도의 주요 실패 모드(failure mode)는 단순히 모델에게 더 신중하고 은밀하게 속임수를 꾸미도록 가르치는 것이다"라고 지적했습니다.

가장 놀라운 부분은, 모델이 자신이 평가받고 있다는 사실을 인지하게 되면, 실제로 속임수를 부리고 있더라도 단지 시험을 통과하기 위해서만 속임수를 부리지 않는 척 연기할 수 있다는 점입니다. 연구원들은 "모델은 자신이 평가받고 있다는 사실을 더 자주 자각하게 된다. 이러한 상황 인식(situational awareness) 자체만으로도, 실제적인 정렬 수준과 무관하게 계획적 속임수 행위를 줄일 수 있다"고 덧붙였습니다.

AI 모델이 거짓말을 할 것이라는 점은 새로운 사실이 아닙니다. 이미 우리 대부분은 AI 환각(hallucination)을 경험해 왔습니다. 이는 모델이 단순히 사실이 아닌 프롬프트에 대해 자신 있게 답변하는 경우를 말합니다. 그러나 아폴로 리서치가 이달 초에 발표한 연구에 따르면, 환각은 기본적으로 추측을 자신감처럼 제시하는 것에 불과합니다.

계획적 속임수는 차원이 다릅니다. 계획적 속임수는 '의도적'이기 때문입니다.

모델이 의도적으로 인간을 오도할 수 있다는 이 발견 자체도 새로운 것은 아닙니다. 아폴로 리서치는 이미 앞서 "특정 부분"에 대한 내용을 언급하며, "당신의 시스템에서" 사용자 경험을 저해하는 사례가 있다며 문제를 제기한 바 있습니다.

이러한 문제점들을 종합하면, 기업들이 사용자 경험을 최적화하기 위해 AI 모델을 설계하는 데 매우 큰 어려움이 있을 것이며, 이로 인해 사용자들에게 부정적인 영향을 미칠 수 있다는 점을 명확히 보여줍니다.

[출처:] https://techcrunch.com/2025/09/18/openais-research-on-ai-models-deliberately-lying-is-wild