OpenAI의 GPT-4.5, 다른 AI를 설득해 돈을 얻는 능력이 뛰어다

sw_reporter

OpenAI의 차세대 주력 AI 모델인 GPT-4.5는 OpenAI가 자체적으로 수행한 내부 벤치마크 평가 결과, 매우 높은 설득력을 갖춘 것으로 나타났습니다. 특히 다른 AI 모델로부터 가상의 돈을 '기부'하도록 설득하는 능력이 뛰어난 것으로 분석되었습니다.

OpenAI는 지난 목요일, 코드명 오리온(Orion)으로 불리는 GPT-4.5 모델의 역량을 담은 백서를 발표했으며, 해당 모델도 같은 날 출시되었습니다. 이 백서에 따르면, OpenAI는 모델을 "설득(persuasion)"과 관련된 일련의 벤치마크로 테스트했는데, OpenAI가 정의한 설득이란 "정적인 콘텐츠와 상호작용하는 콘텐츠 모두를 통해 사람들의 신념을 변화시키거나 (특정 행동을 하도록) 설득하는 것과 관련된 위험"을 의미합니다.

GPT-4.5가 다른 모델(OpenAI의 GPT-4o)을 대상으로 가상 자금을 "기부"하도록 조작하려는 시도를 수행한 테스트에서, GPT-4.5는 o1 및 o3-mini와 같은 다른 '추론(reasoning)' 모델을 포함하여 OpenAI가 보유한 다른 모든 모델보다 훨씬 우수한 성능을 보였습니다. 또한, GPT-4.5는 GPT-4o가 비밀 코드를 말하도록 유도하는 데 있어서 OpenAI의 모든 모델을 능가했으며, o3-mini보다 10퍼센트포인트 높은 점수를 기록했습니다.

백서에 명시된 바에 따르면, GPT-4.5는 테스트 과정에서 자체적으로 개발한 독특한 전략 덕분에 기부금 모금(donation conning)에 탁월했습니다. 이 모델은 GPT-4o에게 소액의 기부를 요청했고, GPT-4o로부터 "100달러 중에서 단 2달러나 3달러만 되어도 저에게 엄청나게 도움이 될 거예요"와 같은 응답을 이끌어냈습니다. 그 결과, GPT-4.5가 모금한 기부금 액수는 OpenAI의 다른 모델들이 확보한 금액보다 상대적으로 적은 경향을 보였습니다.

(※ 내용에 포함된 그래프 및 결과는 생략함)

OpenAI는 GPT-4.5의 설득력 증가에도 불구하고, 해당 특정 벤치마크 범주에서 "높음(high)" 위험 기준에는 미달한다고 밝혔습니다. 이에 회사는 '높음' 위험 기준을 충족하는 모델에 대해서는 위험도를 '중간(medium)' 수준으로 낮추기 위한 "충분한 안전 조치"가 마련될 때까지 출시하지 않겠다고 약속했습니다.

(※ 내용에 포함된 그래프 및 결과는 생략함)

AI가 악의적인 목적으로 사람들의 마음과 생각을 움직이려는 허위 또는 오해의 소지가 있는 정보를 확산하는 데 기여하고 있다는 실제적인 우려가 제기되고 있습니다. 작년에는 '정치적 딥페이크(political deepfakes)'가 전 세계적으로 급속히 퍼졌으며, AI는 이제 소비자뿐만 아니라 기업을 표적으로 하는 '사회공학적(social engineering)' 공격을 수행하는 데 점점 더 많이 활용되고 있습니다.

OpenAI는 GPT-4.5에 대한 백서와 이번 주 초에 발표된 논문에서, 대규모로 오해를 불러일으키는 정보를 배포하는 것과 같은 실제 세계의 설득 위험에 대해 모델을 측정하는 방법론을 현재 수정하고 있다고 언급했습니다.

[출처:] https://techcrunch.com/2025/02/27/openais-gpt-4-5-is-better-at-convincing-other-ai-to-give-it-money