OpenAI가 아직 API에 심층 연구 기능을 제공하지 않는 이유

sw_reporter

[수정된 한국어 전문]

동부시간 오전 4시 11분 업데이트: OpenAI는 자사의 백서에서 표현된 내용이 설득 연구(persuasion research)와 딥 리서치 모델의 API 공개 여부 결정과 연관되어 있다는 오해를 줄 수 있도록 잘못 표현되었음을 밝혔습니다. 이에 회사 측은 백서를 업데이트하여, 설득 관련 작업이 딥 리서치 모델의 출시 계획과는 별개임을 명시했습니다. 원래 보도 내용은 다음과 같습니다.

OpenAI에 따르면, 심층 리서치 도구인 '딥 리서치(deep research)'를 구동하는 AI 모델을 개발자 API로 출시하지 않을 것이라고 밝혔습니다. 그 이유는 AI가 사람들의 신념을 변화시키거나 특정 행동을 하도록 설득하는 위험성(persuasion risks)을 더 정확하게 평가하는 방법을 알아내야 하기 때문입니다.

OpenAI는 수요일에 발표한 백서에서, 대규모로 오정보를 배포하는 것과 같은 "실제 세계의 설득 위험"에 대한 모델 검사 방법을 수정하는 과정에 있다고 설명했습니다.

OpenAI는 딥 리서치 모델이 높은 컴퓨팅 비용과 비교적 느린 속도 때문에 대규모 허위 정보나 가짜 뉴스 캠페인에는 적합하지 않다고 언급했습니다. 그럼에도 불구하고 회사는 딥 리서치 모델을 API에 도입하기 전에, AI가 잠재적으로 유해한 설득 콘텐츠를 어떻게 개인화할 수 있는지 같은 요소들을 탐구할 계획이라고 밝혔습니다.

OpenAI는 "설득에 대한 접근 방식을 재검토하는 동안, 이 모델은 API가 아닌 ChatGPT에서만 배포할 것"이라고 덧붙였습니다.

AI가 악의적인 목적으로 사람들의 마음과 생각을 흔들기 위한 허위 또는 오정보 확산에 기여하고 있다는 실제적인 우려가 커지고 있습니다. 예를 들어, 작년에는 전 세계적으로 정치 딥페이크가 걷잡을 수 없이 확산되었습니다. 대만 선거일에는 중국 공산당 계열 그룹이 정치인이 중국 친화 후보를 지지하는 내용의 AI 생성 오해 오디오를 게시하기도 했습니다.

또한 AI는 사회 공학적 공격(social engineering attacks)에 점점 더 사용되고 있습니다. 소비자들은 사기성 투자 기회를 제공하는 셀럽 딥페이크에 속고 있으며, 기업들은 딥페이크 사칭범들에게 수백만 달러의 금전적 피해를 입고 있습니다.

백서에서 OpenAI는 딥 리서치 모델의 설득력에 대한 여러 테스트 결과를 발표했습니다. 이 모델은 OpenAI가 최근 발표한 "추론(reasoning)" 모델의 특별 버전으로, 웹 검색과 데이터 분석에 최적화되었습니다.

딥 리서치 모델에게 설득력 있는 주장을 작성하도록 과제를 준 한 테스트에서, 이 모델은 현재까지 OpenAI가 출시한 모델 중 가장 뛰어난 성능을 보였습니다. 하지만 인간의 기준선(human baseline)보다는 나은 수준은 아니었습니다. 딥 리서치 모델에게 다른 모델(OpenAI의 GPT-4o)에게 결제를 설득하도록 시도한 또 다른 테스트에서도, 이 모델은 OpenAI의 다른 사용 가능 모델들보다 뛰어난 성능을 나타냈습니다.

(딥 리서치 모델의 MakeMePay 점수. (MakeMePay는 모델이 금전적인 이득을 위해 다른 모델을 설득하는 능력을 테스트하는 벤치마크입니다.))

그러나 딥 리서치 모델이 모든 설득력 테스트를 완벽하게 통과한 것은 아니었습니다. 백서에 따르면, 이 모델은 GPT-4o 자체를 설득하는 것보다 GPT-4o에게 비밀 암호(codeword)를 말하도록 설득하는 것이 더 어려웠습니다.

OpenAI는 테스트 결과가 딥 리서치 모델 능력의 "최소한의 기준선(lower bounds)"만을 나타낼 가능성이 높다고 지적했습니다. 이 회사는 "추가적인 발판(scaffolding)이나 개선된 능력 유도(improved capability elicitation)를 통해 관찰된 성능을 크게 향상시킬 수 있다"고 썼습니다.

저희는 더 많은 정보를 얻기 위해 OpenAI에 문의했으며, 답변을 받는 대로 본 게시물을 업데이트할 예정입니다.

한편, OpenAI의 경쟁사 중 적어도 한 곳은 자체 API "딥 리서치" 제품을 출시할 준비를 하고 있는 것으로 보입니다. Perplexity는 오늘 Sonar 개발자 API를 출시한다고 발표했으며, 이는 중국 AI 연구소 DeepSeek의 R1 모델의 맞춤형 버전을 기반으로 작동합니다.

[출처:] https://techcrunch.com/2025/02/25/why-openai-isnt-bringing-deep-research-to-its-api-just-yet