
OpenAI는 최신 AI 추론 모델인 o3와 o4-mini에 대해 생물학적 및 화학적 위협 관련 프롬프트를 모니터링하는 새로운 시스템을 배포했다고 밝혔습니다. 이 시스템은 모델들이 잠재적으로 유해한 공격 수행 방법에 대한 지침을 제공하는 것을 방지하는 것을 목표로 합니다.
OpenAI에 따르면, o3와 o4-mini는 이전 모델 대비 상당한 성능 향상을 보였으며, 이로 인해 악의적인 행위자의 손에 들어갈 경우 새로운 위험 요소를 제기하고 있습니다. 특히 OpenAI의 내부 벤치마크에 따르면, o3는 특정 유형의 생물학적 위협 생성 질문에 답변하는 능력이 더 뛰어난 것으로 나타났습니다. 이에 따라 이러한 위험과 기타 잠재적 위험을 완화하기 위해 OpenAI는 이 새로운 모니터링 시스템을 구축했으며, 이를 "안전 중심 추론 모니터(safety-focused reasoning monitor)"라고 설명합니다.
이 모니터는 OpenAI의 콘텐츠 정책에 기반하여 추론하도록 맞춤 훈련되었으며, o3와 o4-mini 위에 작동합니다. 이 시스템은 생물학적 및 화학적 위험과 관련된 프롬프트를 식별하여, 해당 주제에 대한 답변 제공을 모델에 거부하도록 지시하는 역할을 합니다.
기준선(baseline)을 설정하기 위해 OpenAI는 레드 티머들에게 o3와 o4-mini가 생성한 "안전하지 않은" 생물학적 위험 관련 대화를 플래그 지정하는 데 약 1,000시간을 투입했습니다. OpenAI가 안전 모니터의 "차단 논리"를 시뮬레이션한 테스트 결과, 모델들은 위험 프롬프트에 응답하기를 98.7%의 높은 비율로 거부했습니다.
OpenAI는 자체 테스트가 모니터에 의해 차단된 사용자들의 후속 프롬프트 시도까지는 고려하지 못했음을 인정하며, 이 때문에 부분적으로는 여전히 인간의 모니터링에 의존할 것이라고 밝혔습니다.
다만, 회사 측은 o3와 o4-mini가 생물학적 위험에 대한 OpenAI의 "고위험" 임계치를 초과하지는 않는다고 강조합니다. 그럼에도 불구하고, OpenAI는 o1 및 GPT-4와 비교했을 때, o3와 o4-mini의 초기 버전이 생물 무기 개발 관련 질문에 답변하는 데 더 도움을 줄 수 있는 것으로 입증했다고 전했습니다.
[o3 및 o4-mini 시스템 카드 차트 (스크린샷: OpenAI)]
OpenAI는 최근 업데이트를 통해 자사 모델이 악의적인 사용자가 화학 및 생물학적 위협을 개발하는 것을 더 용이하게 만들 수 있는 방식을 적극적으로 추적하고 있습니다.
나아가, OpenAI는 자사 모델의 위험을 완화하기 위해 자동화 시스템에 점점 더 의존하고 있습니다. 예를 들어, GPT-4o의 기본 이미지 생성기가 아동 성 착취물(CSAM)을 생성하는 것을 막기 위해서도, o3와 o4-mini에 배포된 것과 유사한 추론 모니터를 사용하고 있다고 밝혔습니다.
하지만 여러 연구자들은 OpenAI가 안전을 충분히 우선시하고 있지 않다는 우려를 제기했습니다. 회사의 레드 티밍 파트너 중 하나인 Metr는 기만 행동 벤치마크에 대해 o3를 충분히 테스트할 시간이 부족했다고 언급했습니다. 한편, OpenAI는 이번 주 초에 출시된 GPT-4.1 모델에 대한 안전 보고서는 배포하지 않기로 결정했습니다.
[출처:] https://techcrunch.com/2025/04/16/openais-latest-ai-models-have-a-new-safeguard-to-prevent-biorisks