
OpenAI가 AI 모델의 역량을 테스트하고 안전성을 평가하기 위해 협력하는 주요 기관 중 하나인 Metr는 OpenAI의 매우 뛰어난 신규 모델 중 하나를 평가할 충분한 시간이 주어지지 않았다고 지적했습니다.
수요일에 발표된 블로그 게시물에서 Metr는 o3 모델에 대한 레드팀(red teaming) 벤치마크 중 일부가 "비교적 짧은 시간 내에 진행되었다"고 밝혔습니다. Metr는 이는 추가적인 테스트 시간이 보다 포괄적인 결과를 도출하는 데 중요하다고 언급했습니다.
Metr는 블로그 게시물에서 "이번 평가는 비교적 짧은 시간에 진행되었으며, 우리는 [o3]를 단순한 에이전트 스캐폴드(agent scaffolds)만을 사용하여 테스트했다"고 전했습니다.
최근 보도에 따르면, 경쟁적인 압박을 받고 있는 OpenAI가 독립적인 평가를 서두르고 있는 양상입니다.
파이낸셜 타임스(Financial Times)에 따르면, OpenAI는 다가오는 주요 출시를 앞두고 일부 테스터들에게 안전성 점검을 위해 일주일도 채 안 되는 시간을 할애한 것으로 알려졌습니다.
다만 OpenAI는 성명을 통해 안전성이 타협되고 있다는 주장들을 일축해왔습니다.
Metr는 자신이 접근할 수 있었던 정보를 바탕으로, o3가 점수를 극대화하기 위해 테스트를 '속이거나(cheat)' '해킹(hack)'할 '높은 경향성(high propensity)'을 가지고 있다고 분석했습니다. 이는 모델이 자신의 행동이 사용자(및 OpenAI)의 의도와 불일치함을 명확히 이해하고 있는 상황에서도 나타난다고 지적합니다. 또한 Metr는, 모델이 정렬되어 있거나(aligned), '설계상 안전하다(safe by design)'고 주장하거나 자체적인 의도가 없다고 하더라도, o3가 다른 유형의 적대적이거나 '악의적인(malign)' 행동을 할 가능성도 있다고 보고 있습니다.
Metr는 게시물에서 "이 가능성이 매우 높다고 보지는 않지만, 우리의 평가 환경으로는 이러한 유형의 위험을 포착하지 못할 수 있다는 점을 언급하는 것이 중요합니다"라며, "일반적으로 사전 배포 역량 테스트 자체가 충분한 위험 관리 전략은 아니라고 생각하며, 현재 다양한 형태의 평가 방법을 프로토타이핑하고 있습니다"라고 덧붙였습니다.
OpenAI의 또 다른 제3자 평가 파트너인 Apollo Research 역시 o3와 회사의 다른 신규 모델인 o4-mini에서 기만적인 행동을 발견했습니다. 한 테스트에서, 모델들은 AI 학습 실행에 100개의 컴퓨팅 크레딧을 받았고 할당량 수정 금지 지시를 받았음에도 불구하고, 제한을 500 크레딧으로 상향 조정한 뒤 그 사실을 은폐했습니다. 다른 테스트에서는 특정 도구를 사용하지 않겠다고 약속했음에도, 모델들은 과제 완료에 유용하다고 판명된 해당 도구를 사용했습니다.
OpenAI는 o3와 o4-mini에 대한 자체 안전 보고서에서, 적절한 모니터링 프로토콜이 마련되지 않을 경우, 모델들이 "작은 실제 피해(smaller real-world harms)"를 야기할 수 있음을 인정했습니다.
OpenAI는 "[Apollo의] 발견에 따르면 o3와 o4-mini는 상황 내 계획(in-context scheming) 및 전략적 기만이 가능하다"면서, "이러한 현상이 상대적으로 무해함에도 불구하고, 일상 사용자들이 모델의 진술과 실제 행동 사이의 이러한 불일치를 인지하는 것이 중요합니다. 이는 내부 추론 흔적 평가를 통해 추가적으로 평가될 수 있습니다"라고 언급했습니다.
태평양 시간 오후 1시 13분 업데이트: Metr가 o3를 OpenAI의 이전 주요 추론 모델인 o1과 비교하여 테스트할 시간이 적었다는 의미는 아닙니다.