
OpenAI는 AI 모델의 안전성을 평가하고 개발 및 배포 과정에서 필요한 안전장치를 결정하는 내부 시스템인 '준비태세 프레임워크(Preparedness Framework)'를 업데이트했습니다. 이번 업데이트에서 OpenAI는 경쟁 AI 연구소에서 유사한 보호 장치 없이 "고위험(high-risk)" 시스템을 출시할 경우, 자체 안전 요구 사항을 "조정"할 수 있다고 밝혔습니다.
이러한 변화는 상업용 AI 개발사들이 모델을 신속하게 배포해야 하는 경쟁 압력이 증가하고 있음을 반영합니다. 실제로 OpenAI는 더 빠른 출시를 우선시하는 바람에 안전 기준을 낮추고, 안전 테스트를 상세히 보고한 적시에 필요한 보고서를 제출하지 못했다는 비난을 받아왔습니다. 지난주에는 전 OpenAI 직원 12명이 일론 머스크(Elon Musk) 관련 소송을 제기하며 청원서를 제출했습니다. 이들은 회사가 계획된 구조조정을 완료할 경우 안전성 부분에서 더욱 많은 지침을 소홀히 할 위험이 있다고 주장했습니다.
비판을 예감했는지, OpenAI는 이러한 정책 조정이 가볍게 이루어지지 않을 것이며, 안전장치는 "더욱 보호적인 수준"을 유지할 것이라고 강조했습니다.
OpenAI는 화요일 오후에 게시된 블로그 포스트에서 "만약 다른 프론티어 AI 개발사가 비교 가능한 안전장치 없이 고위험 시스템을 출시한다면, 우리는 요구 사항을 조정할 수 있다. 하지만 우리는 먼저 위험 환경이 실제로 변화했는지 엄격하게 확인하고, 조정한다는 사실을 공개적으로 인정하며, 이 조정이 전반적인 심각한 피해 위험을 의미 있게 증가시키지 않는지 평가할 것이며, 그럼에도 불구하고 안전장치는 더욱 보호적인 수준을 유지할 것이다"라고 밝혔습니다.
개정된 준비태세 프레임워크는 또한 OpenAI가 제품 개발 속도를 높이기 위해 자동화된 평가에 더욱 크게 의존하고 있음을 분명히 보여줍니다. 회사는 인간 주도 테스트를 완전히 배제한 것은 아니지만, "더 빠른 출시 주기를 따라갈 수 있는" "점점 늘어나는 자동화된 평가군(growing suite of automated evaluations)"을 구축했다고 설명했습니다.
그러나 일부 보고서들은 이와 상충됩니다.
파이낸셜 타임스(Financial Times)에 따르면, OpenAI는 곧 출시될 주요 모델에 대해 테스트 사용자들에게 일주일도 채 주지 않았으며, 이는 이전 출시들과 비교할 때 극도로 압축된 일정입니다. 이 매체의 소스들에 따르면, OpenAI의 안전 테스트 상당수가 대중에게 공개된 최종 버전이 아니라, 모델의 초기 버전을 기반으로 수행되고 있는 것으로 알려졌습니다.
한편, OpenAI는 공식 성명을 통해 안전성 타협설을 부인하고 있습니다.
(이와 별개로) OpenAI는 안전 관련 약속을 조용히 축소하고 있는 모습입니다.
준비태세 프레임워크 변경 사항에서 제외된 주요 내용은 다음과 같습니다:
- 파인튜닝된 모델에 대한 안전 테스트 의무화 폐지
(출처: Steven Adler(@sjgadler), 2025년 4월 15일)
OpenAI 프레임워크의 다른 주요 변경 사항은 회사가 위험에 따라 모델을 분류하는 기준에 관한 것입니다. 이 기준에는 능력을 숨기거나, 안전장치를 회피하거나, 자체 종료를 막고, 심지어 자체적으로 복제하는 능력을 가진 모델도 포함됩니다. OpenAI에 따르면, 이제 모델은 '높은(high)' 역량 또는 '임계(critical)' 역량 중 하나를 충족하는지 여부에 초점을 맞출 것입니다. 회사에 따르면, 전자의 '높은 역량'은 "기존의 심각한 피해 경로를 증폭시킬 수 있는" 모델을 의미하며, 후자인 '임계 역량'은 "전례 없는 새로운 심각한 피해 경로를 도입하는" 모델을 의미합니다.
OpenAI는 블로그 포스트에서 "높은 역량에 도달한 시스템은 배포되기 전에 관련 심각한 피해 위험을 충분히 최소화하는 안전장치를 갖추어야 합니다. 임계 역량에 도달한 시스템 또한 개발 과정 중 관련 위험을 충분히 최소화하는 안전장치를 요구합니다"라고 명시했습니다.
이번 업데이트는 OpenAI가 2023년 이후 준비태세 프레임워크에 단행한 첫 번째 변경 사항입니다.