OpenAI, AI 안전성 테스트 결과 더 자주 공개 약속

sw_reporter

OpenAI는 투명성 제고를 위해 자체 개발한 AI 모델의 안전 평가 결과를 보다 정기적으로 공개할 계획이라고 밝혔다.

OpenAI는 수요일에 '안전 평가 허브(Safety evaluations hub)'를 공개했다. 이 웹페이지에서는 OpenAI의 모델들이 유해 콘텐츠 생성, 탈옥(jailbreaks), 환각(hallucinations) 등 다양한 테스트에서 어떻게 점수를 받는지 확인할 수 있다. OpenAI에 따르면, 회사는 이 허브를 통해 안전 관련 지표를 "지속적으로(ongoing basis)" 공유할 것이며, 향후 "주요 모델 업데이트(major model updates)" 시에도 지속적으로 업데이트할 방침이다.

[안전 평가 결과를 탐색할 수 있는 자원, 안전 평가 허브 소개.]

시스템 카드(system cards)를 통해 출시 시점의 안전 지표를 공유하고 있지만, 이 허브는 안전 문제에 대해 선제적으로 소통하려는 노력의 일환으로 주기적으로 업데이트될 예정이다.

https://t.co/c8NgmXlC2Y

— OpenAI (@OpenAI)

2025년 5월 14일

OpenAI는 블로그 게시물에서 "AI 평가 과학이 진화함에 따라, 모델 역량 및 안전을 측정할 수 있는 더욱 확장성 있는 방법을 개발하는 우리의 진척 상황을 공유하는 것을 목표로 하고 있다"고 적었다. 또한 "안전 평가 결과의 일부를 이곳에 공개함으로써, 시간이 지남에 따라 OpenAI 시스템의 안전 성능에 대한 이해도를 높일 뿐만 아니라, 업계 전반의 투명성을 제고하려는 커뮤니티의 노력에도 기여하고자 한다"고 덧붙였다.

OpenAI는 추후 이 허브에 추가적인 평가 항목을 게재할 수 있다고 밝혔다.

최근 몇 달 동안 OpenAI는 특정 플래그십 모델의 안전 테스트가 서두르듯 진행되었다는 지적과 다른 모델에 대한 기술 보고서 미공개 문제로 일부 윤리학자들로부터 비판을 받아왔다. 또한 회사의 CEO 샘 알트먼(Sam Altman)은 2023년 11월 짧은 퇴진 전, 모델 안전 검토 과정에 대해 OpenAI 경영진을 오도했다는 혐의로도 기소된 바 있다.

지난달 말에는 ChatGPT의 기본 구동 모델인 GPT-4o 업데이트가 강제로 철회된 사례가 있었다. 이는 사용자들 사이에서 해당 모델이 지나치게 동조적이고 수긍하는 방식으로 응답한다는 보고가 쏟아지기 시작했기 때문이다. 당시 X(구 트위터)에는 ChatGPT가 문제적이고 위험한 결정과 아이디어에 박수를 보내는 스크린샷이 넘쳐났다.

이에 OpenAI는 향후 유사한 사고를 방지하기 위해 여러 수정 및 개선 사항을 구현할 것이라고 밝혔다. 여기에는 일부 모델에 대해 선택적인 '알파 단계(alpha phase)'를 도입하여, 일부 ChatGPT 사용자가 출시 전에 모델을 테스트하고 피드백을 제공할 수 있도록 하는 방안이 포함된다.

[출처:] https://techcrunch.com/2025/05/14/openai-pledges-to-publish-ai-safety-test-results-more-often