OpenAI, 새로운 '도메인 특화' AI 벤치마크 설계 프로그램 출시

sw_reporter

OpenAI는 현재 AI 벤치마크 시스템의 신뢰성 문제가 심각하며, 이에 모델 평가 방식 자체를 근본적으로 개선하기 위한 프로그램을 시작합니다.

새롭게 시작하는 OpenAI Pioneers Program은 OpenAI가 블로그 게시물에서 언급했듯이, "무엇이 좋은 성과인지 기준을 설정하는" AI 모델 평가에 초점을 맞출 예정입니다.

OpenAI는 같은 게시물에서 "AI 채택 속도가 산업 전반에 걸쳐 가속화함에 따라, 그 영향력을 이해하고 개선할 필요가 있다"고 밝히며, "도메인별 평가(domain-specific evals)를 구축하는 것은 실제 사용 사례를 더 잘 반영하고, 팀이 실질적이고 중대한 환경에서 모델 성능을 평가하는 데 도움이 되는 한 가지 방법이다"라고 덧붙였습니다.

최근 크라우드소싱 벤치마크인 LM Arena와 Meta의 Maverick 모델을 둘러싼 논란에서 보이듯, 현재는 모델들 간의 차별점을 정확히 가늠하기 어렵습니다. 현재 널리 사용되는 많은 AI 벤치마크는 박사 학위 수준의 수학 문제 해결과 같은 지나치게 학술적이거나 전문적인 작업에 초점을 맞추는 경향이 있습니다. 또한 일부 벤치마크는 조작되거나(gamed) 대부분의 사람들의 실제 선호도와는 괴리가 큰 경우도 있습니다.

OpenAI는 Pioneers Program을 통해 법률, 금융, 보험, 의료, 회계 등 특정 도메인에 특화된 벤치마크를 구축하는 것을 목표로 합니다. 이 연구소는 향후 몇 달 동안 "여러 기업"과 협력하여 맞춤형 벤치마크를 설계하고, 궁극적으로 "업계별" 평가와 함께 해당 벤치마크들을 공개할 것이라고 전했습니다.

OpenAI는 블로그 게시물에 "첫 코호트는 OpenAI Pioneers Program의 기틀을 다지는 데 도움을 줄 스타트업에 집중할 것입니다. 우리는 초기 코호트를 위해 몇몇 스타트업을 선정했으며, 이들 각 기업은 AI가 실제적인 영향을 창출할 수 있는 고가치, 응용 사용 사례에 집중하고 있습니다"라고 밝혔습니다.

프로그램에 참여하는 기업들은 또한 OpenAI 팀과 협력하여 강화 미세 조정(reinforcement fine tuning)을 통해 모델을 개선할 기회도 얻게 됩니다. OpenAI에 따르면, 이 기술은 모델을 특정하고 좁은 작업 범위에 최적화하는 방법입니다.

여기서 제기되는 가장 큰 의문점은, AI 커뮤니티가 OpenAI가 직접 자금을 지원하여 만든 벤치마크들을 과연 수용할 수 있을지 여부입니다. OpenAI는 과거에도 벤치마킹 노력을 재정적으로 지원하거나 자체적인 평가 시스템을 설계한 전례가 있습니다. 하지만 고객사들과 협력하여 AI 테스트를 출시하는 형태는 윤리적 선을 넘는다는 비판에 직면할 수도 있습니다.

[출처:] https://techcrunch.com/2025/04/09/openai-launches-program-to-design-new-domain-specific-ai-benchmarks