
OpenAI는 목요일에 AI 모델이 광범위한 산업과 직무 전반에 걸쳐 인간 전문가와 비교하여 어느 정도의 성능을 보이는지를 테스트하는 새로운 벤치마크를 공개했다. 'GDPval'로 알려진 이 테스트는 OpenAI 시스템이 경제적 가치가 있는 업무에서 인간의 능력을 어느 정도 수준으로 능가할 수 있는지 측정하려는 초기 시도이며, 이는 회사가 개발하는 인공 일반 지능(AGI)의 창립 목표의 핵심 부분이다.
OpenAI에 따르면, 자사의 GPT-5 모델과 Anthropic의 Claude Opus 4.1은 "이미 업계 전문가가 생산하는 작업 품질에 근접해 왔다"고 한다.
다만, 이는 OpenAI의 모델이 곧바로 인간의 일자리를 대체한다는 의미는 아니다. 일부 CEO들이 AI가 불과 몇 년 안에 인간의 일자리를 대체할 것이라고 예측했지만, OpenAI는 현행 GDPval이 사람들이 실제 직무에서 수행하는 매우 제한적인 작업만을 다루고 있음을 인정했다. 그럼에도 불구하고, 이 벤치마크는 회사가 이 목표(AGI)를 향해 AI의 진보를 측정하는 최신 방식 중 하나로 주목받고 있다.
GDPval은 헬스케어, 금융, 제조업, 정부 등 미국의 국내총생산(GDP)에 가장 크게 기여하는 9개 산업을 기반으로 한다. 이 벤치마크는 소프트웨어 엔지니어부터 간호사, 기자에 이르기까지 해당 산업 내 44개 직업에서 AI 모델의 성능을 테스트한다.
OpenAI의 최초 버전인 GDPval-v0에서는 숙련된 전문가들에게 AI가 생성한 보고서와 다른 전문가가 만든 보고서를 비교하게 하고, 가장 우수한 것을 선택하게 했다. 예컨대, 한 프롬프트에서는 투자 은행가들에게 라스트마일 배송 산업의 경쟁 구도 분석을 요청하고 이를 AI 보고서와 비교했다. 이후 OpenAI는 44개 직업 전체에 걸쳐 AI 모델의 인간 보고서 대비 '승률'을 평균화한다.
컴퓨팅 능력이 증강된 GPT-5-high의 경우, 회사는 AI 모델이 산업 전문가보다 낫거나 동등한 수준으로 평가된 비율이 40.6%에 달했다고 밝혔다.
OpenAI는 또한 Anthropic의 Claude Opus 4.1 모델도 테스트했는데, 이 모델은 49%의 작업에서 전문가보다 낫거나 동등한 수준으로 평가되었다. OpenAI는 Claude가 순수한 성능보다는 보기 좋은 그래픽을 만들어내는 경향 덕분에 높은 점수를 받았다고 분석한다.
한편, 대부분의 직장 전문가는 GDPval-v0가 다루는 것보다 훨씬 폭넓은 작업을 수행하므로, 이 점을 지적하며, 더 많은 작업 유형을 포함하도록 확장하겠다고 밝히고 있다.
노련한 전문가들은 이 테스트가 너무 포괄적인 영역을 다루고 있어 일관성 있는 측정이 어렵다고 지적하며, 향후 모델을 개선할 것이라고 밝혔다.
(참고: 실제 원문 흐름에 맞게 문장 순서 및 톤 조정을 진행했습니다.)
[출처:] https://techcrunch.com/2025/09/25/openai-says-gpt-5-stacks-up-to-humans-in-a-wide-range-of-jobs