AI 벤치마킹 기관, OpenAI 자금 공개 지연 비판받아

sw_reporter

AI 수학 벤치마크를 개발하는 한 기관이 자금 출처가 OpenAI였음에도 이 사실을 비교적 최근까지 공개하지 않아, AI 커뮤니티 일부로부터 부적절성 논란에 휩싸였다.

주로 연구 및 보조금 제공을 목적으로 하는 재단인 Open Philanthropy의 지원을 받는 비영리 단체인 Epoch AI는 12월 20일, OpenAI가 FrontierMath 개발을 지원했음을 공개하며 주목을 받았다. 전문가 수준의 문제로 구성되어 AI의 수학적 능력을 측정하는 테스트인 FrontierMath는 OpenAI가 곧 선보일 플래그십 AI 시연에 활용된 주요 벤치마크 중 하나였다.

Epoch AI의 계약직원 중 'Meemi'라는 사용자 이름으로 활동하는 인물은 포럼 LessWrong에 글을 올려, FrontierMath 벤치마크의 다수 기여자들은 OpenAI의 관여 사실을 공적으로 알려지기 전까지는 알지 못했다고 밝혔다.

Meemi는 "이 문제에 대한 소통 과정이 투명하지 않았다"고 작성하며, "제 생각에 Epoch AI는 OpenAI의 자금 지원 사실을 공개했어야 했으며, 계약직원들은 자신의 작업이 어떤 역량에 활용될지 결정할 때 그 잠재적 정보에 대한 투명성을 확보했어야 했다"고 주장했다.

소셜 미디어에서는 이러한 정보의 은폐가 FrontierMath가 객관적인 벤치마크로서의 명성에 흠집을 낼 수 있다는 우려가 제기되었다. OpenAI는 FrontierMath를 지원했을 뿐만 아니라, 이 벤치마크의 많은 문제와 해답에 대한 내부 접근 권한을 가지고 있었는데, 이는 Epoch AI가 o3 발표 전까지 공개하지 않았던 사실이다.

스탠퍼드 대학원 수학과 학생인 Carina Hong은 X(구 트위터)에 올린 게시물에서, OpenAI가 Epoch AI와의 계약 관계를 통해 FrontierMath에 특혜성 접근 권한을 갖고 있으며, 이는 일부 기여자들에게 민감하게 작용하고 있다고 주장했다.

Hong은 "FrontierMath 벤치마크에 크게 기여한 6명의 수학자들로부터 [제게] … OpenAI가 이 벤치마크(그리고 다른 것들)에 독점적으로 접근하게 될 것이라는 사실을 모른다고 확인했다"며, "대부분은 이 사실을 알고 기여했었다면 자신의 기여 여부에 대해 확신하지 못할 것이라고 말한다"고 전했다.

Meemi의 게시물에 답글을 단 Epoch AI의 어소시에이트 디렉터이자 공동 창립자 중 한 명인 Tamay Besiroglu은 FrontierMath의 무결성에는 문제가 없다고 반박하면서도, Epoch AI가 투명성을 확보하는 과정에서 "실수했다"고 인정했다.

Besiroglu은 "파트너십 공개는 o3 출시 시점까지 제한되어 있었고, 돌이켜보면 벤치마크 기여자들에게 가능한 한 빨리 투명성을 보장하도록 더 적극적으로 협상했어야 했다"고 밝혔다. "저희 수학자들은 누가 그들의 작업에 접근할 수 있는지 알 권리가 있었습니다. 계약상 저희가 말할 수 있는 내용에 제한이 있었지만, OpenAI와의 합의에서 기여자들과의 투명성을 협상 불가능한(non-negotiable) 조건으로 삼았어야 했습니다."

Besiroglu은 또한 OpenAI가 FrontierMath에 접근할 수는 있지만, Epoch AI와는 FrontierMath의 문제 세트를 이용해 AI를 훈련시키지 않겠다는 '구두 합의(verbal agreement)'가 있다고 덧붙였다. (AI를 FrontierMath로 훈련시키는 것은 '시험을 위한 학습'과 같다.) 그는 또한 Epoch AI가 독립적인 검증을 위한 추가 안전장치로 '별도의 제외 세트(separate holdout set)'를 보유하고 있다고 설명했다.

"OpenAI는 … 별도의, 미공개 제외 세트를 유지하겠다는 저희의 결정에 전적으로 동조해 왔습니다"라고 Besiroglu은 썼다.

그러나 상황을 더욱 복잡하게 만든 점은, Epoch AI의 수석 수학자인 Elliot Glazer가 Reddit 게시물에서 Epoch AI가 OpenAI의 FrontierMath o3 결과를 독립적으로 검증할 수 없음을 지적한 것이다.

Glazer는 "개인적으로는 OpenAI의 점수가 신뢰할 만하다고 생각합니다(즉, 데이터셋으로 학습하지 않았다는 의미이며), 그리고 그들이 내부 벤치마킹 성능에 대해 거짓말을 할 동기가 없습니다"라고 말했으나, "저희의 독립적인 평가가 완료되기 전까지는 그들을 보증할 수는 없습니다"고 신중한 입장을 밝혔다.

이 사태는 AI를 평가하기 위한 실증적 벤치마크 개발의 어려움, 그리고 이해 상충의 인식을 만들지 않으면서 벤치마크를 개발해야 하는 과제를 명확히 보여주고 있다.

[출처:] https://techcrunch.com/2025/01/19/ai-benchmarking-organization-criticized-for-waiting-to-disclose-funding-from-openai