
OpenAI에서 인공지능(AI) 추론(reasoning) 연구를 주도하고 있는 노엄 브라운(Noam Brown)은 연구자들이 적절한 접근 방식과 알고리즘을 사전에 알고 있었다면, 특정 형태의 "추론" AI 모델이 20년이나 앞당겨 나올 수 있었을 것이라고 말했다.
브라운은 수요일 산호세에서 열린 Nvidia의 GTC 컨퍼런스 패널에서 "이 연구 방향이 간과된 여러 이유가 있었다"며, "제 연구 과정에서 무언가 빠진 것이 있다는 점을 발견했습니다. 인간은 어려운 상황에 직면했을 때 행동하기 전에 상당한 시간을 생각합니다. 어쩌면 이것이 AI 분야에서 매우 유용할 수 있을 것입니다."라고 언급했다.
브라운이 언급한 것은 카네기 멜런 대학교(Carnegie Mellon University)에서 수행했던 게임 플레이 AI 작업, 특히 포커에서 최고 수준의 인간 전문가들을 이긴 플루리버스(Pluribus) 개발과 관련이 있다. 브라운의 도움을 받아 개발된 이 AI는 당시 다른 접근 방식들처럼 무작정 힘을 쓰는(brute-force) 방식보다는, 문제를 논리적으로 "추론(reason)"한다는 점에서 독보적이었다.
그는 또한 OpenAI의 AI 모델 o1의 설계자 중 한 명이기도 하다. o1은 쿼리에 응답하기 전에 "사고"하는 데 테스트 시간 추론(test-time inference)이라는 기법을 사용한다. 테스트 시간 추론은 실행 중인 모델에 추가적인 컴퓨팅 자원을 투입하여 일종의 "추론" 능력을 구현하는 것을 의미한다. 일반적으로 추론 모델은 특히 수학이나 과학과 같은 영역에서 기존 모델보다 더 높은 정확성과 신뢰성을 보인다.
패널 토론 중 브라운에게는 기관들이 컴퓨팅 자원에 대한 접근성이 전반적으로 낮은 현실을 고려할 때, 학계가 OpenAI와 같은 선두 연구소(frontier labs) 수준의 실험을 할 수 있을지 여부에 대한 질문이 제기되었다. 그는 최근 몇 년간 모델들이 점점 컴퓨팅 집약적으로 변하면서 어려워진 것이 사실이라고 인정하면서도, 학자들이 모델 아키텍처 설계와 같이 컴퓨팅 자원을 덜 요구하는 분야를 탐구함으로써 충분한 영향력을 발휘할 수 있다고 답했다.
브라운은 "최첨단 연구소와 학계 사이에 협력할 기회가 있다"며, "물론 선두 연구소들은 학술 논문을 주의 깊게 살펴보며 '만약 이것이 더 규모를 확장했을 때 매우 효과적일 것이라는 설득력 있는 논거'를 담고 있는지 신중하게 고려하고 있습니다. 논문에서 그러한 설득력 있는 논거가 제시된다면, 저희 연구소에서 그것을 연구할 것입니다."라고 말했다.
브라운의 발언은 트럼프 행정부가 과학 연구 보조금을 대폭 삭감(deep cuts)하는 상황과 맞물려 나왔다. 노벨상 수상자인 지프리 힌튼을 포함한 AI 전문가들은 이러한 삭감이 국내외 AI 연구 노력에 위협이 될 수 있다고 비판해 왔다.
이에 대해 브라운은 학계가 큰 영향을 미칠 수 있는 분야로 AI 벤치마킹(AI benchmarking)을 꼽았다. 그는 "현재 AI 벤치마크의 상태가 매우 좋지 않으며, 이는 많은 컴퓨팅 자원을 요구하지 않습니다"라고 지적했다.
앞서 보도한 바와 같이, 오늘날 인기 있는 AI 벤치마크들은 주로 '난해한 지식(esoteric knowledge)'을 테스트하는 경향이 있어, 대다수 사람이 관심을 갖는 실제 작업에서의 숙련도와는 상관관계가 낮은 점수를 산출한다. 이로 인해 모델의 능력과 개선 사항에 대해 광범위한 혼란(widespread confusion)이 초래되었다.
2024년 PT 기준 4:06 업데이트: 본 기사의 이전 버전에서는 브라운이 초반 발언에서 o1 같은 추론 모델을 언급한 것으로 잘못 전달되었습니다. 실제로는 OpenAI에 재직하기 전 수행했던 게임 플레이 AI 작업에 대한 것이었습니다. 이 오류를 사과드립니다.