중국 연구소, OpenAI의 o1에 대항하는 '추론' AI 모델 공개

sw_reporter

중국의 한 연구소에서 OpenAI에 필적하는 최초의 ‘추론(reasoning)’ AI 모델 중 하나가 공개되었습니다.

양적 트레이더들이 자금을 지원한 AI 연구 회사인 DeepSeek은 수요일, 자사 추론 모델 DeepSeek-R1의 프리뷰 버전을 공개했습니다. 이 회사는 DeepSeek-R1이 OpenAI의 o1 모델과 경쟁할 수 있는 추론 모델이라고 주장합니다. 대부분의 모델과 달리, 추론 모델은 질문이나 쿼리를 숙고하는 데 더 많은 시간을 할애하여 자체적으로 사실 확인을 효과적으로 수행합니다. 이는 모델이 흔히 겪는 오류들을 회피하는 데 도움을 줍니다.

DeepSeek-R1은 o1과 유사하게 작업 과정을 추론하고, 미리 계획을 수립하며, 일련의 행동을 수행하여 답변에 도달합니다. 이 과정은 시간이 소요될 수 있습니다. o1과 마찬가지로, DeepSeek-R1 역시 질문의 복잡도에 따라 답변을 하기 전에 수십 초 동안 "생각"할 수 있습니다.

DeepSeek은 DeepSeek-R1(정확히는 DeepSeek-R1-Lite-Preview)이 인기 AI 벤치마크인 AIME와 MATH에서 OpenAI의 o1-preview 모델과 동등한 수준의 성능을 보인다고 주장합니다. AIME은 다른 AI 모델을 사용하여 모델 성능을 평가하는 시험이며, MATH는 다양한 서술형 문제 모음집입니다. 하지만 이 모델이 완벽한 것은 아닙니다. X의 일부 해설가들은 DeepSeek-R1이 (o1처럼) 틱택토와 같은 논리 문제에서 어려움을 겪는다고 지적했습니다.

한편, DeepSeek은 쉽게 ‘탈옥(jailbreak)’될 수 있습니다. 즉, 안전장치를 무시하도록 프롬프트를 입력하는 방식으로입니다. 실제로 한 X 사용자가 이 모델로 상세한 메스(meth) 제조법을 얻어낸 사례가 보고되었습니다. 반면, DeepSeek-R1은 정치적으로 지나치게 민감하다고 판단되는 쿼리는 차단하는 것으로 보입니다. 실제로 저희 테스트 과정에서 이 모델은 중국의 지도자 시진핑, 천안문 광장, 그리고 중국의 대만 침공과 관련된 지정학적 함의에 대한 질문에는 답변을 거부했습니다.

이러한 제약은 중국 정부의 영향을 받은 것으로 해석됩니다. 중국 내 AI 모델은 응답이 "핵심 사회주의 가치"를 구현하는지 여부를 확인하기 위해 중국 인터넷 규제 당국의 벤치마크를 거쳐야 합니다. 심지어 정부는 모델 학습에 사용해서는 안 되는 출처 목록을 제안했을 정도이며, 그 결과 많은 중국 AI 시스템이 규제 당국이 불쾌하게 여길 수 있는 주제에 대해서는 응답을 거부하고 있습니다.

이처럼 추론 모델에 대한 관심이 높아지는 것은, 막대한 데이터와 컴퓨팅 파워를 투입하면 모델 능력이 지속적으로 향상될 것이라는 장기간의 가설인 '규모의 법칙(scaling laws)' 자체가 의심받고 있기 때문입니다. 주요 AI 연구소인 OpenAI, Google, Anthropic 등의 모델들이 과거만큼 극적인 성능 개선을 보이지 않는다는 보도들이 쏟아져 나오면서, 새로운 AI 접근 방식, 아키텍처, 개발 기술을 찾기 위한 경쟁이 붙고 있습니다.

그중 하나가 '테스트 시간 컴퓨팅(test-time compute)'인데, 이는 o1과 DeepSeek-R1 같은 모델의 핵심 기반 기술입니다. 또한 추론 컴퓨팅(inference compute)이라고도 불리며, 본질적으로 모델에 과제를 완수하기 위한 추가 처리 시간을 부여하는 방식입니다.

마이크로소프트의 사티아 나델라 CEO는 이번 주 마이크로소프트의 Ignite 컨퍼런스 기조연설에서 테스트 시간 컴퓨팅을 언급하며 "새로운 규모의 법칙이 출현하고 있다"고 말했습니다.

DeepSeek은 DeepSeek-R1을 오픈 소스로 공개하고 API를 출시할 계획인 흥미로운 기업입니다. 이 회사는 자사 트레이딩 결정에 AI를 활용하는 중국의 양적 헤지펀드인 High-Flyer Capital Management의 지원을 받고 있습니다.

DeepSeek의 초기 모델 중 하나인 범용 텍스트 및 이미지 분석 모델 DeepSeek-V2는 ByteDance, Baidu, Alibaba와 같은 경쟁사들이 일부 모델의 사용 가격을 인하하거나 아예 무료로 전환하도록 강제하는 계기를 마련했습니다.

High-Flyer는 자체 서버 클러스터를 모델 학습에 사용하며, 가장 최근에 보고된 클러스터는 Nvidia A100 GPU 10,000개를 보유하고 있으며 비용은 10억 엔(약 1억 3,800만 달러)에 달합니다. 컴퓨터 과학을 전공한 롄 펀펑(Liang Wenfeng)이 설립한 High-Flyer는 DeepSeek 조직을 통해 "초지능(superintelligent)" AI를 달성하는 것을 목표로 하고 있습니다.

[출처:] https://techcrunch.com/2024/11/20/a-chinese-lab-has-released-a-model-to-rival-openais-o1