Ai2, 자체 신규 AI 모델로 DeepSeek의 최고 수준 모델 능가 주장

sw_reporter

DeepSeek는 물러나라. 새로운 미국 AI 챔피언이 등장했다.

시애틀에 본사를 둔 비영리 AI 연구 기관인 Ai2는 지난 목요일, 중국 AI 회사 DeepSeek의 주력 시스템 중 하나인 DeepSeek V3보다 성능이 우수하다고 주장하는 모델을 공개했다.

Ai2가 개발한 Tulu 3 405B 모델은 내부 테스트 결과, OpenAI의 GPT-4o를 포함한 특정 AI 벤치마크에서도 최고 성능을 기록했다. 더욱 주목할 점은, GPT-4o(그리고 DeepSeek V3 역시)와 달리 Tulu 3 405B는 오픈 소스(open source)라는 점이다. 이는 해당 모델을 처음부터 재현하는 데 필요한 모든 구성 요소가 자유롭게 이용 가능하고 퍼미시브 라이선스(permissively licensed)가 적용된다는 의미다.

Ai2의 대변인은 TechCrunch에 "Ai2 연구소는 Tulu 3 405B가 최고 수준의 생성형 AI 모델을 글로벌하게 발전시킬 미국에 대한 잠재력을 명확히 보여준다"고 밝혔다.

이 대변인은 이어 "이 성과는 개방형 AI의 미래에 있어 중대한 이정표이며, 경쟁적이고 오픈 소스 모델 분야에서 미국의 리더십을 강화한다"라고 강조했다. 그는 "이번 출시는 Ai2가 DeepSeek 모델에 대한 강력한 미국산 대안을 제시하는 것을 의미하며, 이는 단순한 AI 기술 개발을 넘어, 미국이 거대 기술 기업에 의존하지 않고도 경쟁적이며 오픈 소스 기반의 AI를 주도할 수 있음을 보여주는 중요한 순간이다"라고 설명했다.

Tulu 3 405B는 대규모 모델에 속한다. Ai2에 따르면, 이 모델은 4,050억 개의 매개변수(parameters)를 포함하며 훈련을 위해 병렬로 256개의 GPU를 사용했다. 매개변수는 모델의 문제 해결 능력과 간접적으로 연관되며, 일반적으로 매개변수가 많을수록 성능이 우수하게 나타난다.

Ai2는 Tulu 3 405B를 여러 인기 벤치마크를 통해 테스트했다.

Ai2에 따르면, Tulu 3 405B가 경쟁력 있는 성능을 달성할 수 있었던 핵심 비결 중 하나는 '검증 가능한 보상을 이용한 강화 학습(reinforcement learning with verifiable rewards)'이라는 기술이었다. 즉, RLVR은 수학 문제 풀이나 지침 따르기처럼 '검증 가능한' 결과가 발생하는 작업을 통해 모델을 훈련시킨다.

Ai2는 Wikipedia에서 가져온 14,000개의 전문 지식 질문 세트 벤치마크인 PopQA에서 Tulu 3 405B가 DeepSeek V3와 GPT-4o는 물론, Meta의 Llama 3.1 405B 모델보다도 높은 성능을 보였다고 주장했다. 또한, Tulu 3 405B는 초등 수준의 수학 단어 문제로 구성된 GSM8K 테스트에서도 동급 모델 중 최고 성능을 기록했다.

Tulu 3 405B는 현재 Ai2의 챗봇 웹 앱을 통해 테스트할 수 있으며, 모델 훈련 코드는 GitHub와 AI 개발 플랫폼 Hugging Face에 공개되어 있다. 이 주목할 만한 기세를 놓치지 마라. 다음 벤치마크를 능가하는 플래그십 AI 모델이 등장하기 전에 서둘러 확인해 볼 것을 권장한다.

TechCrunch의 AI 전문 뉴스레터를 받아보세요!

매주 수요일에 받은 편지함으로 받아보시려면 여기서 가입하세요.

[출처:] https://techcrunch.com/2025/01/30/ai2-says-its-new-ai-model-beats-one-of-deepseeks-best