연구자들이 OpenAI의 o1 '추론' 모델의 오픈 라이벌을 50달러 미만으로 개발했다

sw_reporter

스탠퍼드 대학교와 워싱턴 대학교의 AI 연구원들이 지난 금요일 발표된 새로운 연구 논문에 따르면, 50달러 미만의 클라우드 컴퓨팅 크레딧만으로 AI ‘추론(reasoning)’ 모델을 훈련하는 데 성공했다고 밝혀졌다.

s1으로 알려진 이 모델은 수학 및 코딩 능력을 측정하는 테스트에서 OpenAI의 o1이나 DeepSeek의 R1과 같은 최첨단 추론 모델과 유사한 성능을 보여준다. s1 모델은 훈련에 사용된 데이터와 코드와 함께 GitHub에서 공개되어 있다.

s1 개발팀에 따르면, 이들은 기성 기본 모델(off-the-shelf base model)을 시작으로, 다른 AI 모델의 답변을 학습하여 ‘추론’ 능력을 추출하는 과정인 증류(distillation) 방식을 통해 모델을 미세 조정했다.

연구원들은 s1이 구글의 추론 모델 중 하나인 Gemini 2.0 Flash Thinking Experimental에서 증류된 모델이라고 밝혔다. 증류는 작년 버클리 연구원들이 약 450달러를 들여 AI 추론 모델을 개발하는 데 사용했던 것과 동일한 접근 방식이다.

몇몇 사람들에게는 수백만 달러의 자금 지원 없이도 소수의 연구원들이 AI 분야에서 혁신할 수 있다는 점 자체가 흥미로울 수 있다. 하지만 s1은 AI 모델의 상품화(commoditization)에 대한 현실적인 질문을 던지게 한다. 상대적으로 적은 비용으로 수백만 달러 규모의 모델을 유사하게 복제할 수 있다면, 기술적 진입 장벽(moat)은 과연 어디에 있는 것인가?

놀랍게도, 대형 AI 연구소들은 이 상황에 만족하지 못하고 있다. 실제로 OpenAI는 DeepSeek이 모델 증류 목적으로 API로부터 데이터를 부적절하게 수집했다고 비난한 바 있다.

s1 개발팀의 목표는 강력한 추론 성능과 '테스트 시간 스케일링(test-time scaling)'—즉, AI 모델이 질문에 답변하기 전에 더 깊이 사고하도록 만드는 능력—을 달성하는 가장 간단한 접근 방식을 찾는 것이었다. 이는 DeepSeek을 비롯한 다른 AI 연구소들이 다양한 기술을 통해 재현하려 했던 OpenAI의 o1이 보여준 주요 혁신 지점들이었다.

s1 논문은 추론 모델이 '감독 미세 조정(Supervised Fine-Tuning, SFT)'이라는 과정을 통해 상대적으로 적은 데이터셋으로도 증류될 수 있음을 시사한다. 이 과정은 AI 모델에게 데이터셋 내에서 특정 행동을 모방하도록 명시적으로 지시하는 방식이다.

SFT 방식은 DeepSeek이 경쟁 모델인 OpenAI의 o1 모델 R1을 훈련시키는 데 사용했던 대규모 강화 학습(reinforcement learning) 방식보다 비용 효율적이다.

한편, 구글은 자신의 Google AI Studio 플랫폼을 통해 Gemini 2.0 Flash Thinking Experimental에 대해 일일 사용량 제한은 있지만 무료 접근을 제공하고 있다. 그러나 구글은 서비스 약관을 통해 자사의 AI 제품과 경쟁하는 서비스를 개발하기 위한 모델 역설계(reverse-engineering)를 금지하고 있다.

s1은 알리바바 소유의 중국 AI 연구소인 Qwen의 작고 기성품으로 나온 AI 모델을 기반으로 하며, 이 모델은 무료로 다운로드 가능하다. 연구팀은 s1을 훈련하기 위해 단 1,000개의 신중하게 선별된 질문과 그 정답, 그리고 구글의 Gemini 2.0 Flash Thinking Experimental에서 추출한 각 답변의 '사고 과정' 데이터셋을 구축했다.

연구팀에 따르면, 16개의 Nvidia H100 GPU를 사용하여 30분도 채 걸리지 않은 훈련 끝에, s1은 특정 AI 벤치마크에서 높은 성능을 달성했다. 이 프로젝트에 참여한 스탠퍼드 연구원 니클라스 뮌니호프(Niklas Muennighoff)는 테크크런치와의 인터뷰에서 필요한 컴퓨팅 자원을 오늘날 약 20달러로 임대할 수 있었다고 전했다.

연구진은 s1이 작업을 재확인하고 '사고' 시간을 연장하도록 하는 독특한 방법을 사용했다. 그들은 모델에게 '기다리라'고 지시했다. 논문에 따르면, s1의 추론 과정에 "기다리라"라는 단어를 추가하는 것만으로도 모델이 약간 더 정확한 답변을 도출하도록 돕는 데 도움이 되었다고 한다.

이러한 연구 결과는 강력한 추론 능력을 갖춘 AI를 만드는 데 있어 비용 효율성을 극대화할 수 있는 새로운 방향을 제시하지만, 동시에 대규모 투자가 혁신적인 기술 개발에 필수적이라는 현실적 한계점 또한 명확히 보여주고 있다. 증류는 AI 모델의 기능을 저렴하게 재현하는 데 효과적인 방법이지만, 현재 사용 가능한 것보다 훨씬 더 우수한 새로운 AI 모델을 창출하지는 못한다는 한계가 있다.

[출처:] https://techcrunch.com/2025/02/05/researchers-created-an-open-rival-to-openais-o1-reasoning-model-for-under-50