
'추론 AI 모델' 개발이 더 쉽고 저렴해지고 있습니다.
노바스카이(NovaSky)는 지난 금요일 UC 버클리 스카이 컴퓨팅 랩(Sky Computing Lab) 소속 연구원 팀을 통해 Sky-T1-32B-Preview라는 추론 모델을 공개했습니다. 이 모델은 여러 주요 벤치마크에서 OpenAI의 이전 버전 모델인 o1과 경쟁할 만한 성능을 보여주었습니다. 특히 Sky-T1은 처음부터 재구현(replicated from scratch)할 수 있다는 점에서 진정한 오픈 소스 추론 모델로서 중요한 의미를 가집니다. 노바스카이 팀은 모델 훈련에 사용된 데이터셋과 필요한 훈련 코드까지 모두 공개했습니다.
팀은 블로그 게시물을 통해 "놀랍게도 Sky-T1-32B-Preview는 450달러 미만으로 훈련되었다"고 밝히며, "이는 고수준 추론 능력을 저렴하고 효율적으로 구현하는 것이 가능하다는 것을 입증한 것"이라고 설명했습니다.
450달러라는 비용이 저렴하게 느껴지지 않을 수도 있지만, 이전에 성능이 비슷한 모델을 훈련하는 데는 수백만 달러가 드는 경우가 흔했습니다. 합성 훈련 데이터(Synthetic training data), 즉 다른 모델이 생성한 훈련 데이터의 등장은 이러한 비용 절감의 주된 요인으로 작용했습니다. AI 회사 Writer가 최근 출시한 Palmyra X 004 모델은 거의 전체가 합성 데이터로 훈련되었으며, 개발 비용이 불과 70만 달러에 그쳤다고 보도되었습니다.
대부분의 AI 모델과 달리, 추론 모델은 자체적인 사실 확인(fact-check) 과정을 거치기 때문에 일반적인 모델들이 빠지기 쉬운 오류를 효과적으로 회피할 수 있습니다. 다만, 추론 과정 때문에 일반적인 비추론 모델에 비해 해답을 도출하는 시간이 약간 더 오래 걸립니다. 통상적으로 수 초에서 수 분 정도 시간이 추가됩니다. 하지만 그 장점은 물리학, 과학, 수학과 같은 전문 분야에서 매우 높은 신뢰성을 보인다는 점입니다.
노바스카이 팀에 따르면, 이들은 초기 훈련 데이터 생성에 다른 추론 모델인 알리바바의 QwQ-32B-Preview를 사용했으며, 이후 데이터 혼합을 "큐레이션"하는 과정을 거쳤습니다. 나아가 OpenAI의 GPT-4o-mini를 활용하여 데이터를 작업 가능한 형태로 정제했습니다. 320억 개의 매개변수(Parameters)를 가진 Sky-T1을 훈련하는 데는 8개의 Nvidia H100 GPU 랙을 이용해 약 19시간이 소요되었습니다. (여기서 매개변수는 모델의 문제 해결 능력을 대략적으로 나타냅니다.)
노바스카이 팀에 따르면, Sky-T1은 "경쟁 수준" 수학 문제 모음인 MATH500에서 o1의 초기 프리뷰 버전보다 우수한 성능을 기록했습니다. 또한 코딩 평가를 진행하는 LiveCodeBench의 어려운 문제 세트에서도 o1 프리뷰 버전을 능가했습니다.
하지만 Sky-T1은 물리학, 생물학, 화학 관련 지식이 박사 학위 소지자에게 기대되는 GPQA-Diamond 벤치마크에서는 o1 프리뷰 버전에 미치지 못했습니다.
또한 주목할 점은 OpenAI가 출시할 o1의 GA(General Availability) 버전이 프리뷰 버전보다 더 강력한 모델이라는 사실이며, OpenAI가 앞으로 몇 주 안에 성능이 더 뛰어난 추론 모델 [모델 이름]을 공개할 것으로 예상된다는 것입니다.
그러나 노바스카이 팀은 Sky-T1이 고급 추론 능력을 갖춘 오픈 소스 모델 개발 여정의 시작에 불과하다고 강조합니다.
팀은 게시물에서 "앞으로는 강력한 추론 성능을 유지하면서도 더 효율적인 모델을 개발하는 데 집중하고, 모델의 테스트 시 효율성과 정확도를 더욱 높이는 첨단 기술을 탐구할 것입니다. 이 흥미로운 개발 과정에 많은 관심 부탁드립니다"라고 밝혔습니다.