Ai2의 새 소형 AI 모델, 구글·메타의 유사 규모 모델 능가

sw_reporter

최근 작은 AI 모델들이 주목받는 시기인 듯합니다.

비영리 AI 연구소 Ai2는 목요일에 10억 개(1B)의 파라미터를 가진 모델인 Olmo 2 1B를 공개했습니다. Ai2에 따르면, 이 모델은 여러 벤치마크 테스트에서 구글, 메타, 알리바바 등 경쟁사에서 출시한 유사한 규모의 모델들을 능가하는 성능을 보여줍니다. 파라미터(parameter)는 때때로 가중치(weights)라고 불리며, 모델의 동작 방식을 결정하는 내부 요소입니다.

Olmo 2 1B는 AI 개발 플랫폼 Hugging Face에서 자유로운 Apache 2.0 라이선스로 이용 가능합니다. 특히, 대부분의 모델과 달리 Olmo 2 1B는 개발에 사용된 코드와 데이터 세트(Olmo-mix-1124 및 Dolmino-mix-1124)가 Ai2에 의해 공개되었기 때문에, 누구나 처음부터(from scratch) 재구축할 수 있다는 장점이 있습니다.

작은 모델들이 거대 모델만큼의 최고 성능을 구현하지 못할 수도 있지만, 가장 중요한 장점은 구동을 위해 고사양 하드웨어 자원이 필요하지 않다는 점입니다. 이는 저사양 하드웨어와 일반 소비자 기기의 한계에 직면한 개발자나 취미 사용자들에게 훨씬 높은 접근성을 제공합니다.

최근 며칠 동안 마이크로소프트의 Phi 4 reasoning family, Qwen의 2.5 Omni 3B 등 다수의 소형 모델들이 연달아 발표되었습니다. Olmo 2 1B를 포함하여 이러한 모델 대부분은 최신 노트북이나 심지어 모바일 장치에서도 쉽게 실행할 수 있습니다.

Ai2에 따르면, Olmo 2 1B는 공개적으로 사용 가능한, AI 생성 및 수동으로 작성된 자료에서 추출한 총 4조 토큰(token) 규모의 데이터셋으로 훈련되었습니다. 토큰은 모델이 흡수하고 생성하는 원시 데이터 단위이며, 백만 개의 토큰은 약 75만 개의 단어에 해당합니다.

산술 추론을 측정하는 벤치마크인 GSM8K에서 Olmo 2 1B는 구글의 Gemma 3 1B, 메타의 Llama 3.2 1B, 알리바바의 Qwen 2.5 1.5B보다 높은 점수를 기록했습니다. 또한, 사실적 정확도를 평가하는 테스트인 TruthfulQA에서도 이 세 모델을 앞섰습니다.

이 모델은 4조 토큰의 고품질 데이터로 사전 훈련되었으며, 이는 당사의 7B, 13B, 32B 모델에 적용된 고품질 어닐링(annealing)을 거친 표준 사전 훈련 과정을 따릅니다. 저희는 훈련 과정의 매 1,000 스텝마다 중간 체크포인트를 업로드하고 있습니다.

[생략]

다만, Ai2는 Olmo 2 1B 사용에 있어 위험 요소가 있음을 경고했습니다. 해당 기관에 따르면, 모든 AI 모델과 마찬가지로 이 모델 역시 유해하거나 "민감한" 콘텐츠뿐만 아니라 사실적으로 정확하지 않은 진술 등 "문제가 될 수 있는 출력물"을 생성할 수 있습니다. 이러한 이유로 Ai2는 Olmo 2 1B를 상업적 환경에 배포할 것을 권장하지 않습니다.

[출처:] https://techcrunch.com/2025/05/01/ai2s-new-small-ai-model-outperforms-similarly-sized-models-from-google-meta