허깅 페이스, 자체 개발 신규 AI 모델이 동급 중 가장 작다고 주장

sw_reporter

AI 개발 플랫폼의 한 팀은 이미지, 짧은 비디오, 텍스트를 모두 분석할 수 있는 가장 작은 규모의 AI 모델을 출시했다고 밝혔습니다.

이 모델인 SmolVLM-256M과 SmolVLM-500M은 RAM 용량이 1GB 미만인 노트북과 같은 "제한된 장치(constrained devices)" 환경에서도 효율적으로 작동하도록 설계되었습니다. 개발자들 입장에서는 대용량 데이터를 매우 저렴한 비용으로 처리하는 데에도 이상적이라고 이 팀은 강조했습니다.

SmolVLM-256M과 SmolVLM-500M은 각각 2억 5,600만 개와 5억 개의 매개변수(파라미터)로 구성되어 있습니다. (매개변수는 모델의 문제 해결 능력, 예를 들어 수학 시험 성적과 유사한 개념입니다.) 두 모델 모두 이미지나 비디오 클립을 설명하거나, 스캔된 텍스트 및 차트가 포함된 PDF 문서의 내용에 대해 질문에 답하는 등의 작업을 수행할 수 있습니다.

이 모델들을 훈련하기 위해 Hugging Face 팀은 50개의 "고품질" 이미지 및 텍스트 데이터셋 모음인 The Cauldron과, 상세한 설명(캡션)이 첨부된 파일 스캔 세트인 Docmatix를 활용했습니다. 이 두 데이터셋은 멀티모달 AI 기술을 개발하는 Hugging Face의 M4 팀이 제작했습니다.

이 팀은 SmolVLM-256M과 SmolVLM-500M이 학급 수준의 과학 다이어그램 분석 능력을 테스트하는 AI2D를 포함한 여러 벤치마크에서 훨씬 더 큰 모델인 Idefics 80B를 능가하는 성능을 보인다고 주장합니다. SmolVLM-256M과 SmolVLM-500M은 웹을 통해, 또는 Hugging Face에서 아파치 2.0(Apache 2.0) 라이선스로 다운로드할 수 있으며, 이는 사용에 제한이 없음을 의미합니다.

다만, SmolVLM-256M 및 SmolVLM-500M과 같은 소형 모델은 비용 효율적이고 다재다능할 수 있지만, 대형 모델에서 발견되는 수준만큼의 견고함은 부족할 수 있다는 지적이 있습니다. Google DeepMind, Microsoft Research, 퀘벡의 Mila 연구소 등이 수행한 최근 연구에 따르면, 많은 소형 모델들이 복잡한 추론 작업에서 기대 이하의 성능을 보이는 경우가 확인되었습니다. 연구원들은 이러한 현상이 소형 모델들이 데이터의 표면적인 패턴은 인식하지만, 그 지식을 새로운 상황에 적용하는 데 어려움을 겪기 때문일 수 있다고 분석했습니다.

[출처:] https://techcrunch.com/2025/01/23/hugging-face-claims-its-new-ai-models-are-the-smallest-of-their-kind