
가정에서도 정교한 로봇 공학 프로젝트를 구축하기가 더욱 쉬워지고 있다.
이번 주 초, AI 개발 플랫폼 Hugging Face는 로봇 공학을 위한 오픈 AI 모델인 SmolVLA를 공개했다. Hugging Face에 따르면, "호환 가능 라이선스가 적용된" 커뮤니티 공유 데이터셋으로 훈련된 SmolVLA는 가상 및 실제 환경 모두에서 로봇 공학 분야의 훨씬 더 크고 복잡한 모델들보다 뛰어난 성능을 보인다고 한다.
Hugging Face는 블로그 게시물을 통해 "SmolVLA는 비전-언어-행동(Vision-Language-Action, VLA) 모델의 접근성을 민주화하고 범용 로봇 에이전트 연구를 가속화하는 것을 목표로 한다"고 밝혔다. 이어서 "SmolVLA는 가벼우면서도 충분히 강력한 모델일 뿐만 아니라, 범용 로봇 공학 기술을 훈련하고 평가하는 방법론이기도 하다"고 설명했다.
SmolVLA는 저가형 로봇 하드웨어와 소프트웨어 생태계를 구축하려는 Hugging Face의 확장 노력의 일환이다. 작년에 이 회사는 로봇 공학에 초점을 맞춘 모델, 데이터셋, 도구 모음인 LeRobot을 출시했으며, 최근에는 프랑스에 본사를 둔 로봇 공학 스타트업인 [회사 이름]을 인수하고, 인간형 로봇(humanoids)을 포함한 몇 가지 저가형 로봇 시스템을 구매할 수 있도록 공개했다.
4억 5천만 개의 파라미터를 가진 SmolVLA는 Hugging Face의 AI 개발 플랫폼에 공유된 특별한 로봇 데이터셋인 LeRobot Community Datasets의 데이터를 활용하여 훈련되었다. 파라미터(Parameters)는 때때로 "가중치(weights)"라고 불리며, 모델의 동작을 안내하는 내부 구성 요소를 의미한다.
Hugging Face는 SmolVLA가 단일 소비자용 GPU—또는 MacBook—에서도 실행될 만큼 크기가 작아, 회사 자체 로봇 시스템을 포함한 "저렴한" 하드웨어에서도 테스트 및 배포가 가능하다고 주장한다.
더 주목할 점은 SmolVLA가 "비동기 추론 스택(asynchronous inference stack)"도 지원한다는 것이다. Hugging Face의 설명에 따르면, 이는 모델이 로봇의 행동 처리와 시각 및 청각 인지 정보 처리를 분리할 수 있게 한다. 회사 블로그 게시물에 따르면, "이러한 분리를 통해 로봇은 급변하는 환경에 더욱 신속하게 대응할 수 있다."
SmolVLA는 Hugging Face에서 다운로드할 수 있다. 이미 X의 한 사용자는 이 모델을 사용하여 제3자 로봇 팔을 제어한 사례를 공유하며 다음과 같이 언급했다:
SmolVLA — 로봇 공학 분야에서 BERT의 순간처럼 느껴진다 
Koch Arm에 사용해본 결과:
RTX 2050 (4GB)에서의 추론, 단 31개의 데모만으로 미세 조정되었으며, 단일 태스크의 기준선과 일치하거나 능가한다 
님께 큰 감사드립니다 
— Xingdong Zuo (@XingdongZ)
2025년 6월 4일
다만 Hugging Face가 초기 오픈 로봇 공학 경쟁 분야에서 유일한 주체는 아니라는 점에 유의해야 한다.
Nvidia는 오픈 로봇 공학을 위한 도구 모음을 보유하고 있으며, 스타트업 K-Scale Labs는 자사가 명명한 "오픈소스 휴머노이드"를 위한 구성 요소를 구축하고 있다. 이 분야의 다른 주요 기업들로는 Dyna Robotics, 제프 베이조스(Jeff Bezos)가 지원하는 Physical Intelligence, 그리고 RLWRLD 등이 포진해 있다.