피겨의 휴머노이드 로봇, 음성 명령을 받아 집안일 돕기 활동 전개

sw_reporter

Figure의 창립자이자 CEO인 브레트 애드콕(Brett Adcock)이 목요일 휴머노이드 로봇을 위한 새로운 기계 학습 모델을 공개했습니다. 이 소식은 애드콕이 소속된 바이에어권 로봇 공학 회사가 오픈AI와의 협력을 중단한다고 발표한 지 2주 만에 나온 것입니다. 발표된 내용은 '범용적(generalist)' 비전-언어-행동(VLA) 모델인 헬릭스(Helix)를 중심으로 전개됩니다.

VLA는 로봇 공학 분야의 새로운 흐름으로, 비전과 언어 명령을 결합하여 정보를 처리하는 방식입니다. 현재 이 범주에서 가장 잘 알려진 사례는 비디오 데이터와 대규모 언어 모델(LLMs)을 조합하여 로봇을 훈련시키는 구글 딥마인드(Google DeepMind)의 RT-2입니다.

헬릭스 역시 유사하게 시각적 데이터와 언어 프롬프트를 결합하여 로봇을 실시간으로 제어합니다. Figure는 "헬릭스는 자연어로 질문하는 것만으로도 훈련 과정에서 한 번도 접하지 못한 다양한 모양, 크기, 색상, 재질의 수천 가지 새로운 가정용 품목을 집을 수 있는 강력한 객체 일반화 능력을 보여준다"고 설명합니다.

Figure의 설명에 따르면, 이상적으로는 로봇에게 단순히 무언가를 하라고 지시하는 것만으로 로봇이 그 임무를 수행하는 것입니다. 헬릭스가 바로 그 역할을 수행하는 플랫폼이며, 비전 처리와 언어 처리 기술 간의 격차를 해소하도록 설계되었습니다. 로봇이 자연어 음성 프롬프트를 수신하면, 먼저 환경을 시각적으로 평가한 후 작업을 수행합니다.

Figure는 다음과 같은 시나리오를 예로 들었습니다. "오른쪽에 있는 로봇에게 쿠키 봉지를 건네라" 혹은 "왼쪽에 있는 로봇으로부터 쿠키 봉지를 받고 열린 서랍에 넣어라"와 같이, 로봇 두 대가 협력하는 작업입니다. 이는 헬릭스가 여러 가사 작업을 처리하기 위해 로봇 두 대를 동시에 제어하도록 설계되었기 때문입니다.

Figure는 자체 개발한 02 휴머노이드 로봇을 가정 환경에 투입한 경험을 강조하며 이 VLM을 과시하고 있습니다. 가정집은 구조적 일관성이나 틀이 잡힌 창고나 공장과 달리 로봇에게 매우 까다로운 환경입니다.

학습과 제어의 어려움은 복잡한 로봇 시스템이 가정에 적용되는 주요 장벽입니다. 이러한 난제들은 높은 가격표와 맞물려, 가정용 로봇이 대부분의 휴머노이드 로봇 공학 기업들이 우선순위를 두는 분야가 아닌 이유입니다. 일반적으로는 주거 환경에 도전하기에 앞서, 산업용 고객을 대상으로 로봇을 개발해 신뢰성을 높이고 비용을 낮추는 접근법을 취합니다. 가사도 자동화는 당분간 먼 미래의 과제라는 것입니다.

테크크런치(TechCrunch)가 2024년 Figure의 바이에어권 사무실을 취재했을 당시, 애드콕은 로봇이 가정 환경에서 어떤 과정을 겪는지 보여주기도 했습니다. 당시에는 회사의 우선순위가 아닌 것처럼 비춰지기도 했는데, 이는 Figure가 BMW와 같은 기업과의 직장 환경 파일럿 테스트에 집중했기 때문입니다.

하지만 목요일 헬릭스 발표를 통해, Figure는 가정이 그 자체로 하나의 중요한 우선순위가 되어야 함을 명확히 했습니다. 이곳은 이와 같은 유형의 학습 모델을 테스트하기에 매우 도전적이고 복잡한 환경입니다. 예를 들어, 로봇에게 주방에서의 복잡한 작업을 가르치는 것은 그 로봇이 다양한 환경에서 광범위한 행동을 수행할 수 있게 만듭니다.

Figure는 "로봇이 가정에서 유용하려면, 특히 한 번도 접하지 못한 사물에 대해서도 필요할 때 지능적인 새로운 행동을 생성할 수 있어야 한다"고 말합니다. 또한 "현재 로봇에게 단 하나의 새로운 행동을 가르치는 것조차 엄청난 인적 노력이 필요합니다. 즉, 수십 시간에 걸친 박사급 전문가의 수동 프로그래밍이거나 수천 번의 시연이 요구됩니다."

수동 프로그래밍 방식은 가정 환경에 적용하기에 확장성이 부족합니다. 미지의 변수가 너무 많기 때문입니다. 주방, 거실, 욕실은 환경이 급격하게 다릅니다. 식기나 청소에 사용되는 도구 역시 마찬가지입니다. 게다가 사람들은 어질러진 것을 남기고, 가구를 재배치하며, 다양한 환경 조명을 선호합니다. 이 방법은 너무나 많은 시간과 비용을 소모합니다.

다른 방법은 훈련, 그리고 그 대규모의 훈련입니다. 실험실에서 물건을 집고 옮기도록 훈련된 로봇 팔들은 종종 이 방법을 사용합니다. 그러나 눈에 띄지 않는 사실은, 로봇의 학습에는 엄청난 반복적인 데이터가 필요하다는 것입니다.

본 기사 내용 역시, 현재의 연구 결과는 기술적 성취라기보다는 엄청난 양의 데이터를 통해 훈련된 모델의 결과물에 가깝습니다.

한편, 로봇이 인간 생활에 성공적으로 통합되기 위해서는, 로봇이 단순히 '무엇을 할 수 있는지'를 아는 것 이상의 단계가 필요합니다. 로봇은 '왜' 그 일을 해야 하는지, 즉 인간의 행동의 근본적인 '의도'를 이해해야만 비로소 진정한 지능을 갖추게 될 것입니다.

[출처:] https://techcrunch.com/2025/02/20/figures-humanoid-robot-takes-voice-orders-to-help-around-the-house