생성형 AI, 로봇을 범용성 가까이로 이끌다

sw_reporter

휴머노이드 로보틱스에 대한 대부분의 연구는 당연하게도 하드웨어 설계에 초점을 맞춰왔습니다. 개발자들이 '범용 휴머노이드(general purpose humanoids)'라는 구절을 자주 언급하는 빈도를 고려할 때, 오히려 이 개념 자체에 더 많은 주의가 기울여져야 합니다. 수십 년간 단일 목적 시스템이 주류를 이루었기에, 더욱 일반화된 시스템으로의 전환은 엄청난 도약이 될 것입니다. 그리고 아직 우리는 그 단계에 이르지 못했습니다.

이족 보행 기반 휴머노이드 설계가 열어주는 광범위한 움직임의 폭을 충분히 활용할 수 있는 로봇 지능을 구현하려는 노력이 연구자들의 핵심 의제였습니다. 최근에는 생성형 AI(generative AI)를 로봇공학에 접목하는 방식 또한 뜨거운 연구 주제로 떠올랐습니다.

MIT의 새로운 연구는 후자가 전자에 얼마나 근본적인 영향을 미칠 수 있는지 보여줍니다.

범용 시스템을 구축하는 과정에서 가장 큰 난제 중 하나는 '훈련(training)'입니다. 인간이 다양한 직업을 수행하도록 훈련시키는 최적의 방법론은 이미 확고하게 정립되어 있습니다. 하지만 로봇공학 분야의 접근 방식들은 여전히 파편화되어 있습니다. 강화 학습(reinforcement learning)이나 모방 학습(imitation learning)을 포함한 수많은 유망한 방법들이 존재하지만, 미래의 해결책은 생성형 AI 모델로 보강된 이러한 여러 방법론들의 조합을 수반할 가능성이 높습니다.

MIT 팀이 제시한 핵심적인 활용 사례 중 하나는 작고 특정 작업에 국한된 데이터셋으로부터 관련 정보를 취합하는 능력입니다. 이 방법론을 '정책 구성(policy composition, PoCo)'이라 명명했습니다. 예시 작업으로는 못을 박는 것, 주걱으로 물건을 뒤집는 등 유용한 로봇 동작들이 포함됩니다.

MIT에 따르면, "연구원들은 특정 데이터셋 하나를 이용해 단일 작업을 완료하는 전략, 즉 '정책(policy)'을 학습하기 위해 개별적인 확산 모델(diffusion model)을 훈련시킵니다. 그리고 이 확산 모델들이 학습한 여러 정책들을 결합하여, 로봇이 다양한 환경에서 여러 작업을 수행할 수 있도록 하는 일반적인 정책을 만듭니다."

MIT의 연구 결과에 따르면, 확산 모델을 통합하는 과정에서 작업 성능이 20% 향상되었습니다. 이는 여러 도구를 다루는 작업 수행 능력뿐 아니라, 이전에 접해보지 못한 새로운 작업에 대해 학습하고 적응하는 능력까지 포함합니다. 이 시스템은 작업을 완수하는 데 필요한 관련 정보를 여러 데이터셋에서 행동의 사슬(chain of actions)로 연결하여 결합할 수 있습니다.

이 논문의 주저자인 Lirui Wang은 "이러한 접근 방식의 장점은 정책들을 결합하여 양쪽의 장점을 모두 얻을 수 있다는 것입니다. 예를 들어, 실제 데이터로 훈련된 정책은 더 높은 민첩성을 확보할 수 있는 반면, 시뮬레이션 환경에서 훈련된 정책은 더 넓은 일반화성을 달성할 수 있습니다"라고 설명했습니다.

본 연구의 궁극적인 목표는 로봇이 다양한 도구를 교체하며 여러 작업을 수행할 수 있게 만드는 지능형 시스템을 구축하는 것입니다. 다목적 시스템의 확산은 우리 업계를 범용성이라는 궁극적인 목표에 한 걸음 더 가까이 데려갈 것입니다.

[출처:] https://techcrunch.com/2024/06/12/generative-ai-takes-robots-a-step-closer-to-general-purpose