
MIT가 이번 주 로봇 훈련을 위한 새로운 모델을 공개했습니다. 이 방법은 로봇에게 새로운 작업을 가르칠 때 사용되는 기존의 특정 데이터 세트 대신, 대규모 언어 모델(LLMs) 훈련에 사용되는 방대한 정보의 양을 모방합니다.
연구진은 모방 학습(imitation learning)—즉, 에이전트가 개체가 작업을 수행하는 것을 따라 하며 학습하는 방식—이 작은 난관에 봉착했을 때 실패할 수 있음을 지적합니다. 이러한 난관이란 조명 변화, 다른 환경 설정, 혹은 새로운 장애물 등을 의미할 수 있습니다. 이러한 시나리오에서 로봇은 적응하는 데 사용할 충분한 데이터를 확보하지 못하기 때문입니다.
이에 연구팀은 문제 해결을 위해 GPT-4와 같은 모델에서 보이는 일종의 무차별 데이터 접근 방식을 참고했습니다.
이 논문의 수석 저자인 Lirui Wang은 "언어 영역에서는 데이터가 모두 문장 형태에 불과합니다. 반면 로보틱스에서는 데이터의 이질성(heterogeneity)을 고려할 때, 유사한 방식으로 사전 훈련하려면 다른 아키텍처가 필요합니다"라고 말했습니다.
이에 연구팀은 서로 다른 센서와 환경의 정보를 통합하는 '이종 사전 훈련 트랜스포머(heterogeneous pretrained transformers, HPT)'라는 새로운 아키텍처를 도입했습니다. 이후 트랜스포머 모델을 활용해 데이터를 훈련 모델로 통합했으며, 트랜스포머의 규모가 클수록 더 좋은 성능을 발휘합니다.
사용자는 로봇의 설계, 구성 정보, 그리고 수행하려는 작업을 입력하면 됩니다.
CMU의 David Held 부교수는 이 연구에 대해 "우리의 궁극적인 목표는 어떤 추가 훈련 없이 다운로드하여 사용할 수 있는 범용 로봇 두뇌를 갖는 것"이라고 말했습니다. 이어 "아직 초기 단계이지만, 저희는 계속해서 노력을 기울일 것이며, 대규모 언어 모델이 보여준 것처럼 로봇 정책(robotic policies) 분야에서도 스케일링을 통해 혁신적인 돌파구를 마련하기를 기대합니다"라고 덧붙였습니다.
이 연구는 부분적으로 토요타 연구소(Toyota Research Institute, TRI)에 의해 주도되었습니다. 작년 테크크런치 디스럽트(TechCrunch Disrupt)에서 TRI는 로봇을 하룻밤 만에 훈련하는 방법을 선보인 바 있습니다. 더 나아가 최근에는 로봇 학습 연구를 보스턴 다이내믹스(Boston Dynamics)의 하드웨어와 통합할 획기적인 파트너십을 체결했습니다.