생성형 AI는 이미 로봇 분야에서 막대한 잠재력을 입증했습니다. 그 응용 분야는 자연어 상호작용, 로봇 학습, 노코드 프로그래밍, 심지어 디자인에 이르기까지 광범위합니다. 구글 딥마인드 로보틱스 팀은 이번 주에 이 두 분야 사이의 또 하나의 핵심 영역인 내비게이션을 선보였습니다.
팀은 "Mobility VLA: Long-Context VLMs 및 위상 그래프를 활용한 멀티모달 지침 내비게이션(Multimodal Instruction Navigation with Long-Context VLMs and Topological Graphs)"라는 제목의 논문을 통해, 구글 제미나이 1.5 프로(Google Gemini 1.5 Pro)를 활용해 로봇이 사무실 환경에서 명령을 이해하고 이동하도록 구현한 방법을 시연했습니다. 딥마인드는 이 과정에서 작년 광범위한 구조조정으로 인해 프로젝트가 중단되었던 구글의 '에브리 데이 로봇(Every Day Robots)' 일부를 사용했습니다.
프로젝트에 첨부된 일련의 영상에서, 딥마인드 직원들은 스마트 비서처럼 "알겠습니다, 로봇(OK, Robot)"이라는 구령으로 시작하며, 시스템에게 약 9,000평방피트 규모의 사무실 공간에서 다양한 작업을 수행하도록 요청합니다.
(구글 딥마인드)
한 영상에서, 구글 직원이 로봇에게 자신을 그림을 그릴 곳으로 안내해달라고 요청합니다. 로봇은 멋진 노란색 나비 넥타이를 매고 "알겠습니다. 잠시만 기다려 주세요. 제미나이로 생각 중입니다…"라고 응답합니다. 이후 로봇은 그 사람을 벽 전체 크기의 화이트보드가 있는 곳까지 안내합니다. 다른 영상에서는 다른 사람이 로봇에게 화이트보드의 지침을 따르도록 지시합니다.
간단한 지도는 로봇에게 "파란 구역(Blue Area)"으로 가는 경로를 알려줍니다. 로봇은 잠시 생각한 후, 결국 로봇 테스트 구역으로 향하는 우회 경로를 택합니다. 로봇은 인간이 꿈꿀 수 있을 법한 수준의 자신감을 드러내며 "화이트보드의 지침을 성공적으로 따랐습니다"라고 선언합니다.
(구글 딥마인드)
이러한 영상 이전에, 로봇들은 팀이 '시범 투어를 통한 멀티모달 지침 내비게이션(Multimodal Instruction Navigation with demonstration Tours, MINT)'이라 명명한 방식으로 공간에 익숙해졌습니다. 이는 구두로 랜드마크를 설명하며 로봇을 사무실 곳곳으로 직접 걸어 다니게 하는 것을 의미합니다. 다음 단계로, 팀은 계층적 비전-언어-액션(Vision-Language-Action, VLA)을 활용하여 "환경 이해력과 상식 추론 능력"을 결합했습니다. 이러한 과정들이 결합되자, 로봇은 문자로 된 명령이나 그려진 명령뿐 아니라 제스처에도 반응할 수 있게 되었습니다.
(구글 딥마인드)
구글에 따르면, 해당 로봇은 직원들과의 50회 이상의 상호작용에서 약 90%에 달하는 성공률을 기록했습니다.
[출처:] https://techcrunch.com/2024/07/11/watch-a-robot-navigate-the-google-deepmind-offices-using-gemini