
구글의 AI 연구 조직인 DeepMind가 '끝없는' 다양한 플레이 가능한 3D 세계를 생성할 수 있는 모델을 공개했습니다.
'Genie 2'라는 이름의 이 모델은 올해 초 공개된 DeepMind의 초기 모델인 Genie의 후속작입니다. Genie 2는 단일 이미지와 텍스트 설명(예: "숲 속의 귀여운 휴머노이드 로봇")만으로 인터랙티브하고 실시간적인 장면을 생성할 수 있습니다. 이러한 방식은 Fei-Fei Li의 회사, 그리고 이스라엘 스타트업이 개발 중인 모델과 유사합니다.
DeepMind는 Genie 2가 사용자가 마우스나 키보드를 이용해 점프, 수영과 같은 행동을 할 수 있는 세계를 포함하여 "방대한 다양성의 풍부한 3D 세계"를 생성할 수 있다고 밝히고 있습니다. 비디오 데이터를 기반으로 훈련된 이 모델은 사물 상호작용, 애니메이션, 조명, 물리 효과, 반사, 그리고 "NPC"의 행동까지 시뮬레이션할 수 있습니다.
Genie 2가 생성하는 시뮬레이션 중 다수는 AAA 비디오 게임처럼 보이는데, 이는 모델의 훈련 데이터에 인기 게임의 플레이 영상이 포함되어 있기 때문일 수 있습니다. 그러나 DeepMind는 경쟁적인 이유 등 여러 이유로 자체 데이터 소싱 방법에 대한 구체적인 세부 사항은 공개하지 않고 있습니다.
이로 인해 지식재산권(IP) 관련 의문이 제기됩니다. 구글의 자회사인 DeepMind는 YouTube에 대한 무제한 접근 권한을 보유하고 있으며, 구글은 과거 서비스 약관(ToS)을 통해 모델 훈련에 YouTube 동영상 사용이 허가된다고 시사한 바 있습니다. 하지만 Genie 2가 본질적으로 자신이 "학습한" 비디오 게임의 무단 복사본을 만드는 것인지 여부는 법적 판단의 영역입니다.
DeepMind에 따르면, Genie 2는 프레임뷰(first-person)와 아이소메트릭 뷰(isometric) 등 다양한 시점의 일관된 세계를 최대 1분 동안 생성할 수 있으며, 대부분은 10초에서 20초가 유지됩니다.
DeepMind는 블로그 게시물을 통해 "Genie 2는 키보드 키를 누르는 행동에 지능적으로 반응하며 캐릭터를 식별하고 올바르게 움직인다"고 설명했습니다. "예를 들어, 저희 모델은 화살표 키가 나무나 구름이 아니라 로봇을 움직여야 한다는 것을 파악할 수 있습니다."
Genie 2와 같은 대부분의 모델, 즉 '월드 모델(world models)'은 게임 및 3D 환경 시뮬레이션이 가능하지만, 아티팩트(artifacting), 일관성, 그리고 환각(hallucination)과 관련된 문제가 있습니다. 예를 들어, Decart의 Minecraft 시뮬레이터는 해상도가 낮고 레벨의 구조를 빠르게 '잊어버리는' 경향이 있습니다. 그러나 Genie 2는 시뮬레이션된 장면 중 현재 시야 밖에 있는 부분의 정보를 기억하고, 해당 부분이 다시 시야에 들어오면 정확하게 렌더링할 수 있습니다. (World Labs의 모델도 이 기능을 구현할 수 있습니다.)
실제로 Genie 2로 제작된 게임은 몇 분 간격으로 진행 상황이 리셋된다는 점에서 재미있기 어렵습니다. 이것이 바로 DeepMind가 이 모델을 단순한 게임 엔진이 아닌, 연구 및 창작 도구, 즉 "인터랙티브 경험"을 프로토타이핑하고 AI 에이전트를 평가하는 도구로 포지셔닝하고 있는 이유입니다.
DeepMind는 "Genie 2의 분포 외 일반화(out-of-distribution generalization) 능력을 활용하면 컨셉 아트나 드로잉을 완전한 인터랙티브 환경으로 변환할 수 있습니다. 또한 Genie 2를 사용해 AI 에이전트를 위한 풍부하고 다양한 환경을 빠르게 구축함으로써, 연구원들은 에이전트가 훈련 과정에서 접하지 못한 평가 과제를 생성할 수 있습니다"라고 언급했습니다.
이러한 발전은 창작자들, 특히 비디오 게임 업계 종사자들에게는 복합적인 감정을 불러일으킬 수 있습니다. 최근 Wired의 조사에 따르면, 직원을 대거 감축했던 액티비전 블리자드(Activision Blizzard) 같은 주요 기업들은 AI를 활용하여 생산성을 극대화하고 공백을 메우는 데 사용하고 있는 것으로 나타났습니다.
그럼에도 불구하고 구글은 자사의 월드 모델 연구에 막대한 자원을 투입하고 있으며, 이는 AI 분야의 다음 핵심 기술이 될 것으로 기대됩니다. 실제로 지난 10월, DeepMind는 OpenAI에서 비디오 생성 개발을 총괄하던 팀 브룩스(Tim Brooks)를 채용하여 비디오 생성 기술 및 월드 시뮬레이터 연구를 진행하고 있습니다. 또한 2년 전에는 메타(Meta)에서 네트핵(NetHack) 같은 비디오 게임을 이용한 '개방형(open-endedness)' 실험으로 유명한 팀 록테샬(Tim Rocktäschel)을 영입한 바 있습니다.