구글의 Veo 3, 플레이어블 월드 모델의 시작이 될 수 있을까?

sw_reporter

구글의 AI 연구 조직인 딥마인드(DeepMind)의 CEO 데미스 하사비스(Demis Hassabis)는 화요일 저녁, 구글의 최신 비디오 생성 모델인 Veo 3가 비디오 게임에 활용될 가능성이 있음을 시사했습니다.

X(구 트위터)에 구글에게 "Veo 3 영상으로 비디오 게임을 할 수 있게 해주세요"라고 요청하고, "플레이 가능한 월드 모델은 언제 출시되나요?"라고 질문한 게시물에 하사비스는 "지금이면 정말 멋지지 않을까요."라고 응답했습니다.

수요일 아침, 구글 AI 스튜디오 및 Gemini API의 리드 프로덕트인 로건 킬패트릭(Logan Kilpatrick)은 ""라는 답글을 달았습니다.

두 구글 임원의 게시물 모두 장난기 섞인 제안에 그쳤으며, 구글 대변인은 테크크런치(TechCrunch)에 현재 공유할 내용은 없다고 밝혔습니다. 하지만 플레이 가능한 월드 모델을 구축하는 것이 구글과 같은 거대 기술 기업에게 불가능한 일은 아닙니다.

지금쯤이면 정말 멋지지 않을까요…
(https://t.co/WBeCMQye91)
— Demis Hassabis (@demishassabis)
2025년 7월 2일

월드 모델은 비디오 생성 모델과 그 목적이 다릅니다. 전자는 현실 세계 환경의 역학(dynamics)을 시뮬레이션하여, 에이전트가 자신의 행동에 따른 세상의 진화 양상을 예측하게 합니다. 반면, 비디오 생성 모델은 사실적인 비디오 시퀀스를 합성합니다.

구글은 자체 멀티모달 기반 모델인 Gemini 2.5 Pro를 인간의 뇌 측면을 시뮬레이션하는 월드 모델로 발전시킬 계획을 가지고 있습니다. 딥마인드는 지난 12월, "무한한" 다양한 플레이 가능한 세계를 생성할 수 있는 모델인 Genie 2를 공개한 바 있습니다. 그 직후에는 구글이 현실 세계를 시뮬레이션할 수 있는 AI 모델 개발을 위한 새로운 팀을 구성하고 있다는 보도가 나왔습니다.

다른 기업들 역시 월드 모델 구축에 힘쓰고 있습니다. 가장 대표적인 인물로는 AI 분야의 선구자인 페이페이 리(Fei-Fei Li)가 있습니다. 리는 작년에 스타트업 월드 랩스(World Labs)를 통해 베일 속을 벗고, 단일 이미지로부터 비디오 게임과 유사한 3D 장면을 생성하는 독자적인 AI 시스템을 구축했습니다.

현재 공개 프리뷰 단계인 Veo 3는 클립 외에도 음성(speech)부터 사운드트랙에 이르기까지 다양한 오디오를 생성할 수 있습니다. Veo 3는 현실 세계의 물리 법칙을 시뮬레이션하여 사실적인 움직임을 구현하지만, 아직 완전한 월드 모델은 아닙니다. 대신 게임 내의 컷신, 트레일러, 내러티브 프로토타이핑 등 영화적 스토리텔링 영역에 활용될 수 있습니다.

더욱이 이 모델은 여전히 "수동적 출력(passive output)" 생성 모델의 특성을 갖고 있어, (혹은 미래의 Veo 세대는) 보다 능동적인 인터랙션이 가능한 형태로 진화해야 합니다.

이러한 맥락에서, 진정한 '세계 모델'을 구축하는 것이 핵심입니다.

비디오 게임의 진화는 단지 그래픽 기술의 개선을 넘어, 물리 법칙과 상호작용의 체계적인 재현을 요구합니다. AI가 단순한 콘텐츠 생성기를 넘어, 시뮬레이터 역할을 해야만 합니다.

새로운 차원의 게임 엔진은 다음과 같은 돌파구를 통해 현재의 게임 산업을 재정의할 것입니다:

1. 물리 기반의 예측 엔진 (Physics-Informed Prediction)

현대의 게임은 미리 정해진 애니메이션 트랙 위에서 작동합니다. 반면, 다음 세대의 엔진은 **강화 학습(Reinforcement Learning)**을 통해 환경의 물리적 반응을 예측합니다.

돌파구: 캐릭터가 단순히 "넘어지는" 것이 아니라, 넘어질 때의 관성, 무게중심 이동, 충격 흡수 등이 실시간으로 시뮬레이션됩니다. 이는 게임 내 상호작용의 현실성과 즉흥성을 극대화합니다.
예시: 플레이어가 가구의 일부를 부수면, 파편들이 흩어지고 그 흩어진 파편의 경로까지 계산하는 엔진.

2. 메모리 및 지속성 시스템 (Memory and Persistence)

게임 월드가 플레이어의 행동을 단순히 '사건'으로 기록하는 것을 넘어, '기억'으로 처리하는 단계입니다.

돌파구: 월드 내의 비플레이어 캐릭터(NPC)가 플레이어의 과거 행동(예: 특정 시간대에 특정 장소에 무기를 떨어뜨린 행위)을 기억하고, 그에 반응하는 미묘한 심리적 변화를 보입니다.
게임적 효과: 스토리텔링이 '선형적 경험'을 넘어 '관계적 경험'으로 변화하며, 플레이어의 윤리적 선택이 장기적인 결과로 돌아오게 만듭니다.

3. 다중 에이전트 기반의 사회 시뮬레이션 (Multi-Agent Society)

가장 혁신적인 분야는, 인간의 복잡한 사회생활을 모방하는 '사회성 AI'입니다.

돌파구: 게임 속의 NPC들이 서로의 목표, 동기, 갈등을 가지고 상호작용합니다. 이들은 플레이어의 존재를 하나의 외부 변수로 간주하고, 그들 사이의 정치적 권력 다툼이나 경제적 생존 경쟁을 자체적으로 벌입니다.
산업적 의미: 이는 RPG의 '대화 선택지'를 넘어서, 플레이어가 현실의 사회 시스템에 개입하는 수준의 깊이 있는 자유도를 제공합니다.

결론: 엔진을 넘어선 '지능형 환경'

결국, 미래의 게임 엔진은 더 이상 정교한 도구가 아니라, 스스로 규칙을 생성하고, 기억하며, 생명을 불어넣는 '지능형 환경(Intelligent Environment)' 그 자체를 구축하는 방향으로 진화할 것입니다. 이 지점에서 엔터테인먼트 산업은 단순한 '콘텐츠 소비'를 넘어, '가상 세계에서의 삶의 경험'을 판매하는 차원으로 도약하게 될 것입니다.

[출처:] https://techcrunch.com/2025/07/02/could-googles-veo-3-be-the-start-of-playable-world-models