DeepMind CEO 데미스 하사비스, "구글이 Gemini와 Veo AI 모델을 결국 결합할 것"이라고 밝혀

sw_reporter

최근 [매체 이름] 팟캐스트에서, LinkedIn 공동 창업자 리드 호프만(Reid Hoffman)과 함께 진행한 구글 딥마인드(Google DeepMind) CEO 데미스 허사비스(Demis Hassabis)는 구글이 자사 [특정 모델 이름] AI 모델과 [특정 모델 이름] 비디오 생성 모델을 궁극적으로 통합하여 전자의 물리 세계 이해도를 높일 계획이라고 밝혔다.

허사비스는 "우리는 항상 기반 모델인 Gemini를 처음부터 멀티모달로 구축해 왔다"라며, "그렇게 한 배경에는 '보편적인 디지털 비서'라는 비전이 깔려 있다. 즉, 실제로 현실 세계에서 사용자에게 도움을 주는 비서에 대한 비전이다"라고 설명했다.

AI 산업은 일종의 "옴니(omni)" 모델을 향해 점진적으로 움직이고 있다. 옴니 모델이란 다양한 형태의 미디어를 이해하고 종합할 수 있는 모델을 뜻한다. 구글의 최신 Gemini 모델은 오디오와 텍스트 생성에 더해 이미지도 만들어낼 수 있으며, OpenAI의 ChatGPT 기본 모델 역시 물론 [스튜디오 지브리 스타일의 예술] 같은 이미지를 생성하는 기능을 갖추게 되었다. 아마존 또한 올해 하반기 중 "어떤 것에서 어떤 것이든(any-to-any)" 가능한 모델을 출시할 예정이라고 발표했다.

이러한 옴니 모델들은 엄청난 양의 훈련 데이터, 즉 이미지, 비디오, 오디오, 텍스트 등을 요구한다. 허사비스는 Veo의 비디오 데이터가 주로 구글 소유의 플랫폼인 유튜브에서 수집된 것임을 암시했다.

허사비스는 "기본적으로, 유튜브 비디오, 즉 많은 유튜브 비디오를 시청하는 것만으로도 [Veo 2]는 세상의 물리적 원리를 파악할 수 있게 된다"고 설명했다.

한편, 구글은 앞서 TechCrunch에 자사 모델이 유튜브 크리에이터와의 계약에 따라 유튜브 콘텐츠의 '일부'로 훈련될 '수 있다'고 밝힌 바 있다. 보도에 따르면, 구글은 AI 모델 훈련에 필요한 데이터 확보를 위해 지난해 서비스 약관을 확장한 바 있다.

[출처:] https://techcrunch.com/2025/04/10/deepmind-ceo-demis-hassabis-says-google-will-eventually-combine-its-gemini-and-veo-ai-models