페이페이 리, AI를 이끌었던 구글 클라우드를 월드 랩스의 주요 컴퓨팅 제공업체로 선정하다

sw_reporter

클라우드 제공업체들이 AI 유니콘들을 확보하기 위해 치열하게 경쟁하고 있으며, 그 최신 사례가 바로 Fei-Fei Li가 설립한 World Labs입니다. 이 스타트업은 AI 모델 훈련을 위한 핵심 컴퓨팅 파트너로 Google Cloud를 선택했으며, 이 계약 규모는 수억 달러에 이를 것으로 예상됩니다. 다만, Google은 이번 거래가 리 박사가 Google Cloud의 AI 최고 과학자(chief scientist of AI)였던 경력 때문인 것은 아니라고 선을 그었습니다.

지난 화요일 Google Cloud Startup Summit에서, 양사는 World Labs가 확보한 자금의 상당 부분을 Google Cloud Platform(GCP)의 GPU 서버 라이선스에 사용할 것이며, 이를 통해 궁극적으로 "공간 지능(spatial intelligence)" AI 모델을 훈련시킬 것이라고 발표했습니다.

현재 AI 파운데이션 모델을 개발하는 자금력이 풍부한 소수 스타트업들은 클라우드 서비스 시장에서 독보적인 수요를 보입니다. OpenAI가 AI 모델을 Microsoft Azure에서 독점적으로 훈련 및 운영하는 사례나, Anthropic이 AWS와 Google Cloud를 사용하는 사례 등이 대표적입니다. 이들 기업은 컴퓨팅 서비스에 꾸준히 수백만 달러를 지출하며, AI 모델의 규모가 커짐에 따라 앞으로는 더욱 막대한 컴퓨팅 자원을 요구할 것으로 예상됩니다. 이는 Google, Microsoft, AWS 등 클라우드 거대 기업들에게 초기에 강력한 관계를 구축할 수 있는 중요한 기회가 됩니다.

World Labs는 막대한 컴퓨팅 자원이 요구되는 독특한 멀티모달 AI 모델을 개발하고 있습니다. 이 스타트업은 AI 월드 모델 구축을 위해 A16Z가 주도하는 투자 라운드를 통해 10억 달러 이상의 가치 평가를 받고 총 2억 3,000만 달러를 유치했습니다. Google Cloud의 스타트업 및 AI 총괄 관리자인 James Lee는 테크크런치(TechCrunch) 인터뷰에서, World Labs의 AI 모델이 비디오 및 지리 공간 데이터(geospatial data)를 처리, 생성, 상호작용할 수 있는 수준에 도달할 것이라고 언급하며, World Labs는 이러한 AI 모델을 "공간 지능"이라 명명했습니다.

리 박사는 2018년 Google Cloud의 AI 역량을 이끌면서 깊은 연관 관계를 맺어왔습니다. 그러나 Google은 이번 계약을 단순히 과거의 관계적 요인으로 돌리는 것을 일축하며, 클라우드 서비스가 단순한 상품(commodity)의 범주에 속한다는 인식 자체를 거부했습니다. 대신, 리는 AI 워크로드를 확장할 수 있는 고성능 툴킷(High Performance Toolkit)과 같은 구체적인 서비스 역량, 그리고 풍부한 AI 칩 공급망이 더 결정적인 요인이었다고 강조했습니다.

리는 인터뷰에서 "Fei-Fei는 분명 GCP의 오랜 지인이었습니다. GCP가 유일한 선택지는 아니었겠지만, 우리가 언급한 모든 이유, 즉 AI에 최적화된 인프라와 확장성 요구사항을 충족시킬 수 있는 능력이 궁극적으로 그들이 저희를 선택하게 만든 이유였습니다"라고 말했습니다.

Google Cloud는 AI 스타트업들에게 자체 개발 AI 칩인 텐서 처리 장치(TPU)와 Nvidia의 GPU 중 선택지를 제공합니다. Google은 이 GPU를 구매하여 공급 규모를 조절하고 있습니다. Google Cloud는 Nvidia 의존도를 낮추기 위한 방편으로 더 많은 스타트업들이 TPU 위에서 AI 모델을 훈련하도록 유도하고 있습니다. 현재 모든 클라우드 제공업체들이 Nvidia GPU의 희소성이라는 한계에 직면하면서 자체 AI 칩 개발에 박차를 가하고 있습니다. 다만, Google Cloud에 따르면 일부 스타트업은 순수하게 TPU만으로 훈련 및 추론을 진행하고 있지만, GPU는 여전히 업계에서 가장 선호되는 AI 훈련 칩으로 자리 잡고 있습니다.

World Labs는 이번 계약에서 GPU를 활용하여 AI 모델을 훈련시키기로 결정했습니다. 그러나 Google Cloud는 이 결정의 구체적인 이유를 밝히지 않았습니다.

리는 인터뷰에서 "저희는 Fei-Fei와 그녀의 제품 팀과 협력했으며, 현재 그들의 제품 로드맵 단계상 GPU 플랫폼으로 작업을 진행하는 것이 가장 합리적이라고 판단했습니다. 하지만 이것이 영구적인 결정은 아닙니다. 때로는 스타트업들이 TPU와 같은 다른 플랫폼으로 이동하기도 합니다"라고 설명했습니다.

World Labs가 보유한 GPU 클러스터의 정확한 규모는 공개되지 않았지만, 클라우드 기업들은 AI 모델 훈련을 수행하는 스타트업들에게 막대한 슈퍼컴퓨터 자원을 할당하는 경우가 일반적입니다. Google Cloud는 또 다른 AI 파운데이션 모델 개발 스타트업에게 "수만 개의 Blackwell GPU"가 탑재된 클러스터가 준비되어 있다고 약속했는데, 이 GPU는 개당 최고급 게이밍 PC의 성능을 뛰어넘습니다.

이러한 고성능 클러스터는 약속하기는 쉬워도 실제로 이행하기가 어렵습니다. Google의 경쟁사 마이크로소프트(Microsoft)가 OpenAI의 엄청난 컴퓨팅 요구량을 감당하는 데 어려움을 겪으면서, 시장의 주목을 받고 있습니다.

[출처:] https://techcrunch.com/2024/10/08/fei-fei-li-picks-google-cloud-where-she-led-ai-as-world-labs-main-compute-provider