• 제미나이 라이브 첫인상: Siri와의 대화보다는 낫지만, 기대만큼은 아니다

    Google은 화요일 'Made by Google' 행사를 통해 이 기능을 공개했다. 이 기능은 구글의 최신 대규모 언어 모델(LLM)을 기반으로 하며, 사용자가 타이핑이 아닌, 반(semi-)자연스러운 음성 대화를 나눌 수 있게 해준다. TechCrunch는 현장에서 직접 이 기능을 테스트해볼 수 있었다.

    Gemini Live는 OpenAI의 Advanced Voice Mode에 대한 구글의 대응책이며, 현재 제한적인 알파 테스트를 거치는 ChatGPT의 거의 동일한 기능을 목표로 한다. OpenAI가 이 기능을 먼저 시연하며 구글에 앞서 나갔지만, 구글은 이 기능을 최종 완성하여 출시한 최초의 사례다.

    실제 경험을 바탕으로 볼 때, 이러한 저지연(low latency) 음성 기반 기능은 ChatGPT와의 문자 메시지 대화나 심지어 Siri 또는 Alexa와의 대화보다 훨씬 더 자연스럽게 느껴진다. Gemini Live는 질문에 2초도 채 안 되어 응답했으며, 대화 중 말을 끊어도 비교적 빠르게 맥락을 전환했다. Gemini Live가 완벽하지는 않지만, 지금까지 본 핸즈프리(hands-free) 휴대폰 사용 방법 중 단연 최고다.

    Gemini Live 작동 방식

    Gemini Live를 사용하면, OpenAI가 제공하는 3가지 음성 외에 10가지 음성 중에서 선택할 수 있다. 구글은 성우들과 협력하여 각 음성을 제작했다. 이 다양한 선택지가 인상적이었으며, 어떤 음성도 매우 인간적이었다.

    한 예로, 한 구글 제품 관리자가 Gemini Live에게 "아이들이 동행할 수 있도록 야외 공간과 놀이터가 근처에 있는 마운틴 뷰(Mountain View) 근처의 가족 친화적인 와이너리"를 구두로 요청했다. 이는 Siri나 구글 검색(Google Search)에 요청할 법한 것보다 훨씬 복잡한 작업이었지만, Gemini는 기준에 맞는 장소인 사라토가(Saratoga)의 쿠퍼-가로드 와이너리(Cooper-Garrod Vineyards)를 성공적으로 추천했다.

    다만, Gemini Live는 아쉬운 점도 남긴다. 해당 와이너리에서 "10분 거리에 있다"고 언급된 '헨리 초등학교 놀이터(Henry Elementary School Playground)'라는 근처 놀이터에 대해 환각(hallucinate)을 일으킨 것처럼 보였기 때문이다. 사라토가에는 다른 놀이터가 근처에 있지만, 가장 가까운 헨리 초등학교는 그곳에서 차로 두 시간을 넘게 떨어진 곳에 위치한다. 레드우드 시티(Redwood City)에는 헨리 포드 초등학교가 있지만, 이곳은 30분 거리다.

    구글은 사용자들이 문장 중간에 말을 끊어 Gemini Live를 중단시키고 AI가 재빨리 방향을 전환하는 모습을 시연하며 사용자들이 대화를 통제할 수 있다는 점을 강조했다. 하지만 실제로는 이 기능이 완벽하게 작동하지 않는 경우가 있었다. 때때로 구글 프로젝트 관리자와 Gemini Live의 대화가 겹칠 때, AI가 무슨 말이 나왔는지 정확히 파악하지 못하는 듯했다.

    주목할 만한 점은, 제품 관리자 릴랜드 레키스(Leland Rechis)에 따르면 구글은 Gemini Live가 제공하는 10가지 음성 외에 노래를 부르거나 다른 목소리를 흉내 내도록 허용하지 않는다는 것이다. 이는 아마도 저작권법 침해 문제를 회피하기 위한 조치로 보인다. 게다가 레키스는 구글이 OpenAI가 시연에서 과시했던 사용자의 음성 감정 억양을 이해시키는 부분에는 현재 초점을 맞추고 있지 않다고 덧붙였다.

    전반적으로 이 기능은 간단한 구글 검색보다 주제를 더 자연스럽고 깊이 있게 파고들 수 있는 훌륭한 방법으로 보인다. 구글은 Gemini Live가 회사가 Google I/O에서 선보인 완전한 멀티모달 AI 모델인 [모델 이름]으로 나아가는 과정 중 하나의 단계라고 언급했다. 현재 Gemini Live는 음성 대화에만 국한되지만, 미래에는 실시간 비디오 이해 기능을 추가할 계획이다.

    [출처:] https://techcrunch.com/2024/08/13/gemini-live-first-look-better-than-talking-to-siri-but-worse-than-id-like