ChatGPT 고급 음성 모드에 대한 구글의 대응작, 제미나이 라이브 출시

sw_reporter

OpenAI의 ChatGPT Advanced Voice Mode에 대응하는 구글의 제품인 Gemini Live가 오는 화요일부터 순차적으로 배포됩니다. 이 기능은 지난 I/O 2024 개발자 컨퍼런스에서 발표된 지 수개월이 지난 시점에 출시됩니다. (참고: 해당 기능은 제한적 알파 버전을 통해 배포됩니다.)

Gemini Live는 구글의 생성형 AI 기반 챗봇인 Gemini와 사용자가 스마트폰을 통해 '심도 있는(in-depth)' 음성 채팅을 할 수 있도록 합니다. 구글은 이 기능이 일관성이 높고, 감정 표현이 뛰어나며 현실적인 다중 턴 대화를 제공하는 향상된 음성 엔진 덕분에 사용자가 챗봇이 말하는 도중에도 말을 끊어 후속 질문을 할 수 있고, 시스템이 이를 실시간으로 사용자의 말하는 방식에 맞춰 적응한다고 설명합니다.

구글은 블로그 게시물에서 다음과 같이 구체적인 사용 방안을 안내했습니다. "Gemini Live [Gemini 앱을 통해]를 사용하면 Gemini와 대화하면서, Gemini가 응답할 수 있는 [10가지의 새로운] 자연스러운 음성 중에서 선택할 수 있습니다. 또한, 실제 대화에서처럼 원하는 속도로 말하거나, 명확히 하는 질문을 던지며 응답 도중에 말을 끊을 수도 있습니다."

Gemini Live는 원할 경우 핸즈프리(hands-free)로 사용할 수 있습니다. 사용자가 Gemini 앱을 백그라운드에서 사용하거나 휴대폰이 잠긴 상태에서도 대화를 지속할 수 있으며, 대화는 언제든지 일시 중지 및 재개가 가능합니다.

구글은 이 기능의 유용성을 취업 인터뷰 연습 예시로 들었습니다. (다소 아이러니한 시나리오일 수 있으나) 구글에 따르면, Gemini Live는 사용자와 함께 연습하며, 면접관(혹은 AI)과 대화할 때 어떤 발언 요령을 갖춰야 하는지, 어떤 기술을 강조해야 하는지 등을 제안해 줍니다.

Gemini Live가 ChatGPT의 Advanced Voice Mode 대비 가질 수 있는 장점 중 하나는 향상된 '기억력'입니다. Live의 기반이 되는 생성형 AI 모델인 Gemini 1.5 Pro와 Gemini 1.5 Flash는 평균보다 긴 "컨텍스트 창(context window)" 아키텍처를 갖추고 있어, 응답을 생성하기 전에 방대한 양의 데이터—이론적으로는 몇 시간에 걸친 주고받는 대화—를 수용하고 추론할 수 있습니다.

구글 대변인은 TechCrunch에 이메일을 보내 "Live는 대화에 최적화되도록 조정된 저희의 Gemini Advanced 모델을 사용합니다. 이 모델의 대형 컨텍스트 창은..."이라고 설명했습니다.

다만, 이 모든 기능은 순조롭게 작동할 것으로 기대됩니다.

추가적으로, 스마트폰의 전원 버튼을 이용하여 AI를 호출하고 음성 명령을 내리는 방식 등 다양한 사용 사례가 보고되었습니다.

한편, 안드로이드 14에 탑재되는 업데이트된 삼성전자 갤럭시 모델 중 일부에서는 Gemini 기능을 이용한 다양한 작업이 가능하다는 평가가 나왔습니다.

요약:

Gemini는 Gemini의 능력을 활용해 사용자의 의도에 맞는 창의적 결과물을 생성할 수 있습니다. 사용자는 원하는 콘텐츠의 주제, 형식, 스타일 등 세부 지침을 제시하여 최고의 결과물을 얻을 수 있습니다.

예시:

창의적 텍스트 생성: "10대 청소년을 위한 과학 웹툰 시나리오를 작성해 줘."
정보 탐색 및 요약: "최근 전 세계 에너지 시장 변화 트렌드를 5가지 핵심 키워드로 요약해 줘."
일상 대화 및 계획: "다음 주말에 친구들과 가기 좋은 근교 캠핑 장소 3곳을 추천하고, 각 장소별 준비물 목록을 만들어 줘."

[출처:] https://techcrunch.com/2024/08/13/gemini-live-googles-answer-to-chatgpts-advanced-voice-mode-launches