구글의 최신 플래그십 AI, 제미나이 2.0이 텍스트, 이미지, 음성을 생성할 수 있다

sw_reporter

구글의 차세대 주요 AI 모델이 오픈AI의 쏟아지는 신규 서비스들을 겨냥해 등장했습니다.

구글은 수요일에 2.0 Flash를 발표했으며, 이 모델은 텍스트뿐만 아니라 이미지와 오디오를 네이티브로 생성할 수 있다고 회사 측은 설명했습니다. 또한 2.0 Flash는 제3자 앱 및 서비스와 연동하여 구글 검색을 활용하고, 코드를 실행하는 등 다양한 기능이 가능합니다.

2.0 Flash의 실험적 버전은 오늘부터 Gemini API와 구글의 AI 개발 플랫폼인 AI Studio 및 Vertex AI를 통해 이용할 수 있습니다. 다만, 오디오 및 이미지 생성 기능은 1월의 광범위한 출시에 앞서 ‘얼리 액세스 파트너’에게만 먼저 제공됩니다.

구글에 따르면, 향후 몇 달 동안 2.0 Flash는 [제품명], Chrome DevTools, [제품명] 등 다양한 제품군에 적용되어 제공될 예정입니다.

Flash, 진화하다

1세대 Flash 모델인 1.5 Flash는 텍스트만 생성할 수 있었으며, 고도의 전문적인 워크로드를 위해 설계된 모델은 아니었습니다. 구글은 이 새로운 모델이 검색과 같은 도구를 호출하고 외부 API와 상호 작용할 수 있게 되면서 훨씬 더 다재다능해졌다고 밝혔습니다.

구글의 Gemini 모델 제품 책임자인 툴시 도시는 화요일 브리핑에서 “Flash가 속도와 성능의 균형 덕분에 개발자들 사이에서 엄청나게 인기가 있다는 것을 알고 있습니다.”라며, “2.0 Flash는 여전히 이전보다 빠르면서도 훨씬 더 강력해졌습니다”라고 말했습니다.

구글은 자사 테스트 결과, 2.0 Flash가 특정 벤치마크에서 자체 Gemini 1.5 Pro 모델보다 두 배 빠르며, 코딩 및 이미지 분석 분야에서 "상당히" 향상되었다고 주장합니다. 실제로 구글은 2.0 Flash가 우수한 수학 능력과 "사실성(factuality)" 덕분에 플래그십 Gemini 모델로서 1.5 Pro를 대체한다고 밝힙니다.

앞서 언급했듯이, 2.0 Flash는 텍스트와 함께 이미지를 생성하고 수정할 수 있습니다. 이 모델은 또한 사진, 동영상, 오디오 녹음 파일을 입력받아 관련 질문에 답변할 수 있습니다(예: "무슨 말을 했나요?").

오디오 생성은 2.0 Flash의 또 다른 핵심 기능입니다. 도시는 이 기능을 "조절 가능(steerable)"하고 "사용자 정의 가능(customizable)"하다고 설명했습니다. 예를 들어, 이 모델은 다양한 억양과 언어에 "최적화된" 8가지 목소리 중 하나를 사용해 텍스트를 나레이션할 수 있습니다.

그녀는 “말하는 속도를 늦추거나 빠르게 요청할 수 있을 뿐만 아니라, 심지어 해적 말투처럼 연기하도록 요청할 수도 있습니다”라고 덧붙였습니다.

기사 작성 시 참고로 밝힐 점은, 현재 구글은 2.0 Flash의 이미지나 오디오 샘플을 제공하지 않았습니다. 따라서 현재 시점에서는 실제 품질이 다른 모델의 결과물과 어떻게 비교되는지 알 방법이 없습니다.

구글은 2.0 Flash가 생성하는 모든 오디오와 이미지에 자체 SynthID 기술을 사용하여 워터마크를 삽입한다고 밝혔습니다. SynthID를 지원하는 소프트웨어 및 플랫폼(즉, 일부 선택된 구글 제품)에서 이 모델의 결과물은 합성물로 표시됩니다.

이는 오용에 대한 우려를 불식시키기 위함입니다. 실제로 딥페이크는 증가하는 위협입니다.

ID 확인 서비스 Sumsub에 따르면, 2023년부터 2024년까지 전 세계적으로 감지된 딥페이크가 4배 증가했습니다.

멀티모달 API

2.0 Flash의 상용 버전은 1월에 출시될 예정입니다. 하지만 그 사이에 구글은 개발자들이 실시간 오디오 및 비디오 스트리밍 기능을 갖춘 앱을 구축할 수 있도록 Multimodal Live API를 출시합니다.

구글에 따르면, 개발자들은 Multimodal Live API를 사용해 카메라나 화면을 통해 들어오는 오디오 및 비디오 입력을 처리하는 실시간 다중 모드 앱을 만들 수 있습니다. 이 API는 작업을 완료하기 위해 도구 통합을 지원하며, OpenAI의 Realtime API와 유사하게 중단(interruption)과 같은 "자연스러운 대화 패턴"까지 처리할 수 있습니다.

멀티모달 라이브 API는 오늘 아침부터 일반 사용자에게 제공됩니다.

[출처:] https://techcrunch.com/2024/12/11/gemini-2-0-googles-newest-flagship-ai-can-generate-text-images-and-speech