딥엘, DeepL Voice 출시... 음성 및 영상에서 실시간 텍스트 번역 지원

sw_reporter

딥엘(DeepL)은 온라인 텍스트 번역 서비스를 통해 독보적인 명성을 쌓아왔습니다. 딥엘은 자사의 서비스가 구글과 같은 경쟁 서비스보다 더 미묘하고 정확하다고 주장해왔으며, 이러한 홍보 전략은 독일 스타트업을 20억 달러의 기업가치와 10만 명이 넘는 유료 고객 규모로 성장시켰습니다.

AI 서비스에 대한 기대가 계속 높아짐에 따라, 딥엘은 플랫폼에 오디오 기능을 추가합니다. 이제 사용자는 DeepL Voice를 활용하여 특정 언어로 말하는 음성을 듣고 이를 실시간으로 다른 언어로 자동 번역할 수 있게 됩니다.

현재 딥엘이 ‘청취’할 수 있는 언어는 영어, 독일어, 일본어, 한국어, 스웨덴어, 네덜란드어, 프랑스어, 터키어, 폴란드어, 포르투갈어, 러시아어, 스페인어, 이탈리아어입니다. 아울러, DeepL Translator가 현재 지원하는 33개 언어 모두에 대해 번역된 캡션이 제공됩니다.

다만, DeepL Voice는 현재 번역 결과를 오디오 파일이나 비디오 파일 자체로 제공하지는 않습니다. 이 서비스는 실시간 대화 및 화상 회의 상황에 중점을 두고 설계되었기 때문에, 결과는 오디오가 아닌 텍스트 형태로 나타납니다.

이 기능을 사용하는 첫 번째 방식으로는 스마트폰에 번역 내용을 "거울(mirror)" 형태로 설정할 수 있습니다. 이는 회의 테이블 위에 휴대폰을 두고 각 참여자가 번역된 단어를 볼 수 있도록 하는 방식입니다. 또한, 공유가 가능한 전사(transcription) 형태로도 활용 가능하며, 화상 회의 서비스에서는 번역 내용이 자막처럼 표시됩니다.

회사의 설립자이자 CEO인 야렉 쿠티로프스키(Jarek Kutylowski, 상단 사진)는 인터뷰에서 이 기능 구현 방식이 시간에 따라 변경될 수 있음을 시사했습니다. 비록 이것이 딥엘의 첫 음성 관련 제품이지만, 그것이 마지막이 아닐 가능성이 높다고 그는 덧붙였습니다. 그는 "음성(Voice) 기능은 향후 1년 동안 번역 분야에서 중점을 둘 영역"이라고 설명했습니다.

이러한 발언을 뒷받침하는 다른 근거들도 존재합니다. 딥엘의 주요 경쟁업체 중 하나인 구글 역시 Meet 화상 회의 서비스에 실시간 번역 캡션 기능을 통합하기 시작했습니다. 게다가, AI 음성 전문 기업인 엘레븐랩스(ElevenLabs, <ElevenLabs 더빙>)를 포함하여 수많은 AI 스타트업들이 음성 번역 서비스를 구축하고 있습니다. 이 중 일부는 "딥페이크(deepfake)" 목소리와 오디오에 맞는 비디오를 사용하여 번역을 생성합니다.

후자들의 서비스는 엘레븐랩스의 API를 사용하며, 쿠티나 그룹의 발언에 따르면, 이들 서비스는 자체적인 역량으로 구동된다고 합니다.

현재까지의 분석에 따르면, DeepL은 기술적인 측면에서 가장 강력한 경쟁 우위를 가지고 있으며, 그 기반은 자사의 자본과 숙련된 개발팀이라고 합니다.

서비스의 활용 측면에서는, 기업용 구독 모델과 개인 사용자용 프리미엄 플랜을 결합하여 수익을 창출할 것으로 예상됩니다.

현재까지의 추정치에 따르면, 초기 투자금과 마케팅 비용을 감안하여 긍정적인 시장 반응을 이끌어낼 가능성이 높습니다.

[출처:] https://techcrunch.com/2024/11/13/deepl-launches-deepl-voice-real-time-text-based-translations-from-voices-and-videos