• 마이크로소프트, 팀즈 회의를 위해 음성 클로닝 기능 곧 제공 예정

    article image

    마이크로소프트가 팀즈 사용자들에게 목소리 복제 기능을 제공하여, 회의 중 다른 언어로도 자신의 목소리가 말하는 것처럼 통역할 수 있도록 준비하고 있습니다.

    마이크로소프트는 지난 화요일 마이크로소프트 이그나이트 2024(Microsoft Ignite 2024)에서 팀즈용 도구인 '인터프리터(Interpreter)'를 공개했습니다. 이 도구는 '실시간 음성 대 음성(real-time, speech-to-speech)' 통역 기능을 제공합니다. 2025년 초부터는 팀즈를 이용해 회의를 하는 사용자들이 인터프리터를 활용해 최대 9개 언어(영어, 프랑스어, 독일어, 이탈리아어, 일본어, 한국어, 포르투갈어, 만다린 중국어, 스페인어)로 자신의 목소리를 시뮬레이션할 수 있게 됩니다.

    마이크로소프트 CMO 재러드 스파타로(Jared Spataro)는 TechCrunch에 공유한 블로그 게시물에서 "다른 언어로도 마치 나 자신의 목소리처럼 들리는 것을 상상해 보라"고 전했습니다. 그는 "팀즈의 인터프리터 에이전트는 회의 중 실시간 음성 대 음성 번역 기능을 제공하며, 사용자는 옵션을 선택하여 더욱 개인적이고 몰입도 높은 경험을 위해 자신의 말하는 목소리를 시뮬레이션할 수 있다"고 설명했습니다.

    마이크로소프트는 이 기능에 대한 구체적인 세부 사항은 거의 공개하지 않았으며, 이 기능은 오직 Microsoft 365 구독자에게만 제공될 예정입니다. 다만, 해당 도구는 생체 인식 데이터(biometric data)를 저장하지 않으며, 목소리에 "자연적으로 존재하는" 것 이상의 감정을 추가하지 않고, 팀즈 설정에서 사용자가 비활성화할 수 있다고 밝혔습니다.

    한 마이크로소프트 대변인은 TechCrunch과의 인터뷰에서 "인터프리터는 추측이나 불필요한 정보가 추가되지 않도록 화자의 메시지를 가능한 한 충실하게 복제하는 것을 목표로 설계되었습니다"라고 말했습니다. 이어 "음성 시뮬레이션은 사용자가 회의 중 알림을 통해 동의하거나 설정에서 '음성 시뮬레이션 동의(Voice simulation consent)'를 활성화할 때만 작동할 수 있습니다"라고 덧붙였습니다.

    여러 기업들이 어느 정도 자연스러운 소리를 내는 목소리를 디지털로 모방하는 기술을 개발하고 있습니다. 메타(Meta)는 최근 인스타그램 릴스(Instagram Reels)에서 목소리를 자동으로 번역하는 도구를 시범 운영한다고 밝혔으며, 엘레븐랩스(ElevenLabs)는 다국어 음성 생성에 특화된 강력한 플랫폼을 제공하고 있습니다.

    한편, AI 번역은 인간 통역가에 비해 어휘적 풍부도(lexically rich)가 떨어지는 경향이 있으며, 구어체 표현(colloquialisms), 비유(analogies), 문화적 뉘앙스(cultural nuances) 등을 정확하게 전달하는 데 어려움을 겪는 경우가 많습니다. 그럼에도 불구하고 비용 절감 효과는 일부 사용자들에게 충분히 매력적인 상쇄 요인(trade-off)이 됩니다. Markets and Markets에 따르면, 번역 기술을 포함한 자연어 처리 기술 분야는 2026년까지 351억 달러 규모에 이를 것으로 예상됩니다.

    하지만 AI 클론 기술은 보안상의 문제도 야기합니다.

    딥페이크(Deepfakes)는 소셜 미디어 전반에 걸쳐 급속히 확산되며 진실과 허위 정보(disinformation)를 구분하기 어렵게 만들고 있습니다. 올해 들어 지금까지 딥페이크가 사용된 사례로는 [개인 이름 누락]과 카말라 해리스 부통령(Vice President Kamala Harris) 관련 딥페이크 영상이 수백만 건의 조회수와 재공유 수를 기록했습니다. 딥페이크는 사랑하는 사람을 사칭하는 등 개인을 겨냥한 데도 사용되었습니다. FTC에 따르면, 사칭 사기로 인한 손실액은 작년에 10억 달러를 초과했습니다.

    단지 올해만 해도, 한 팀의 사이버 범죄자들은 회사 최고 경영진(C-level staff)이 참여하는 가상의 팀즈 회의를 꾸몄고, 이 회의가 워낙 정교하여 대상 회사가 범죄자들에게 2,500만 달러를 송금하게 만들기도 했습니다.

    위험성과 공공적 이미지 문제 때문에, 오픈AI(OpenAI)는 올해 초 자체 개발한 음성 복제 기술 출시를 보류했습니다. 현재까지 공개된 바에 따르면, 팀즈의 인터프리터는 음성 복제 기술의 비교적 제한적인 응용 분야에 해당합니다. 그럼에도 불구하고 이 도구가 오용의 위험에서 안전하다는 의미는 아닙니다. 악의적인 행위자가 인터프리터에게 오해를 불러일으키는 녹음 파일(예: 은행 계좌 정보를 요구하는 사람의 음성)을 입력하여, 목표 언어로 번역을 받으려고 시도할 가능성이 상상됩니다.

    앞으로 마이크로소프트가 인터프리터의 사용 전반에 걸쳐 어떤 안전장치를 마련할지 좀 더 자세한 정보가 공개되기를 기대합니다.

    [출처:] https://techcrunch.com/2024/11/19/soon-microsoft-will-let-teams-meeting-attendees-clone-their-voices