ElevenLabs, 대화형 AI 에이전트 구축 기능 제공

sw_reporter

AI 음성 복제 및 텍스트-음성 변환(text-to-speech) API를 제공하는 스타트업 엘레븐랩스(ElevenLabs)가 지난 월요일, 대화형 AI 봇 구축 기능을 출시했다고 발표했습니다.

이 회사에 따르면, 사용자들은 이제 엘레븐랩스 개발자 플랫폼을 통해 목소리 톤이나 응답 길이 같은 맞춤 설정 변수를 갖춘 완전한 대화형 에이전트를 구축할 수 있습니다.

그동안 엘레븐랩스는 주로 다양한 음성과 텍스트-음성 변환 서비스용 AI 도구 제공에 집중해 왔습니다. 회사의 성장 담당 책임자인 샘 스클라어(Sam Sklar)는 TechCrunch에 많은 고객들이 이미 이 기능을 활용하여 대화형 AI 에이전트를 만들고 있다고 밝혔습니다. 다만, 가장 큰 도전 과제는 지식 기반(knowledge base)을 통합하고 고객의 돌발적인 질문이나 중단을 처리하는 것이었습니다. 이에 회사는 대화형 봇을 위한 전체 파이프라인을 구축하기로 결정했습니다.

사용자는 엘레븐랩스 계정에 로그인하여 템플릿을 선택하거나 새 프로젝트를 만들어 대화 에이전트를 구축할 수 있습니다. 에이전트의 페르소나를 정의하기 위해 기본 언어, 첫 메시지, 그리고 시스템 프롬프트를 선택해야 합니다. 또한 개발자는 대규모 언어 모델(Gemini, GPT, 또는 Claude), 응답의 창의성을 결정하는 응답 온도(temperature), 그리고 토큰 사용 한도를 설정해야 합니다.

나아가 음성, 레이턴시(latency), 안정성, 인증 기준, 그리고 AI 에이전트와의 최대 대화 길이 등 다양한 측면을 미세 조정할 수 있습니다.

사용자는 대화형 봇의 구동 동력으로 파일, URL, 텍스트 블록 등 자체 지식 기반을 추가할 수 있으며, 자체 커스텀 LLM을 봇에 통합하는 것도 가능합니다. 엘레븐랩스의 SDK는 Python, JavaScript, React, Swift와 호환되며, 더 많은 커스터마이징이 필요한 경우 WebSocket API도 제공합니다.

기업들은 또한 에이전트와 대화하는 고객의 이름이나 이메일 주소 같은 특정 데이터 항목을 수집하기 위한 기준을 설정할 수 있으며, 자연어 기반의 평가 기준을 통해 통화의 성공 또는 실패를 정의할 수 있습니다.

엘레븐랩스는 기존의 텍스트-음성 변환 파이프라인을 활용하고 있지만, 새로운 대화형 AI 제품을 위해서는 음성-텍스트 변환 기능을 개발해야 합니다. 현재 자체 음성-텍스트 변환 API를 단독 제품으로 제공하지는 않지만, 향후 출시할 경우 Google, Microsoft, Amazon의 음성-텍스트 변환 API뿐 아니라 OpenAI의 Whisper, AssemblyAI와 같은 전문 분야 API들과 경쟁할 수 있습니다.

30억 달러가 넘는 기업 가치로 새로운 투자를 유치하려는 엘레븐랩스는 또한 [회사명] 및 [회사명]과 같은 다른 음성 AI 스타트업들과 경쟁하고 있으며, 이들 역시 대화형 에이전트 구축에 몰두하고 있습니다. 특히 주목할 부분은, 엘레븐랩스가 OpenAI의 실시간 대화형 API와 직접 경쟁한다는 점입니다. 하지만 엘레븐랩스는 자사 고유의 커스터마이징 능력과 모델 전환 가능성이 OpenAI 대비 우위를 점하게 할 것이라고 믿고 있습니다.

[출처:] https://techcrunch.com/2024/11/18/elevenlabs-now-offers-ability-to-build-conversational-ai-agents