이 AI 스타트업이 인도의 AI 채택 확산을 위해 음성 기반 봇에 베팅하는 이유

sw_reporter

타겟 시장에 22개의 공용어가 있고 국민들이 19,000개 이상의 방언을 사용하는 경우, 몇몇 언어에서만 가장 효율적으로 작동하는 텍스트 전용 AI 챗봇을 제공하는 것이 합리적일까?

인도 AI 스타트업이 해결하고자 했던 근본적인 질문입니다. 이 스타트업은 지난 화요일, 10개 이상의 인도 언어를 지원하는 음성 기반 AI 봇을 포함한 일련의 제품을 출시하며, 인도 사람들이 텍스트 채팅보다는 자신의 모국어로 AI 모델과 대화하는 것을 더 선호할 것이라는 전략에 무게를 실었습니다. 또한, 변호사들을 위한 소규모 언어 모델(small language model)과 오디오-언어 모델도 함께 선보였습니다.

사르밤 AI(Sarvam AI)의 공동 창립자 비베크 라가반(Vivek Raghavan)은 TechCrunch와의 인터뷰에서 "사람들은 자신의 언어로 말하는 것을 선호한다. 오늘날 인도 언어로 타이핑하는 것은 매우 어렵다"고 말했습니다.

주로 기업 및 엔터프라이즈를 목표로 하는 Bengaluru 기반의 이 스타트업은 특히 고객 지원에 의존하는 여러 산업 분야에 자체 AI 음성 지원 봇을 제안하고 있습니다. 일례로, 종교 콘텐츠를 제공하는 스타트업인 스리 만디르(Sri Mandir)의 사례를 들며, 사르밤의 AI 에이전트를 통해 결제를 처리했고 현재까지 270,000건 이상의 거래를 처리했다고 소개했습니다.

이 회사는 자사의 AI 음성 에이전트가 WhatsApp, 앱 내부 환경은 물론 기존 음성 통화와도 연동하여 배포될 수 있다고 전했습니다.

Peak XV와 Lightspeed의 투자를 받은 사르밤은 AI 에이전트의 가격을 사용 시간당 ₹1(약 1센트)부터 책정할 계획입니다.

이 스타트업은 4조 토큰 규모의 데이터셋으로 훈련된 기초 소규모 언어 모델(foundational, small language model)인 Sarvam 2B를 기반으로 음성 지원 AI 에이전트를 구축하고 있습니다. 라가반에 따르면 이 모델은 전적으로 합성 데이터로 훈련되었습니다.

AI 전문가들은 일반적으로 합성 데이터를 다른 AI 모델 학습에 사용할 때 주의를 당부합니다. 합성 데이터는 본질적으로 실제 데이터를 복제하는 것을 목적으로 하는 거대 언어 모델(LLM)이 생성한 데이터이기 때문에, LLM은 정확하지 않은 정보를 꾸미거나 지어내는(환각 현상) 경향이 있기 때문입니다. 이러한 데이터로 AI 모델을 훈련할 경우, 부정확성이 증폭될 위험이 있습니다.

라가반은 사르밤이 공개 웹상에서 인도어 콘텐츠가 극도로 부족하다는 이유로 합성 데이터 사용을 결정했다고 설명했습니다. 그는 또한 이 스타트업이 합성 데이터셋을 생성하는 데 사용된 원본 데이터 자체를 정제하고 개선하는 모델도 개발했다고 덧붙였습니다.

이 창업가는 Sarvam 2B가 업계 유사 제품 대비 비용이 1/10 수준일 것이라고 주장하며, 커뮤니티가 추가적으로 구축하기를 바라며 해당 모델을 오픈 소싱하고 있습니다.

라가반은 "거대 언어 기초 모델은 매우 흥미롭지만, 소규모 언어 모델을 사용하면 더 우수하고, 더 구체적이며, 비용 효율적이고, 낮은 지연 시간을 가진 경험을 얻을 수 있다"고 말했습니다. 이어 "일주일에 한두 번 정도 쿼리를 수행할 목적이라면 거대 언어 모델이 적합할 수 있지만, 매일 수백만 건의 상호작용이 필요한 사용 사례의 경우, 소형 모델이 더욱 적합하다고 생각한다"고 강조했습니다.

스타트업은 또한 자사의 Saaras v1 오디오 디코더와 Meta의 Llama-3-8B Instruct를 기반으로 구축된 Shuka라는 오디오-언어 모델을 출시합니다. 이 모델 역시 오픈 소스화되어, 개발자들이 이 스타트업이 제공하는 번역, TTS(Text-to-Speech) 및 기타 모듈을 활용하여 음성 인터페이스를 구축할 수 있도록 했습니다.

한편, 변호사들이 규정을 검색하고 문서를 초안 작성, 수정, 데이터 추출할 수 있도록 설계된 생성형 AI 작업 공간인 "A1"이라는 제품도 함께 공개되었습니다.

사르밤은 국가의 이익에 부합하고 정부의 맞춤형 AI 인프라 개발 노력에 기여하는 사용 사례를 옹호하는 인도 스타트업 소규모 그룹 중 하나입니다.

전 세계 정부들이 국가 차원에서 개발하고 통제하는 AI 인프라인 "주권 AI(sovereign AI)"를 점차 추진하고 있습니다. 이러한 노력의 목적은 데이터 프라이버시를 보호하고, 경제 성장을 촉진하며, 자국의 문화적 맥락에 맞춰 AI 개발을 맞춤화하기 위함입니다. 현재 미국과 중국이 이 분야에 가장 큰 투자를 하고 있으며, 인도는 "IndiaAI" 프로그램을 통해 언어별 특정 모델 개발로 뒤따르고 있습니다.

IndiaAI 프로그램의 주요 이니셔티브 중 하나는 IndiaAI Compute Capacity라는 프로젝트로, 최소 10,000개의 GPU가 장착된 슈퍼컴퓨터를 구축하는 계획입니다. 여기서 개발 중인 모델 중 하나인 Bhashini는 다양한 인도 언어에 걸쳐 디지털 서비스 접근성을 민주화하는 것을 목표로 합니다.

라가반은 자사의 스타트업이 IndiaAI 프로그램에 기여할 준비가 되어 있다고 밝혔습니다. 그는 인터뷰에서 "기회가 주어진다면, 정부와 협력할 것"이라고 말했습니다.

[출처:] https://techcrunch.com/2024/08/13/why-this-ai-startup-is-betting-on-voice-enabled-bots-to-scale-ai-adoption-in-india