클라리파이, 새 추론 엔진으로 AI 모델 속도 및 비용 개선

sw_reporter

목요일, 해당 AI 플랫폼은 새로운 추론(reasoning) 엔진을 발표했습니다. 이 엔진은 AI 모델 실행 속도를 두 배로 높이고 비용을 40% 절감할 수 있다고 주장합니다. 다양한 모델과 클라우드 호스트에 맞춰 설계된 이 시스템은 일련의 최적화 기법을 활용하여 동일한 하드웨어에서 더 높은 추론 성능을 끌어낼 수 있도록 합니다.

매튜 자일러(Matthew Zeiler) CEO는 "CUDA 커널부터 고급 추측 디코딩(speculative decoding) 기술에 이르기까지 다양한 최적화 기술이 적용됩니다"라며 "쉽게 말해, 동일한 장비에서 더 많은 성능을 뽑아낼 수 있게 되는 것입니다"라고 말했습니다.

이러한 결과는 제3자 기업 Artificial Analysis가 수행한 벤치마크 테스트를 통해 검증되었으며, 해당 테스트에서 처리량(throughput)과 지연 시간(latency) 모두 업계 최고 기록을 경신했습니다.

이 기술은 이미 훈련된 AI 모델을 구동하는 데 필요한 컴퓨팅 자원인 '추론(inference)' 과정에 초점을 맞춥니다. 특히 단일 명령에 응답하기 위해 여러 단계가 필요한 에이전트형(agentic) 및 추론형 모델의 부상에 따라, 이 컴퓨팅 부하는 더욱 심화되고 있습니다.

원래 컴퓨터 비전 서비스로 시작된 Clarifai는 AI 붐에 힘입어 GPU와 이를 수용하는 데이터 센터에 대한 수요가 급증함에 따라 컴퓨팅 오케스트레이션(compute orchestration)에 집중해 왔습니다. 이 회사는 지난 12월 AWS re:Invent에서 컴퓨팅 플랫폼을 처음 발표했으나, 이번에 공개한 추론 엔진은 다단계 에이전트형 모델을 위해 특별히 맞춤 제작된 최초의 제품입니다.

이 제품은 AI 인프라에 가해지는 엄청난 압박 속에서 등장했으며, 이로 인해 일련의 수십억 달러 규모 거래가 촉발되었습니다. OpenAI는 최대 1조 달러에 달하는 새로운 데이터 센터 지출 계획을 발표하며, 컴퓨팅 자원에 대한 거의 무한한 미래 수요를 예고했습니다. 하지만 하드웨어 구축 경쟁이 치열하게 벌어지는 와중에도, Clarifai의 CEO는 우리가 이미 보유한 인프라를 최적화할 수 있는 여지가 더 많다고 역설했습니다.

자일러는 "Clarifai 추론 엔진과 같은 소프트웨어적인 기법으로 우수한 모델을 더욱 발전시킬 수 있지만, 기가와트급 데이터 센터의 필요성을 줄일 수 있는 알고리즘 개선도 존재합니다. 저는 우리가 알고리즘 혁신이 끝났다고 생각하지 않습니다"라고 강조했습니다.

[출처:] https://techcrunch.com/2025/09/25/clarifais-new-reasoning-engine-makes-ai-models-faster-and-less-expensive