텐소메쉬, AI 서버 워크로드에서 추론 효율 극대화를 위해 450만 달러 유치

sw_reporter

AI 인프라 구축이 전례 없는 규모로 확대되면서, 기업들은 보유한 GPU 자원에서 가능한 한 많은 추론(Inference) 성능을 뽑아내야 한다는 압박을 받고 있습니다. 이처럼 기술적 난이도가 높은 분야에서는 특정 전문 기술을 가진 연구자들에게 자금을 모금할 수 있는 절호의 기회가 됩니다.

이것이 바로 [회사 이름]의 성장 동력 중 일부로, 이 회사는 이번 주 스텔스 모드(stealth mode)를 벗어나 $450만(4.5 million)의 시드 펀딩을 확보하며 공식 출범했습니다. 이번 투자에는 Laude Ventures가 주도했으며, 데이터베이스 분야의 개척자인 마이클 프랭클린(Michael Franklin)으로부터 추가 엔젤 펀딩이 이뤄졌습니다.

Tensormesh는 이 자금을 활용하여 Tensormesh 공동 창업자인 Yihua Cheng이 개발하고 유지보수한 오픈 소스 [LMCache] 유틸리티의 상용 버전을 구축하는 데 사용할 계획입니다. LMCache는 효과적으로 사용될 경우 추론 비용을 최대 10배까지 절감할 수 있는 능력을 갖추고 있어, 오픈 소스 배포 환경의 필수 요소로 자리매김했으며 [Company A] 및 [Company B]와 같은 주요 기업들의 통합까지 끌어냈습니다. 이제 Tensormesh는 이러한 학문적 성공을 실질적인 상업 서비스로 전환하는 것을 목표로 합니다.

이 제품의 핵심 기술은 키-값 캐시(Key-Value Cache), 즉 KV 캐시입니다. 이는 복잡한 입력을 키 값으로 응축하여 처리 효율성을 높이는 메모리 시스템입니다. 전통적인 아키텍처에서 KV 캐시는 각 쿼리가 끝날 때마다 폐기되었지만, Tensormesh 공동 창업자이자 CEO인 Junchen Jiang은 이러한 캐시 폐기가 막대한 비효율성의 원인이라고 지적합니다.

장(Jiang)은 "이는 마치 모든 데이터를 읽는 매우 영리한 분석가가 질문을 할 때마다 자신이 배운 지식을 잊어버리는 것과 같습니다"라고 설명합니다. Tensormesh 시스템은 이 캐시를 폐기하지 않고 보존하며, 모델이 이후 별도의 쿼리에서 유사한 처리를 할 때 재사용할 수 있도록 합니다. GPU 메모리가 매우 귀한 자원인 만큼, 이는 데이터를 여러 스토리지 계층에 걸쳐 분산 처리할 수 있음을 의미하며, 그 결과 동일한 서버 부하로 훨씬 높은 추론 성능을 달성할 수 있게 합니다.

이러한 변화는 특히 대화형 인터페이스(chat interfaces)에서 강력한 이점을 제공합니다. 모델은 대화가 진행됨에 따라 늘어나는 대화 기록을 지속적으로 참조해야 하기 때문입니다. 마찬가지로, 에이전트 시스템(Agentic systems) 역시 누적되는 액션 및 목표 로그를 처리하는 과정에서 유사한 효율성 문제를 겪습니다.

이론적으로 AI 기업들이 자체적으로 이러한 기술적 변화를 구현할 수는 있습니다. 그러나 그 기술적 복잡성 때문에 쉬운 과제가 아닙니다. Tensormesh 팀은 이 프로세스에 대한 연구와 세부 구현의 난이도를 감안할 때, 즉시 사용 가능한 상용 제품에 대한 시장 수요가 매우 높을 것이라고 확신합니다.

장 CEO는 "KV 캐시를 보조 스토리지 시스템에 유지하고 전체 시스템 속도를 저해하지 않으면서 효율적으로 재사용하는 것은 매우 어려운 문제입니다"라며, "이러한 시스템을 구축하려면 엔지니어 20명을 고용하고 3~4개월의 시간이 소요되는 경우도 봤습니다. 하지만 저희 제품을 사용하면 훨씬 효율적으로 이 문제를 해결할 수 있습니다"라고 강조합니다.

[출처:] https://techcrunch.com/2025/10/23/tensormesh-raises-4-5m-to-squeeze-more-inference-out-of-ai-server-loads