때로는 제품을 이해하는 데 데모만으로도 충분합니다. Runware의 경우도 마찬가지입니다. Runware 웹사이트에 접속하여 프롬프트를 입력하고 엔터를 누르면, Runware가 이미지를 생성하는 속도에 놀라게 될 것입니다. 1초도 채 걸리지 않습니다.
Runware는 AI 추론(AI inference), 즉 생성형 AI 스타트업 분야의 신흥 주자입니다. 이 회사는 자체 서버를 구축하고, 서버의 소프트웨어 계층까지 최적화하여 병목 현상을 제거하고 이미지 생성 모델의 추론 속도를 개선하는 데 집중하고 있습니다. 이 스타트업은 이미 Andreessen Horowitz의 Speedrun, LakeStar의 Halo II, 그리고 Lunar Ventures로부터 총 300만 달러의 투자를 유치했습니다.
Runware의 목표는 기존 방식을 재발명하는 것이 아니라, 현존하는 방식을 더 빠르게 가동하는 것입니다. 그들은 가능한 한 많은 GPU를 하나의 마더보드에 장착한 자체 서버를 직접 제조하고 있습니다. 또한 자체 냉각 시스템을 갖추고 데이터 센터까지 직접 관리합니다.
자체 서버 환경에서 AI 모델을 실행할 때, Runware는 BIOS 및 운영체제 최적화를 통해 오케스트레이션 계층을 최적화하여 콜드 스타트 시간을 개선했습니다. 더 나아가, 자사 개발 알고리즘을 활용하여 여러 워크로드를 효과적으로 할당하고 있습니다.
이 데모만으로도 인상적이지만, 이제 Runware는 이 모든 기술을 연구 및 개발에 활용하고 이를 실제 비즈니스 모델로 전환하고자 합니다.
대부분의 GPU 호스팅 회사와 달리, Runware는 GPU 사용 시간을 기준으로 GPU를 임대하는 방식이 아닙니다. 대신, 기업들이 워크로드를 가속화하는 것이 중요하다고 믿습니다. 이러한 철학에 기반하여 Runware는 전통적인 'API 호출당 비용(cost-per-API-call)' 구조를 가진 이미지 생성 API를 제공하고 있으며, 이 API는 Flux와 Stable Diffusion의 인기 AI 모델을 지원합니다.
공동 창업자이자 CEO인 Flaviu Radulescu는 TechCrunch와의 인터뷰에서 "Together AI, Replicate, Hugging Face 등 모든 업체가 GPU 시간을 기반으로 컴퓨팅 자원을 판매하고 있습니다. 저희가 이미지를 만드는 데 걸리는 시간과 그들과 비교해 보십시오. 그리고 가격을 비교하면, 저희가 훨씬 저렴하고 훨씬 빠다는 것을 알 수 있습니다."라고 말했습니다.
이어 그는 "이 성능을 그들이 따라잡는 것은 사실상 불가능할 것입니다. 특히 클라우드 제공업체의 경우 가상화 환경에서 구동해야 하므로 필연적으로 추가적인 지연 시간이 발생합니다."라고 덧붙였습니다.
Runware는 전체 추론 파이프라인을 검토하고 하드웨어와 소프트웨어를 최적화하는 과정에서, 가까운 미래에 다양한 공급업체의 GPU를 사용할 수 있기를 기대하고 있습니다. 현재 GPU 시장의 독보적인 선두 주자가 Nvidia이기 때문에, 이는 여러 스타트업에게 매우 중요하고도 값비싼 과제입니다.
Radulescu는 "현재는 Nvidia GPU만을 사용합니다. 하지만 이는 소프트웨어 계층의 추상화가 되어야 합니다. 저희는 모델을 GPU 메모리 안팎으로 매우 빠르게 전환할 수 있으며, 이는 다수의 고객에게 동일한 GPU 자원을 할당할 수 있게 해줍니다."라고 설명했습니다.
"따라서 저희는 경쟁업체와 다릅니다. 경쟁업체들은 단순히 모델을 GPU에 로드하고 GPU가 매우 특정한 종류의 작업을 수행하도록 합니다. 반면, 저희는 추론 작업을 수행하는 것처럼 모델을 GPU 메모리에 능동적으로 전환(switch)할 수 있게 하는 소프트웨어 솔루션을 개발했습니다."
만약 AMD를 비롯한 다른 GPU 공급업체들이 일반적인 AI 워크로드에 적용할 수 있는 호환성 계층을 개발할 수 있다면, Runware는 다중 벤더의 GPU를 활용할 수 있는 하이브리드 클라우드를 구축하는 데 매우 유리한 위치를 차지하게 됩니다. 이는 AI 추론 시장에서 경쟁사보다 저렴한 가격을 유지하는 데 결정적인 도움이 될 것입니다.