
AI 스타트업으로 막대한 자금이 쏟아지면서, 현재는 혁신적인 아이디어를 시험해 볼 AI 연구원이 되기에 좋은 시기입니다. 특히 그 아이디어가 충분히 독창적이라면, 대형 연구소 내부에서 자원을 확보하는 것보다 독립적인 기업 형태로 필요한 자원을 얻기가 더 수월할 수 있습니다.
이러한 흐름 속에서 등장한 사례가 바로 디퓨전 기반 AI 모델을 개발하는 스타트업 [스타트업 이름]입니다. 이 회사는 최근 시드 펀딩으로 5천만 달러를 유치했습니다. 이번 라운드는 Menlo Ventures가 주도했으며, Mayfield, Innovation Endeavors, Microsoft의 M12 펀드, Snowflake Ventures, Databricks Investment, 그리고 Nvidia의 벤처 부문 NVentures가 참여했습니다. Andrew Ng와 Andrej Karpathy 역시 추가 엔젤 펀딩을 제공했습니다.
이 프로젝트의 리더는 스탠퍼드 대학교 교수인 스테파노 에르몬(Stefano Ermon)입니다. 그의 연구는 디퓨전 모델에 초점을 맞추고 있는데, 이 모델은 단어별(word-by-word)이 아닌 반복적인 정제(iterative refinement) 과정을 통해 결과물을 생성합니다. 이러한 모델들은 Stable Diffusion, Midjourney, Sora와 같은 이미지 기반 AI 시스템의 핵심 동력입니다. 에르몬 교수는 AI 붐 이전에 이미 이러한 시스템을 연구해 온 깊은 경험을 바탕으로, Inception을 활용해 동일한 모델을 더욱 광범위한 작업에 적용하고 있습니다.
이번 자금 유치와 함께, 이 회사는 소프트웨어 개발에 특화된 Mercury 모델의 새 버전을 공개했습니다. Mercury는 이미 ProxyAI, Buildglare, Kilo Code를 포함한 다수의 개발 도구에 통합되었습니다. 에르몬 교수는 특히 디퓨전 접근 방식이 Inception 모델이 가장 중요하게 관리해야 할 두 가지 핵심 지표, 즉 지연 시간(latency, 응답 시간)과 컴퓨팅 비용을 절감하는 데 결정적인 역할을 할 것이라고 강조했습니다.
에르몬 교수는 "이 디퓨전 기반 LLM은 현재 경쟁사들이 구축하고 있는 기술보다 훨씬 빠르고 효율적입니다. 이는 여전히 혁신을 적용할 수 있는 완전히 다른 패러다임을 제시합니다"라고 밝혔습니다.
이 기술적 차이를 이해하려면 배경 지식이 필요합니다. 디퓨전 모델은 텍스트 기반 AI 서비스를 지배하는 오토회귀 모델(auto-regression models)과 구조적으로 다릅니다. GPT-5나 Gemini와 같은 오토회귀 모델은 이전에 처리된 내용을 기반으로 다음 단어나 단어 조각을 순차적으로 예측하는 방식을 따릅니다. 반면, 이미지 생성을 위해 훈련된 디퓨전 모델은 좀 더 전체론적인(holistic) 접근 방식을 취합니다. 즉, 원하는 결과와 일치할 때까지 전체 응답 구조를 점진적으로 수정해나갑니다.
일반적인 상식은 텍스트 애플리케이션에 오토회귀 모델을 사용하는 것이며, 이 접근 방식은 최근 AI 모델 세대에서 큰 성공을 거두었습니다. 하지만 증가하는 연구 결과들은 모델이 대량의 텍스트를 처리하거나 데이터 제약 사항을 관리할 때 디퓨전 모델이 더 우수한 성능을 보일 수 있음을 시사합니다. 에르몬 교수에 따르면, 이러한 특성은 대규모 코드베이스 위에서 작업을 수행할 때 실제적인 경쟁 우위가 됩니다.
나아가 디퓨전 모델은 하드웨어 활용 측면에서도 뛰어난 유연성을 보여주며, 이는 AI 인프라 수요가 증가함에 따라 매우 중요한 장점입니다. 오토회귀 모델이 작업을 하나씩 순차적으로 실행해야 하는 반면, 디퓨전 모델은 여러 작업을 병렬로 동시에 처리할 수 있어 복잡한 작업에서 현저히 낮은 지연 시간을 구현합니다.
에르몬 교수는 "저희 모델은 초당 1,000 토큰 이상의 속도로 벤치마킹되었는데, 이는 기존 오토회귀 기술로는 달성할 수 없는 수치입니다. 저희 모델은 본질적으로 병렬 처리를 위해 설계되었기 때문에, 매우 빠를 수 있습니다"라고 설명했습니다.