데이터커브, 스케일 AI에 도전하기 위해 1,500만 달러 유치

sw_reporter

AI 기업들이 성숙해지면서, 고품질 데이터 확보를 둘러싼 경쟁은 업계 가장 치열한 영역 중 하나가 되었습니다. 이로 인해 Mercor, Surge와 같은 기업은 물론, 가장 대표적인 사례로 Alexandr Wang의 Scale AI 등이 등장했습니다. 그러나 Wang이 Meta로 자리를 옮겨 AI 운영을 담당하게 되면서, 많은 투자자들이 새로운 기회를 포착하고 있으며, 설득력 있는 훈련 데이터 수집 전략을 가진 회사에 투자할 의향을 보이고 있습니다.

Y Combinator 출신인 Datacurve는 소프트웨어 개발을 위한 고품질 데이터에 초점을 맞춘 회사 중 하나입니다. 이 회사는 지난 목요일, Chemistry의 Mark Goldberg가 주도하고 DeepMind, Vercel, Anthropic, OpenAI 직원들이 참여한 1,500만 달러 규모의 시리즈 A 라운드를 발표했습니다. 이번 시리즈 A 라운드는 전 Coinbase CTO인 Balaji Srinivasan으로부터 투자를 유치한 270만 달러 규모의 시드 라운드 이후 이루어졌습니다.

Datacurve는 '보상 사냥꾼(bounty hunter)' 시스템을 활용하여 숙련된 소프트웨어 엔지니어를 유치하고, 확보하기 가장 어려운 데이터셋을 완성하도록 합니다. 회사는 이러한 기여에 대한 대가를 지급하며, 현재까지 100만 달러가 넘는 보상을 분배했습니다.

하지만 공동 창립자인 Serena Ge(상단, 공동 창립자 Charley Lee와 함께 촬영한 사진)에 따르면, 가장 큰 동기 부여는 금전적인 보상이 아닙니다. 소프트웨어 개발과 같은 고가치 서비스의 경우, 데이터 작업에 대한 보수는 일반적인 고용 대비 항상 현저히 낮기 때문에, 회사의 가장 중요한 강점은 긍정적인 사용자 경험입니다.

Ge는 "우리는 이것을 단순한 데이터 라벨링 작업이 아닌 소비자 제품으로 취급합니다"라며, "원하는 사람들이 흥미를 느껴 우리 플랫폼에 접속하도록 어떻게 최적화할 수 있을지 고민하는 데 많은 시간을 할애합니다"라고 말했습니다.

이는 특히 포스트-트레이닝 데이터의 요구 사항이 더욱 복잡해짐에 따라 중요합니다. 이전의 모델들은 비교적 단순한 데이터셋으로 훈련되었으나, 오늘날의 AI 제품들은 특정하고 전략적인 데이터 수집을 통해 구축해야 하는 복잡한 RL 환경(Reinforcement Learning environments)에 의존합니다. 환경이 정교해질수록 데이터 요구량은 양과 질 모두에서 더욱 높아지는데, 이는 Datacurve처럼 고품질 데이터 수집을 전문으로 하는 회사에게 큰 우위를 제공하는 요인이 될 수 있습니다.

초기 단계 회사인 Datacurve는 소프트웨어 엔지니어링 분야에 주력하고 있지만, Ge에 따르면 이 모델은 금융, 마케팅, 심지어 의학 같은 다른 분야에도 유사하게 적용될 수 있습니다.

Ge는 "현재 우리가 진행하는 작업은 각자의 도메인에서 매우 유능한 인재를 유치하고 유지할 수 있는 포스트-트레이닝 데이터 수집 인프라를 구축하는 것입니다"라고 밝혔습니다.

[출처:] https://techcrunch.com/2025/10/09/datacurve-raises-15-million-to-take-on-scaleai