구글, 실세계 데이터 접근성 높여 AI에 공급 — 트레이닝 파이프라인가 환호할 전망

sw_reporter

구글이 데이터 커먼즈 모델 컨텍스트 프로토콜(Data Commons Model Context Protocol, MCP) 서버를 공개하며 방대한 공개 데이터 저장소를 AI의 금광으로 전환하고 있습니다. 이를 통해 개발자, 데이터 과학자, AI 에이전트가 자연어를 사용해 실제 통계 데이터에 접근하고 AI 시스템을 더욱 효과적으로 훈련할 수 있게 되었습니다.

2018년에 시작된 구글의 데이터 커먼즈는 정부 조사 자료, 지방 행정 데이터, 유엔(United Nations)과 같은 글로벌 기관의 통계를 포함하여 다양한 출처의 공공 데이터 세트를 체계화하고 있습니다. MCP 서버가 출시되면서, 이러한 데이터는 이제 자연어 인터페이스를 통해 접근 가능해져 개발자들이 이를 AI 에이전트나 애플리케이션에 통합할 수 있게 되었습니다.

AI 시스템은 종종 노이즈가 많고 검증되지 않은 웹 데이터로 훈련되는 경향이 있습니다. 또한, 데이터 출처가 부족할 때 스스로 '빈틈을 메우려는' 과도한 추론(‘fill in the blanks’)을 수행하며 이는 ‘환각(hallucinations)’을 유발하기도 합니다. 그 결과, 특정 사용 사례에 맞게 AI 시스템을 미세 조정하려는 기업들은 대규모의 고품질 데이터 세트에 접근할 필요성을 느낍니다. 구글은 데이터 커먼즈의 MCP 서버를 공개함으로써 이 두 가지 문제를 동시에 해결하고자 합니다.

데이터 커먼즈의 새로운 MCP 서버는 인구 조사 수치부터 기후 통계까지의 공공 데이터 세트를, 정확하고 구조화된 컨텍스트에 의존하는 AI 시스템과 연결하는 다리 역할을 합니다. 이 데이터에 자연어 프롬프트를 통해 접근성을 부여함으로써, 이번 출시는 AI의 근거를 검증 가능한 실제 정보에 두는 것을 목표로 합니다.

구글 데이터 커먼즈 책임자인 프리엠 라마스와미(Prem Ramaswami)는 인터뷰에서 "모델 컨텍스트 프로토콜은 우리가 데이터 모델링 방식이나 API 작동 원리를 이해할 필요 없이, 대규모 언어 모델의 지능을 활용하여 적시에 가장 적합한 데이터를 선택하도록 해줍니다"라고 설명했습니다.

지난 11월 Anthropic이 공개한 구글 데이터 커먼즈 MCP 서버 샘플을 통해 MCP가 산업 표준임을 알 수 있습니다. MCP는 AI 시스템이 비즈니스 도구, 콘텐츠 저장소, 앱 개발 환경을 포함한 다양한 출처의 데이터에 접근하도록 지원하며, 컨텍스트 프롬프트를 이해하기 위한 공통 프레임워크를 제공합니다. 출시 이후 OpenAI를 포함한 여러 기업들이 이 표준을 채택하여 자체 AI 모델을 다양한 데이터 소스와 통합하고 있습니다.

다른 기술 기업들이 이 표준을 자사 AI 모델에 어떻게 적용할지 탐구하는 동안, 라마스와미와 구글 팀은 올해 초 이 프레임워크를 데이터 커먼즈 플랫폼의 접근성을 높이는 방식으로 활용하는 방안을 모색하기 시작했습니다.

구글은 또한 아프리카의 경제적 기회 및 공중 보건 개선에 주력하는 비영리 조직인 ONE 캠페인(ONE Campaign)과 파트너십을 맺고 ONE 데이터 에이전트(ONE Data Agent)를 출시했습니다. 이 AI 도구는 MCP 서버를 활용하여 수천만 건의 금융 및 건강 데이터 포인트를 평이한 언어로 추출해냅니다.

라마스와미에 따르면, ONE 캠페인은 자체 커스텀 서버 환경에서 MCP 프로토타입 구현을 가지고 구글 데이터 커먼즈 팀에 접근했습니다. 이 상호작용이 팀이 지난 5월 전용 MCP 서버를 구축하게 된 결정적인 계기가 되었다고 합니다.

하지만 이 경험은 ONE 캠페인에만 국한되지 않습니다. 데이터 커먼즈 MCP 서버는 개방적인 특성 덕분에 모든 LLM과 호환되며, 구글은 개발자들이 쉽게 시작할 수 있는 여러 방법을 제공하고 있습니다. 샘플 에이전트는 콜랩 노트북(Colab notebook)의 에이전트 개발 키트(ADK)를 통해 사용 가능하며, 서버는 또한 제미나이 CLI(Gemini CLI)나 파이썬 패키지(PyPI package)를 사용하는 모든 MCP 호환 클라이언트에서 직접 접근할 수 있습니다. 예제 코드는 별도의 GitHub 저장소에 제공됩니다.

[출처:] https://techcrunch.com/2025/09/24/google-makes-real-world-data-more-accessible-to-ai-and-training-pipelines-will-love-it