• 새 프로젝트, 위키피디아 데이터를 AI에 더 접근성 높게 제공

    article image

    Wikimedia Deutschland는 수요일에 위키백과(Wikipedia)의 방대한 지식 자원을 AI 모델들이 더욱 쉽게 접근할 수 있도록 하는 새로운 데이터베이스를 발표했습니다.

    '와키데이터 임베딩 프로젝트(Wikidata Embedding Project)'라고 이름 붙여진 이 시스템은 벡터 기반의 의미론적 검색(semantic search) 기법을 적용합니다. 이는 컴퓨터가 단어 간의 의미와 관계를 이해하도록 돕는 기술로, 약 1억 2천만 개 항목으로 구성된 위키백과 및 그 계열 플랫폼의 기존 데이터에 활용됩니다.

    이 프로젝트는 데이터 소스와 AI 시스템 간의 통신을 돕는 표준인 '모델 컨텍스트 프로토콜(Model Context Protocol, MCP)'에 대한 새로운 지원과 결합되어, 대규모 언어 모델(LLM)이 자연어 질의를 통해 데이터에 접근할 수 있는 범위를 확장합니다.

    본 프로젝트는 위키미디어의 독일 지부가 신경 검색 회사인 Jina.AI와 IBM 소유의 실시간 훈련 데이터 기업 DataStax와 협력하여 추진되었습니다.

    와키데이터는 수년간 위키미디어의 속성에서 기계가 읽을 수 있는 데이터를 제공해왔지만, 기존 도구들은 키워드 검색이나 전문 질의 언어인 SPARQL 쿼리만을 허용했습니다. 하지만 새로운 시스템은 AI 모델이 외부 정보를 끌어와 활용할 수 있는 검색 증강 생성(RAG, Retrieval-Augmented Generation) 시스템과 훨씬 효과적으로 작동하여, 개발자들이 위키백과 편집자가 검증한 지식에 기반하여 모델을 구축할 기회를 제공합니다.

    이 데이터베이스는 또한 중요한 의미론적 맥락을 제공하도록 구조화되어 있습니다. 예를 들어, 데이터베이스에서 "scientist(과학자)"라는 단어를 검색하면, 저명한 핵 과학자 목록과 벨 연구소(Bell Labs)에서 근무했던 과학자 목록이 생성됩니다. 더 나아가, 다양한 언어로 번역된 "scientist"의 용어, 활동하는 과학자의 위키미디어 승인 이미지, 그리고 "researcher(연구원)"나 "scholar(학자)"와 같은 관련 개념으로의 외삽(extrapolation) 자료도 제공됩니다.

    해당 데이터베이스는 Toolforge에서 공개적으로 이용 가능하며, 와키데이터는 오는 10월 9일에 관심 있는 개발자를 대상으로 웨비나를 개최할 예정입니다.

    이번 신규 프로젝트는 AI 개발자들이 모델을 미세 조정(fine-tune)하는 데 사용할 수 있는 고품질 데이터 소스를 절실히 찾는 시점에 나왔습니다. 훈련 시스템은 단순 데이터셋이라기보다는 복잡한 훈련 환경으로 구축되는 등 점점 정교해지고 있지만, 원활하게 작동하려면 여전히 면밀하게 선별된 데이터가 필요합니다. 특히 높은 정확도가 필수적인 배포의 경우, 신뢰할 수 있는 데이터 확보의 필요성이 매우 절실합니다. 일부에서는 위키백과를 과소평가할 수 있지만, 이 데이터는 인터넷 전체에서 무차별적으로 스크래핑된 방대한 컬렉션인 [Wikipedia]와 같은 포괄적 데이터셋에 비해 사실 기반의 검증 수준이 월등합니다.

    고품질 데이터에 대한 요구는 때로는 AI 연구소에 값비싼 대가를 치르게 할 수도 있습니다. 실제로 Anthropic은 지난 8월, 자신들의 저작물이 훈련 자료로 사용된 작가 그룹과의 소송을 종결하기 위해 15억 달러를 지불하는 데 합의한 바 있습니다.

    와키데이터 AI 프로젝트 매니저인 Philippe Saadé는 언론을 대상으로 한 성명에서 자신의 프로젝트가 거대 AI 연구소나 거대 기술 기업으로부터 독립적임을 강조했습니다. 사아데는 기자들에게 "이 임베딩 프로젝트의 출시는 강력한 AI가 소수 기업에 의해 통제될 필요가 없다는 것을 보여줍니다. 이는 개방적이며, 협력적이며, 모든 사람을 위해 구축될 수 있습니다"라고 말했습니다.

    [출처:] https://techcrunch.com/2025/10/01/new-project-makes-wikipedia-data-more-accessible-to-ai