Linkup, LLM과 프리미엄 콘텐츠 소스를 (합법적으로) 연결하다

sw_reporter

ChatGPT Search를 사용해 본 경험이 있다면, 웹 검색 기능과 인용 출처를 본문 내에 즉시 확인할 수 있다는 점이 AI 챗봇의 성능을 비약적으로 향상시킨다는 것을 알고 있을 것입니다. 최신 정보를 활용한 검색 기반 결과는 품질이 높으며, 웹 검색을 통해 소위 ‘환각 현상(hallucinations)’—즉, 생성형 AI가 부정확하거나 꾸며낸 정보를 출력하는 경우—을 줄이는 데 도움을 받을 수 있습니다.

이러한 이유로 프랑스 스타트업 [회사 이름]은 개발자들이 프리미엄의 신뢰할 수 있는 출처 웹 콘텐츠에 접근할 수 있게 하고, 그 결과를 대규모 언어 모델(LLM)에 전달하여 답변을 풍부하게 만들 수 있는 API를 구축하고 있습니다. 다수의 AI 개발자들은 이러한 작업 흐름을 검색 증강 생성(Retrieval-Augmented Generation), 줄여서 RAG라고 부릅니다.

더 중요한 측면은, 웹 스크래핑 봇의 미래가 불투명하다는 점입니다. 콘텐츠 발행사(content publishers)와 웹 페이지를 스크래핑하는 주체들 사이에 사전에 재정적 합의가 없다면, 이 봇들은 비용을 지불하지 않고 공개 웹에서 콘텐츠를 가져오고 있습니다. 이에 대해 많은 이들이 불만을 표하고 있으며, 이는 AI 학습 데이터를 둘러싼 규제 감시를 높이고 있습니다.

또한, OpenAI(ChatGPT 개발사)와 The New York Times 간의 현재 진행 중인 소송과 같은 주요 법적 사례들이 관련되면서, 웹 스크래핑을 둘러싼 상황은 가까운 미래에 변동될 수 있습니다. 이 때문에 OpenAI는 AP, Axel Springer, Condé Nast, El País, Financial Times, Le Monde 등 주요 발행사들과 다년 콘텐츠 라이선싱 계약을 체결하고 있습니다.

Linkup의 공동 설립자이자 CEO인 Philippe Mizrahi는 TechCrunch와의 인터뷰에서, "저희 회사는 OpenAI가 뉴스 소스들과 거래를 시작하던 시점에 설립되었습니다. 목적은 OpenAI 모델과 제품의 답변을 보강하기 위한 학습 또는 추론 목적이었습니다. 저희는 '좋다, 마침내 콘텐츠 출처에 비용을 지불하는 AI 회사가 생겼구나'라고 생각했습니다."라고 말했습니다.

한편, 기업의 솔루션을 개발할 때는 참고할 만한 사연이 있습니다.

ChatGPT는 사용자가 요구하는 정보를 바탕으로 가장 적절한 콘텐츠를 창조해냅니다. 예를 들어, "가을의 감성적인 시"를 요청하면, AI는 가을의 색감, 청취했던 노래의 감성, 낙엽의 이미지를 조합하여 시를 완성합니다.

그러나 최근 몇 년간, 인공지능은 단순히 콘텐츠를 생성하는 것을 넘어, 사용자의 의도를 예측하고 필요한 맥락까지 제공하는 방향으로 진화하고 있습니다.

예를 들어, AI가 단순히 '가을의 시'를 보여주는 데 그치지 않고, "이 시와 어울리는 재즈풍 음악 링크"나 "가을에 읽기 좋은 시집 추천 목록"까지 제시하는 것이 가능해진 것입니다. 이는 사용자 경험의 범위를 확장하여, AI가 단순히 도구가 아니라 '개인화된 영감의 파트너'로 기능하게 되었기 때문입니다.

AI 기술이 발전할수록, 데이터의 양적인 축적만으로는 한계에 부딪힙니다. 이제는 '어떤 데이터'를 '어떻게 연결'하고, 이를 통해 사용자에게 '가장 필요한 다음 단계'를 제시하는 능력이 중요해지고 있습니다.

(이하 원본 내용의 문맥상 결론 유도 부분으로 연결됨)

[출처:] https://techcrunch.com/2024/11/28/linkup-connects-llms-with-premium-content-sources-legally