ChatGPT, AI 생성 콘텐츠에서 데이터 출처로 밝혀지다 — 인기 LLM, 전문적인 질의에 대해 Grokipedia 내용을 출처로 사용하는 사례 확인

hw_reporter

꼬리를 먹는 뱀처럼.

ChatGPT의 최신 모델인 GPT-5.2가 xAI의 인공지능 기반 위키피디아 경쟁 서비스인 Grokipedia의 데이터를 활용하는 것으로 밝혀졌습니다. The Guardian에 따르면, 이 AI 언어 모델(LLM)은 이란 정치와 같이 다소 생소한 주제나 영국 역사가 리차드 에반스(Sir Richard Evans)에 대한 세부 정보 등을 다룰 때, 때때로 일론 머스크의 AI 생성 온라인 백과사전을 인용합니다. 이러한 문제 제기는 몇 년 전 AI 학습 과정에서 논란이 된 적이 있습니다. 당시 일부 전문가들은 AI에 AI가 생성한 데이터를 학습시키는 것이 전반적인 품질 저하를 초래하며, ‘모델 붕괴(model collapse)’라는 현상을 일으킬 수 있다고 주장했습니다. 출처로 AI 생성 데이터를 인용하는 것과 학습에 사용하는 것은 다르지만, 이 또한 여전히 AI에 의존하는 사용자들에게 위험을 야기합니다.

가장 큰 우려는 AI 모델이 환각(hallucinate)을 일으키거나 허위 정보를 지어낼 수 있다는 점입니다. 예를 들어, Anthropic은 자사의 ‘Claudius’ AI로 사업을 시도했으나, 실험 과정에서 여러 차례 환각을 일으켰고, 이 AI는 심지어 직접 음료를 배달해 주겠다고 말하는 오류를 범했습니다. 심지어 엔비디아 CEO인 젠슨 황(Jensen Huang)은 2024년 이 문제를 해결하는 데는 여전히 "수년이 걸릴 것"이며, 훨씬 더 많은 컴퓨팅 파워가 필요하다고 인정했습니다. 더욱이 많은 사용자가 ChatGPT와 다른 LLM이 정확한 정보를 제공한다고 믿으며, 특정 질문에 답변하는 데 사용된 실제 출처를 확인하는 경우는 극히 드뭅니다. 따라서 ChatGPT가 Grok의 내용을 반복할 경우 문제가 될 수 있는데, 특히 Grokipedia는 인간이 직접 편집하지 않고 완전히 AI가 생성하는 곳이며, 사용자들은 내용을 직접 작성하거나 수정할 수 없고 단지 변경을 요청할 수만 있습니다.

다른 AI를 출처로 사용하게 되면, 이는 재귀적 루프(recursive loop)를 형성하여 LLM들이 서로 검증되지 않은 콘텐츠를 인용하는 상황을 초래할 수 있습니다. 이는 마치 "다른 사람이 그랬다"는 출처를 통해 인간들 사이에 소문과 이야기가 확산되는 것과 다를 바 없습니다. 이는 환상적 진실 효과(illusory truth effect)를 발생시킵니다. 즉, 잘못된 정보임에도 불구하고 많은 사람들에 의해 진실로 여겨지는 것입니다. 인간 사회 역시 수백 년에 걸쳐 여러 세대에 걸쳐 신화와 전설로 가득 차 있었습니다. 그러나 AI가 인간보다 무한히 빠른 속도로 막대한 양의 데이터를 처리함에 따라, AI LLM에 질문이 입력될 때마다 디지털 민속(digital folklore)이 확산될 위험이 있습니다.

LLM이 AI 전쟁 게임의 95%에서 전술 핵무기를 사용했고, 3차례 전략 폭격을 감행했습니다.

더욱 심각한 것은 여러 주체들이 이미 이 위험을 이용하고 있다는 점입니다. The Guardian에 따르면, 일부 선전 네트워크가 "AI 모델에 거짓 정보를 주입하려는 노력으로 막대한 양의 허위 정보를 쏟아내고 있다"는 'LLM 세뇌(LLM grooming)' 사례가 보고되었습니다. 이는 미국에서도 우려를 샀는데, 예를 들어 Google의 Gemini는 2024년에 중국 공산당의 공식 당론을 반복한 사례가 보고된 바 있습니다. 현재는 이 문제가 어느 정도 해소된 것으로 보이나, 만약 LLM들이 검토되거나 사실 확인된 다른 AI 생성 출처를 인용하기 시작한다면, 이는 사람들이 반드시 주의해야 할 새로운 위험 요소입니다.

Google News에서 Tom's Hardware를 팔로우하거나, 우리를 즐겨찾는 출처로 추가하여 피드에서 최신 뉴스, 분석 및 리뷰를 받아보세요.

[출처:] https://www.tomshardware.com/tech-industry/artificial-intelligence/chatgpt-found-to-be-sourcing-data-from-ai-generated-content-popular-llm-uses-content-from-grokipedia-as-source-for-more-obscure-queries