AI 탐지 스타트업 GPTZero는 지난달 샌디에이고에서 개최된 권위 있는 Conference on Neural Information Processing Systems(NeurIPS)에 제출된 4,841편의 논문을 스캔했습니다. GPTZero는 TechCrunch에 따르면, 이 과정에서 51편의 논문에서 위조 인용문 100건을 발견하고 이를 사실로 확인했다고 밝힌 바 있습니다.
NeurIPS에 논문이 게재되는 것은 AI 연구 분야에서 매우 높은 경력적 성취로 여겨집니다. 따라서 이 논문들이 세계 최고의 AI 연구 인재들의 결과물이라는 점을 감안할 때, 연구자들이 인용문 작성이라는 다소 지루한 작업에 거대 언어 모델(LLM)을 사용했을 것이라고 추측할 수 있습니다.
다만, 이러한 발견에는 여러 가지 주의할 점이 있습니다. 51편의 논문에서 확인된 위조 인용문 100건은 통계적 유의성을 가지기 어렵습니다. 각 논문이 수십 개의 인용문을 포함하고 있다는 점을 고려하면, 수만 건에 달하는 인용문 전체에 비하면 통계적으로는 미미한 수치입니다.
또한 부정확한 인용문이 논문 자체의 연구 내용을 무효화하지는 않는다는 점에 유의해야 합니다. GPTZero의 연구 결과를 가장 먼저 보도한 NeurIPS는 "비록 논문의 1.1%에 해당하는 부분에 LLM 사용으로 인해 하나 이상의 부정확한 참고 문헌이 존재하더라도, 논문 내용 자체가 반드시 무효화되는 것은 아니다"라고 밝혔습니다.
하지만 이러한 점에도 불구하고, 위조된 인용문이 아무것도 아닌 것은 아닙니다. NeurIPS는 "기계 학습 및 인공지능 분야에서의 엄격한 학술 출판"으로 자부심을 느끼며, 모든 논문은 환각(hallucination) 여부를 식별하도록 지시받은 여러 심사위원들의 동료 심사를 거칩니다.
인용문은 연구자들에게 일종의 학문적 화폐와 같습니다. 이는 연구자의 작업이 동료 집단 내에서 얼마나 큰 영향력을 발휘하는지를 보여주는 핵심 지표로 활용됩니다. 따라서 AI가 이러한 인용문을 임의로 만들어내면 그 가치가 희석될 수밖에 없습니다.
압도적인 양의 인용문을 다룰 때, 동료 심사위원들이 소수의 AI가 생성한 위조 인용문을 모두 걸러내는 것을 탓하기는 어렵습니다. GPTZero 역시 이 점을 지적합니다. 해당 스타트업은 자체 보고서를 통해 이 실험의 목적이 "컨퍼런스들의 심사 파이프라인을 한계점까지 압박해 온 '제출 물량의 쓰나미' 속에서 AI 쓰레기가 어떻게 침투하는지"에 대한 구체적인 데이터를 제공하는 것임을 밝혔습니다. GPTZero는 심지어 NeurIPS를 비롯한 주요 학회에서 이 문제를 다룬 "The AI Conference Peer Review Crisis"라는 2025년 5월자 논문까지 제시하고 있습니다.
그렇다면 연구자들 스스로가 LLM이 생성한 내용의 정확성을 검증할 수 없었을까요? 그들은 자신이 논문에 사용한 원본 논문 목록을 분명히 알고 있어야 할 것입니다.
결국 이 모든 사안이 던지는 가장 크고 역설적인 시사점은 이렇습니다. 세계 최고의 AI 전문가들조차 명예와 명성을 걸고 연구를 수행하면서, LLM 사용의 세부 사항까지 정확하게 보장할 수 없다면, 이는 우리 모두에게 어떤 의미일까요?