
우리는 모두 읽는 글이 대규모 언어 모델(LLM)이 작성했다는 막연한 의심을 품어왔지만, 정확히 무엇을 지적해야 할지 알기 어려웠습니다. 작년 몇 달 동안 사람들은 "delve"나 "underscore" 같은 특정 단어가 모델을 판별할 수 있는 증거라고 확신했지만, 실제 증거는 미미했고, 모델이 정교해질수록 결정적인 지표를 찾기는 더욱 힘들어졌습니다.
하지만 위키피디아(Wikipedia) 측에서 AI가 작성한 산문을 판별하는 데 상당한 역량을 갖추었음이 밝혀졌습니다. 이 그룹이 공개한 가이드인 "AI 글쓰기의 징후(Signs of AI writing)"는 우리의 의심이 근거가 있는지 확인하는 데 가장 신뢰할 수 있는 자료입니다. (이 문서는 X(구 트위터)에서 시인 제임슨 피츠패트릭(Jameson Fitzpatrick)이 발견하여 공유해주셨습니다.)
2023년부터 위키피디아 편집자들은 AI 제출물을 다루는 프로젝트를 진행해 왔으며, 이를 'Project AI Cleanup'이라고 명명했습니다. 매일 수백만 건의 수정이 접수되면서 참고할 만한 데이터가 풍부했고, 전형적인 위키피디아 편집자답게 그룹은 상세하면서도 근거가 풍부한 필드 가이드를 제작했습니다.
먼저, 이 가이드는 이미 알려진 사실을 재확인해 줍니다. 즉, 자동화된 도구만으로는 충분하지 않다는 것입니다. 대신 이 가이드는 위키피디아에서는 흔치 않지만 광범위한 인터넷 전반에서는 빈번하게 사용되는 습관이나 표현 방식에 초점을 맞춥니다(따라서 모델의 학습 데이터에도 많이 반영되어 있습니다). 가이드에 따르면, AI 제출물은 해당 주제가 왜 중요한지를 일반적인 용어("a pivotal moment"와 같은 '중요한 순간', "a broader movement"와 같은 '광범위한 움직임' 등)로 지나치게 강조하는 경향이 있습니다. 또한 AI 모델은 주제를 주목할 만한 사안으로 보이게 하려고 사소한 미디어 노출 기록을 상세히 서술하는 경향이 있는데, 이는 개인적인 전기에서는 기대될 수 있는 정보이지만 독립적인 출처에서는 흔히 나타나지 않는 유형의 서술 방식입니다.
특히 흥미롭게 지적된 점은 중요성에 대한 모호한 주장으로 이어지는 수식어구(tailing clauses)입니다. 모델들은 어떤 사건이나 세부 사항이 무언가 '중요성을 강조하고 있다(emphasizing the significance)'거나 어떤 일반적인 사상에 '지속적인 관련성(reflecting the continued relevance)'을 보이고 있다고 서술합니다. (문법학적으로는 이를 '현재 분사(present participle)'라고 부릅니다.) 명확하게 짚어내기는 약간 어려울 수 있으나, 일단 이 특징을 인식하면 어디서든 발견할 수 있습니다.
또한, 인터넷상에서 매우 흔한 모호한 마케팅 언어 사용 경향도 있습니다. 풍경은 항상 '빼어난', 전경은 항상 '숨 막힐 듯한', 그리고 모든 것은 항상 '깨끗하고 현대적인' 식입니다. 편집자들이 표현했듯이, "TV 광고의 대본처럼 들리는 경향"이 있습니다.
이 가이드는 전반적으로 읽을 가치가 충분하지만, 저는 특히 깊은 인상을 받았습니다. 이전까지는 LLM의 산문이 너무 빠르게 발전하여 판별하기 어려울 것이라 생각했습니다. 하지만 여기서 지적된 이러한 습관들은 AI 모델이 훈련되고 실제에 적용되는 방식 자체에 깊이 내재되어 있습니다. 완벽하게 감추기는 어렵겠지만, 이 패턴들을 완전히 제거하는 것은 매우 어려울 것입니다. 그리고 만약 일반 대중이 AI 산문을 식별하는 능력을 갖추게 된다면, 이는 다양한 방식으로 중요한 결과를 가져올 수 있습니다.
[출처:] https://techcrunch.com/2025/11/20/the-best-guide-to-spotting-ai-writing-comes-from-wikipedia