
AI는 코딩이나 팟캐스트 제작 같은 특정 작업에서는 탁월할 수 있다. 그러나 새로운 논문에 따르면, 고도의 역사 시험을 치르는 영역에서는 여전히 어려움을 겪는 것으로 나타났다.
한 연구팀은 OpenAI의 GPT-4, Meta의 Llama, Google의 Gemini 등 세 가지 주요 대규모 언어 모델(LLM)을 대상으로 역사적 질문 능력을 테스트하기 위한 새로운 벤치마크를 개발했다. 이 벤치마크는 ‘Hist-LLM’이라는 이름으로, 지혜를 상징하는 고대 이집트 여신을 이름으로 삼은 방대한 역사 지식 데이터베이스인 'Seshat Global History Databank'의 기준에 맞춰 답변의 정확성을 측정한다.
오스트리아에 기반을 둔 연구 기관 (CSH) 소속 연구원들에 따르면, 지난달 권위 있는 AI 학회 NeurIPS에서 공개된 결과는 기대에 미치지 못했다. 성능이 가장 뛰어났던 LLM은 GPT-4 Turbo였으나, 정확도는 약 46%에 그쳤을 뿐이며, 이는 거의 무작위 추측 수준이었다.
이 논문의 공동 저자이자 University College London의 컴퓨터 공학 부교수인 마리아 델 리오-차노나(Maria del Rio-Chanona)는 "이번 연구의 주요 시사점은, LLM이 아무리 인상적이라 할지라도, 고급 역사에 필요한 이해의 깊이가 여전히 부족하다는 점이다. 기본적인 사실을 파악하는 데는 뛰어나지만, 더욱 미묘하고 박사 수준의 역사적 탐구에는 아직 한계가 있다"고 말했다.
연구진은 TechCrunch를 통해 LLM이 오답을 낸 역사적 질문의 구체적인 사례들을 공개했다. 예를 들어, GPT-4 Turbo에게 고대 이집트의 특정 시기에 갑옷(scale armor)이 존재했는지 질문하자 '예'라고 답했으나, 해당 기술은 실제로 이집트에서 1,500년 후에야 등장한 것이었다.
이러한 상황은 LLM이 코딩 같은 매우 복잡한 질문에는 뛰어난 답변을 할 수 있음에도 불구하고, 왜 기술적인 역사적 질문에는 어려움을 겪는가라는 의문을 제기한다. 델 리오-차노나는 TechCrunch과의 인터뷰에서, LLM이 매우 두드러진 역사적 데이터에 기반하여 정보를 과도하게 외삽(extrapolate)하는 경향이 있어, 상대적으로 덜 알려진(obscure) 역사적 지식을 검색하는 데 어려움이 있기 때문일 가능성이 높다고 전했다.
예를 들어, 연구진은 GPT-4에게 고대 이집트가 특정 역사 기간 동안 전문 상비군(professional standing army)을 보유했는지 질문했다. 정답은 '아니다'였지만, LLM은 '그렇다'라고 잘못 답변했다. 이는 페르시아와 같이 다른 고대 제국들이 상비군을 보유했다는 공개 정보가 대량으로 존재하기 때문일 가능성이 높다.
연구진은 향후 연구를 통해 모델의 정확성을 높여야 한다고 언급했다. 이처럼 특정 영역에 대한 깊이 있는 지식과 맥락적 이해가 부족하다는 한계가 확인된 것이다. 연구진은 지속적인 개선 노력이 필요하다고 역설했다.
[출처:] https://techcrunch.com/2025/01/19/ai-isnt-very-good-at-history-new-paper-finds