ChatGPT, 수학은 왜 어려워할까요?

sw_reporter

ChatGPT를 계산기처럼 사용해 본 경험이 있다면, 거의 확실하게 그 ‘난산증(dyscalculia)’을 경험했을 것입니다. 즉, 챗봇이 수학에 취약하다는 의미입니다. 그리고 이는 AI 분야에서 특이한 현상은 아닙니다.

Anthropic의 모델은 기본적인 단어 문제 풀이에서 오류를 보이고, 이차방정식 이해에 어려움을 겪습니다. Meta의 모델 역시 간단한 덧셈을 처리하는 데 문제가 있습니다.

그렇다면 이 봇들은 어떻게 정교한 독백을 작성하는 것이 가능하면서도, 초등학교 수준의 산수 문제에서는 어려움을 겪는 것일까요?

여기에는 한 가지 근본적인 원인이 있습니다. 데이터를 덩어리(chunk)로 분할하는 과정, 즉 '토큰화(tokenization)'가 AI가 정보를 효율적으로 인코딩하도록 돕습니다. 하지만 토큰화를 수행하는 모델 자체인 토크나이저는 숫자 자체의 의미를 정확하게 이해하지 못하기 때문에, 종종 자리수 간의 관계를 훼손합니다. 예를 들어, 토크나이저는 숫자 "380"을 하나의 토큰으로 처리할 수 있지만, "381"을 "38"과 "1"이라는 두 개의 독립적인 숫자로 분리하여 표현할 수 있습니다.

하지만 토큰화가 AI의 수학적 약점을 유일하게 설명하는 이유는 아닙니다.

AI 시스템은 본질적으로 통계적 기계입니다. 방대한 예시로 훈련되는 과정에서, 예측을 하기 위해 그 예시들의 패턴을 학습합니다(예: 이메일에서 "to whom"이라는 구문 뒤에 "it may concern"이라는 구문이 자주 온다는 패턴). 예를 들어, 곱셈 문제 5,7897 x 1,2832가 주어졌을 때, ChatGPT는 수많은 곱셈 문제를 접했기 때문에 '7'로 끝나는 숫자와 '2'로 끝나는 숫자의 곱은 '4'로 끝날 것이라고 추론할 가능성이 높습니다. 하지만 중간 부분의 연산 과정에서는 어려움을 겪습니다. ChatGPT가 제시한 답은 742,021,104였지만, 정확한 정답은 742,934,304입니다.

올해 초, AI 전문가이자 워털루 대학교 조교수인 윤톈 뎅(Yuntian Deng)은 ChatGPT의 곱셈 능력을 심층적으로 검증하는 연구를 발표했습니다. 그와 공동 저자들은 기본 모델인 GPT-4o가 네 자리 이상의 숫자가 포함된 두 숫자의 곱셈부터 어려움을 겪는다는 사실을 밝혀냈습니다(예: 3,459 x 5,284).

뎅은 TechCrunch에 "GPT-4o는 다자리 수 곱셈에 어려움을 겪으며, 네 자리 수 곱셈을 넘어설 경우 정확도가 30% 미만으로 떨어집니다"라고 언급했습니다. 이어 "다자리 수 곱셈은 언어 모델에게 까다로운 문제입니다. 중간 단계의 어느 과정에서든 실수가 누적되어 최종 결과 전체를 오도하기 때문입니다"라고 덧붙였습니다.

OpenAI의 o1은 좋은 계산기일까요? 저희는 최대 20×20 곱셈을 테스트했습니다. o1은 9×9 곱셈까지는 적절한 정확도를 보였으나, gpt-4o는 4×4를 넘어서면 성능이 급격히 떨어졌습니다. 참고로 이 작업은 명시적 CoT(Chain-of-Thought)와 단계별 내재화(stepwise internalization)를 활용하는 소규모 언어 모델(LM)로도 해결 가능한 수준입니다.

그렇다면 수학 능력은 영원히 ChatGPT가 넘어서지 못하는 영역일까요? 아니면 이 봇이 언젠가 인간(혹은 TI-84와 같은 전용 계산기)만큼 숫자에 능숙해질 이유가 있을까요?

뎅은 긍정적입니다. 연구에서 그는 또한 최근 ChatGPT에 도입된 OpenAI의 "추론(reasoning)" 모델인 o1을 테스트했습니다. 문제를 답변하기 전에 단계별로 "사고"하는 o1은 GPT-4o보다 훨씬 나은 성능을 보였으며, 최대 아홉 자리 수 곱셈 문제의 절반가량을 맞힐 수 있었습니다.

뎅은 "이 모델은 우리가 수동으로 문제를 해결하는 방식과는 다른 접근 방식으로 해답을 찾아내고 있을 수 있습니다"라며, "이것이 모델의 내부적인 처리 방식이 인간의 추론 과정과 어떻게 다른지 흥미로운 질문을 던지게 합니다"라고 말했습니다.

뎅은 이러한 발전 상황을 근거로, 적어도 곱셈 문제와 같은 일부 유형의 수학 문제들은 결국 ChatGPT와 같은 시스템에 의해 "완벽하게 해결될" 것이라고 전망합니다. "이는 알고리즘이 명확하게 정의된, 잘 정립된 과제입니다"라고 그는 설명했습니다. "우리는 이미 GPT-4o에서 o1으로의 눈에 띄는 성능 향상을 목격하고 있으므로, 추론 능력의 강화가 실제로 일어나고 있다는 것이 분명합니다."

하지만 계산기를 곧장 버리기는 어려워 보입니다.

[출처:] https://techcrunch.com/2024/10/02/why-is-chatgpt-so-bad-at-math