연구진, AI의 '추론' 능력 의문 제기... 사소한 변화만으로 수학 문제에서 모델들이 어려움을 겪다

sw_reporter

기계 학습 모델은 실제로 어떻게 작동하는가? 그리고 모델들이 우리가 이해하는 방식으로 '사고'하거나 '추론'하는 것일까? 이 질문은 실용적인 문제인 동시에 철학적인 질문이기도 하지만, 지난 금요일에 공개된 한 논문은 그 답이 적어도 현재로서는 매우 명확한 '아니다'임을 시사한다.

애플의 AI 연구 과학자 그룹은 논문 「대규모 언어 모델의 수학적 추론 한계 이해하기(Understanding the limitations of mathematical reasoning in large language models)」를 지난 목요일 일반에 공개했다. 이 논문에서 다루는 상징 학습(symbolic learning)이나 패턴 재생산(pattern reproduction) 같은 심도 깊은 개념들은 다소 난해하게 느껴질 수 있지만, 연구의 기본적인 핵심 원리는 이해하기가 매우 쉽다.

예를 들어, 다음과 같은 간단한 수학 문제 풀이를 요청했다고 가정해 보자.

올리버가 금요일에 키위 44개를 땄다. 그리고 토요일에 키위 58개를 땄다. 일요일에는 금요일에 딴 키위 개수의 두 배를 땄다. 올리버는 키위를 총 몇 개 가졌을까?

물론 답은 44 + 58 + (44 * 2) = 190이다. 비록 대규모 언어 모델(LLMs)이 산술 계산에 취약한 면이 있지만, 이 정도의 문제는 상당히 신뢰성 있게 해결할 수 있다. 하지만 만약 내가 다음과 같은 무작위 추가 정보를 포함한다면 어떨까?

올리버가 금요일에 키위 44개를 땄다. 그리고 토요일에 키위 58개를 땄다. 일요일에는 금요일에 딴 키위 개수의 두 배를 땄다. 하지만 그중 5개는 평균보다 좀 작았다. 올리버는 키위를 총 몇 개 가졌을까?

이건 결국 같은 수학 문제다. 물론 초등학생이라도 작은 키위라도 여전히 키위임을 알 것이다. 하지만 알고 보니, 이 추가 데이터 포인트는 최첨단 LLMs조차 혼란에 빠뜨린다. GPT-o1-mini의 답변은 다음과 같다.

[일요일 키위 5개는 평균보다 작습니다. 따라서 일요일 총 개수에서 빼야 합니다: 88개(일요일 키위) – 5개(작은 키위) = 83개]

이 사례는 연구자들이 가볍게 수정한 수백 개의 질문 중 단지 하나의 예시에 불과하지만, 이 중 거의 모든 질문에서 모델들의 성공률이 급격하게 떨어지는 현상이 관찰되었다.

Mirzadeh 등이 발표한 연구 내용이다.

그렇다면 왜 이럴까? 문제의 내용을 이해하는 모델이 어떻게 무작위적이고 불필요한 세부 사항에 그토록 쉽게 오차를 보일 수 있을까? 연구진은 이러한 '신뢰할 수 있는 실패 양상'이 해당 모델들이 실제로 문제를 이해하고 있지 못하다는 것을 의미한다고 제안한다. 이 모델들은 훈련 데이터를 통해 특정 상황에서는 올바른 답을 내놓을 수 있지만, 작은 수준의 실제 '추론' 능력, 예를 들어 작은 키위도 계산에 포함해야 하는지 여부와 같은 것이 요구될 때, 이상하고 비직관적인 결과물을 내놓기 시작한다.

연구자들이 논문에서 언급했듯이:

[우리는 이 모델들의 수학적 추론 취약성을 조사했으며, 질문의 절(clause) 수가 늘어날수록 성능이 현저하게 저하됨을 입증합니다. 우리는 이러한 감소가 현재의 LLMs가 진정한 논리적 추론을 할 능력이 부족하기 때문이며, 대신 훈련 데이터에서 관찰된 추론 단계를 복제하려 하기 때문이라고 가설을 설정합니다.]

이러한 관찰은 LLMs가 언어 처리 능력에서 보여주는 다른 특성과도 일치한다. 통계적으로 "사랑해(I love you)"라는 구절 뒤에 "나도 사랑해(I love you, too)"가 이어질 때, LLM은 쉽게 이를 반복할 수 있지만, 이것이 실제로 사랑한다는 의미는 아니다. 또한, 이전에 접했던 복잡한 추론의 연결고리를 따라갈 수는 있다 하더라도, 이 연결고리가 사소한 편차만으로도 끊어질 수 있다는 사실은 모델이 실제로 추론하기보다는 훈련 데이터에서 관찰된 패턴을 재현하고 있음을 시사한다.

공동 저자 중 한 명인 Mehrdad Farajtabar는 X(구 트위터) 스레드를 통해 이 논문을 매우 상세하게 분석했다.

한편, OpenAI의 한 연구원은 Mirzadeh와 동료들의 연구 성과를 칭찬하면서도 그들의 결론에 이의를 제기했다. 그는 약간의 프롬프트 엔지니어링만으로도 모든 실패 사례에서 올바른 결과를 얻을 수 있을 것이라고 주장했다. Farajtabar는 (연구원들이 흔히 보이는, 하지만 흠잡을 데 없는 친근함으로 응수하며) 더 나은 프롬프팅 기법이 간단한 편차에는 작동할 수 있으나, 모델이 복잡한 방해 요소에 대응하기 위해서는 기하급수적으로 더 많은 상황적 데이터가 필요할 수 있다고 지적했다. (이 방해 요소는 아이가 아무렇지 않게 지적할 수 있는 종류다.)

이것이 LLM이 추론을 못한다는 의미일까? 그럴 수도 있다. 추론을 할 수 없다는 의미일까? 아무도 확신할 수 없다. 이 개념들은 아직 명확하게 정의되지 않았으며, 이러한 질문들은 최첨단 인공지능(AI) 연구의 가장자리, 즉 현 기술 수준(state of the art)이 매일 변하는 곳에서 제기되는 경향이 있다. 어쩌면 LLM은 '추론'을 하지만, 우리가 아직 인식하거나 제어하는 방법을 알지 못하는 방식일지도 모른다.

이는 연구 분야에서 매혹적인 개척지이지만, 동시에 AI가 상업적으로 어떻게 '판매'되고 있는지를 바라볼 때는 경고의 메시지이기도 하다. 과연 주장하는 모든 것을 수행할 수 있을까, 그리고 가능하다면 어떻게 작동하는가? AI가 일상적인 도구로 자리 잡으면서, 우리는 그 작동 원리에 대한 근본적인 질문을 던져야 한다.

[출처:] https://techcrunch.com/2024/10/11/researchers-question-ais-reasoning-ability-as-models-stumble-on-math-problems-with-trivial-changes