대규모 추론 모델은 복잡한 과제 수행에 어려움을 겪는다.

애플 연구진은 '대형 추론 모델(LRM)'이라 불리는 고급 AI 추론 모델을 통제된 퍼즐 환경에서 테스트했으며, 이들 모델이 적당히 복잡한 과제에서는 '표준' 대규모 언어 모델(LLM)보다 뛰어난 성능을 보였으나, 복잡성이 증가함에 따라 두 유형 모두 완전히 실패한다는 사실을 발견했다.
AI 개발 분야의 선두 주자로 보기 어려운 애플의 연구진은 현재의 LRM과 LLM이 추론 능력을 일반화하거나, 좀 더 정확하게는 인간이 생각하는 방식 자체에 근본적인 한계를 가지고 있다고 보고 있다.
애플 연구진은 Claude 3.7 Sonnet Thinking 및 DeepSeek-R1 LRM과 같은 고급 AI 모델들이 복잡성이 증가하는 문제 해결 과제들을 어떻게 처리하는지 연구했다. 이들은 단순히 표준적인 수학 및 코딩 벤치마크를 넘어, 문제의 복잡도를 정밀하게 조정할 수 있는 하노이의 탑이나 강 건너기와 같은 통제된 퍼즐 환경을 설계했다. 연구의 목표는 단순히 최종적인 답변만을 평가하는 것이 아니라, 이러한 모델들의 내부 추론 과정을 평가하고, 동등한 컴퓨팅 조건 하에서 표준 LLM과 비교하는 것이었다. 퍼즐을 활용함으로써 이들은 AI 추론 능력의 진정한 강점과 근본적인 한계를 밝히고자 했다.
(참고: 애쓰로픽(Anthropic)의 Claude Mythos가 사이버 보안에 가장 적합한 전반적인 AI 모델일 수 있지만, 저렴한 모델들 역시 유사한 결과를 얻을 수 있다는 연구 결과가 있다.)
애플 연구진은 LRM의 성능이 문제의 복잡도에 따라 다르게 나타남을 발견했다. 간단한 과제에서는 명시적인 추론 메커니즘이 없는 표준 LLM이 더 정확하고 효율적이었으며, 더 적은 컴퓨팅 자원으로도 우수한 결과를 제공했다. 그러나 문제의 복잡도가 중간 수준으로 증가하자, Chain-of-Thought(CoT) 프롬프팅과 같은 구조화된 추론 방식을 갖춘 모델들이 우위를 점하며 비추론 모델들을 능가했다. 복잡성이 더욱 높아지자, 두 유형의 모델 모두 완전히 기능을 상실했다. 사용 가능한 컴퓨팅 자원에 관계없이 정확도는 0에 떨어졌다. (다만, Claude 3.7 Sonnet Thinking 및 DeepSeek-R1 LRM은 학습 과정에서 제한점이 있음을 유의해야 한다.)
추론 과정을 깊이 분석한 결과, 비효율성과 예상치 못한 행동들이 드러났다. 초기에는 문제가 어려워짐에 따라 추론 모델들이 더 길게 생각하는 과정(사고 과정)을 사용했지만, 실패 지점 근처에서는 충분한 컴퓨팅 용량이 남아있었음에도 불구하고 놀랍게도 추론 노력을 단축하는 경향을 보였다. 더욱이, 올바른 알고리즘이 명시적으로 제공되었음에도 불구하고, 모델들은 복잡한 과제에서 단계별 지침을 신뢰성 있게 실행하는 데 실패하여 논리적 계산의 약점을 노출했다. 이 연구는 또한 모델의 성능이 익숙한 퍼즐과 덜 일반적인 퍼즐 사이에서 크게 변동한다는 점을 밝혀냈는데, 이는 성공이 진정한 일반화된 추론 능력보다는 훈련 데이터의 친숙도에 좌우되는 경우가 많음을 시사한다.
최신 뉴스, 분석, 리뷰를 받으려면 구글 뉴스에서 Tom's Hardware를 팔로우하세요. '팔로우' 버튼을 클릭했는지 확인하세요.