AI를 측정하는 데 IQ가 부적절한 이유

sw_reporter

최근 언론 행사에서 OpenAI의 샘 알트만(Sam Altman) CEO는 지난 몇 년 동안 AI의 '지능지수(IQ)'가 급속히 향상되는 것을 목격했다고 언급했다.

알트만은 "매우 대략적으로, 과학적 근거라기보다는 직관적인 느낌일 뿐이지만, 매년 IQ가 한 표준편차씩 향상되는 것 같습니다"라고 말했다.

알트만은 개인이 가진 지능을 추정하는 지표인 IQ를 AI 발전의 벤치마크로 사용한 최초의 인물은 아니다.

소셜 미디어의 AI 인플루언서들은 모델들에게 IQ 테스트를 실시하고 그 결과를 순위 매기곤 했다.

그러나 많은 전문가들은 IQ가 모델의 능력을 측정하는 데 적절하지 않으며, 오해를 불러일으키는 기준이라고 지적한다.

옥스퍼드에서 기술 및 규제를 연구하는 연구원 산드라 바흐터(Sandra Wachter)는 테크크런치(TechCrunch)에 "인간에게 사용하는 잣대로 능력을 설명하거나 발전 정도를 가늠하려는 유혹은 크지만, 이는 사과와 오렌지를 비교하는 것과 같습니다"라고 말했다.

기자 회견에서 알트만은 IQ를 곧 지능과 동일시했다. 하지만 IQ 테스트는 객관적이라기보다 상대적인 특정한 유형의 지능을 측정하는 지표에 불과하다. IQ가 논리적 사고와 추상적 추론 능력을 측정하는 합리적인 시험이라는 데는 일부 합의가 있다. 그러나 이는 사물의 작동 방식을 아는 실용적 지능을 측정할 수는 없으며, 기껏해야 순간적인 스냅샷에 지나지 않는다.

바흐터는 "IQ는 과학자들이 인간 지능이 어떤 모습일지 믿는 것에 기반하여 인간의 능력을 측정하는 도구—게다가 논쟁의 여지가 있는 도구입니다—"라고 설명했다. "하지만 AI의 능력을 설명하는 데 같은 기준으로 삼을 수는 없습니다. 자동차가 인간보다 빠르고, 잠수함이 잠수하는 데 더 뛰어나다고 해서 그것이 자동차나 잠수함이 인간 지능을 능가한다는 의미는 아닙니다. 당신은 성능의 한 측면을 훨씬 복잡한 인간 지능과 동일시하는 오류를 범하고 있습니다."

역사학자들 중 일부가 출처를 우생학(eugenics)—선택적 번식으로 인간을 개선할 수 있다고 여겼으나 현재는 크게 신뢰를 잃은 과학 이론—까지 거슬러 올라가게 하는 IQ 테스트를 잘 치르기 위해서는 응시자가 강력한 작업 기억력과 서구의 문화적 규범 지식을 갖추고 있어야 한다.

이러한 점 때문에, 한 심리학자는 IQ 테스트를 지능에 대한 "이념적으로 오염되기 쉬운 기계적 모델"이라고 비판한 바 있다.

워싱턴 대학교에서 윤리적 AI를 연구하는 박사 과정 학생 오스 키즈(Os Keyes)에 따르면, 모델이 IQ 테스트에서 좋은 점수를 받았다는 것은 모델의 실제 성능보다는 테스트 자체의 구조적 결함을 시사할 가능성이 더 크다.

키즈는 "[이러한] 테스트들은 사실상 무한대에 가까운 기억력과 인내심만 갖추면 매우 쉽게 조작할 수 있습니다"라며, "IQ 테스트는 인지, 감각, 지능을 측정하는 매우 제한적인 방식이며, 이는 디지털 컴퓨터가 발명되기 전부터 존재해 온 개념입니다."라고 지적했다.

모델들이 막대한 양의 메모리와 내재화된 지식을 활용할 수 있다는 점을 고려할 때, AI가 IQ 테스트에서 불공정한 우위를 가질 가능성도 높다.

대부분의 모델은 공개된 웹 데이터를 통해 훈련되는데, 이 웹 데이터는 IQ 테스트에서 발췌된 예제 질문들로 가득하다.

AI 분야의 연구원인 킹스 칼리지 런던(King’s College London)의 마이크 쿡(Mike Cook)은 "테스트들은 매우 유사한 패턴을 반복하는 경향이 있습니다. IQ를 향상시키는 가장 확실한 방법 중 하나는 IQ 테스트 자체를 반복적으로 연습하는 것인데, 이는 본질적으로 모든 [모델]이 거쳐온 과정입니다"라고 말했다. 그는 이어서 "제가 무언가를 배울 때는 AI처럼 완벽한 명료도로 뇌에 수백만 번 주입되는 것이 아니며, 잡음이나 신호 손실 없이 처리하는 것도 불가능합니다."

이 모든 요인들을 종합할 때, 난이도 높은 난관에 봉착한다.

이 모든 점들을 종합해 볼 때, 다음과 같은 결론에 도달한다.

이 모든 것을 종합할 때, 결론적으로 다음과 같다.

이 모든 것을 종합해 보면, 다음과 같은 결론에 도달한다.

[출처:] https://techcrunch.com/2025/02/05/why-iq-is-a-poor-test-for-ai