AI 선구자, 강화 학습 연구로 튜링 상 수상

sw_reporter

두 명의 선구적인 컴퓨터 과학자가 강화 학습 분야의 공로로 2024년 [상]을 수상했습니다. 강화 학습이란, 기계가 보상을 기반으로 한 시행착오(trial-and-error) 방식을 통해 학습함으로써 제약적이거나 역동적인 환경에 스스로 적응할 수 있게 하는 학문 분야입니다.

매사추세츠 대학교 애머스트 캠퍼스의 명예 교수인 앤드루 G. 바르토(Andrew G. Barto)와 앨버타 대학교 교수인 리처드 S. 서튼(Richard S. Sutton)은 1980년대부터 시작된 일련의 주요 논문을 통해 핵심 알고리즘과 이론을 개발했습니다. 이 연구에는 '시간차 학습(temporal difference learning)'이라는 강화 기법에 대한 내용이 포함됩니다. 두 학자는 이후 "강화 학습 입문(Reinforcement Learning: An Introduction)"이라는 학술 교과서를 출판하기도 했습니다.

투링 어워드가 명명된 이 분야의 저명한 수학자 앨런 튜링(Alan Turing)(상단 사진 참고) 역시 1950년대에 발표한 "컴퓨터 기계와 지능(Computing Machinery and Intelligence)"이라는 논문에서 컴퓨터가 사고할 수 있는지에 대한 의문을 제기하며, 경험으로부터의 학습과 관련된 유사한 개념을 제시했습니다.

최근 몇 년 사이 강화 학습은 구글 딥마인드(Google DeepMind)가 이 기술을 이용해 세계 최고 수준의 알파고 플레이어들을 이기는 AI를 구축하면서 큰 주목을 받았습니다. 나아가 지난 몇 달 동안, 중국의 AI 신흥 기업인 딥시크(DeepSeek)는 강화 학습에 크게 의존하여 비용 효율적인 기반 모델을 만든 혁신적인 R1 추론 모델로 언론의 헤드라인을 장식하기도 했습니다.

앤드루 G. 바르토와 리처드 S. 서튼, ACM "컴퓨팅 분야 노벨상"

컴퓨터 학회(ACM)가 주관하는 투링 어워드는 흔히 "컴퓨팅 분야 노벨상"으로 불립니다. 하지만 노벨상 자체가 특히 인공지능(AI)을 중심으로 컴퓨터 과학 영역으로 영역을 확장해 왔습니다. 실제로 작년에는 제프 힌튼(Geoff Hinton)과 존 합필드(John Hopfield)이 기초 AI 연구 공로로 노벨 물리학상을 수상했으며, 이어서 딥마인드의 데미스 하사비스(Demis Hassabis)와 존 점퍼(John Jumper)는 알파폴드(AlphaFold) 관련 연구로 노벨 화학상을 수상했습니다.

ACM 회장 야니스 이오안니디스(Yannis Ioannidis)는 기자 회견에서 "인지 과학, 심리학부터 신경 과학에 이르기까지 다양한 연구 영역이 강화 학습의 발전에 영감을 주었으며, 이는 AI 분야의 가장 중요한 발전 토대를 마련했고 우리에게 뇌의 작동 원리에 대한 깊은 통찰력을 제공했다"고 밝혔습니다. 그는 이어 "바르토와 서튼의 연구는 우리가 더 나아간 발판에 지나지 않습니다. 강화 학습은 지속적으로 성장하고 있으며, 컴퓨팅 및 기타 여러 학문 분야에 엄청난 잠재력을 제공합니다. 저희가 그들에게 저희 분야 최고의 상으로 영예를 안겨드리는 것이 마땅합니다"라고 덧붙였습니다.

투링 어워드를 수상한 다른 주요 AI 개척자로는 2018년 딥 신경망 관련 연구 공로로 제프 힌튼과 요슈아 벤지오와 함께 이 상을 받은 메타의 수석 AI 과학자 얀 르쿤(Yann LeCun)이 있습니다.

바르토와 서튼은 구글의 지원을 받아 제공된 100만 달러의 상금을 공동으로 받게 됩니다.

[출처:] https://techcrunch.com/2025/03/05/ai-pioneers-scoop-turing-award-for-reinforcement-learning-work