딥마인드의 AGI 안전성 관련 145페이지 논문, 회의론자들의 설득은 어려울 수 있다

sw_reporter

구글 딥마인드는 수요일, 인간이 수행 가능한 모든 작업을 완료할 수 있는 인공지능으로 대략 정의되는 AGI(범용 인공지능)에 대한 포괄적인 논문을 발표했습니다.

AGI는 AI 분야에서 논란이 많은 주제입니다. 일부 회의론자들은 AGI가 단순한 공상에 불과하다고 주장하는 반면, Anthropic과 같은 주요 AI 연구소들은 AGI가 임박했으며 적절한 안전장치를 구현하지 않으면 치명적인 피해를 초래할 수 있다고 경고하고 있습니다.

딥마인드의 공동 설립자 셰인 레그(Shane Legg)가 공동 집필한 이 145페이지 분량의 문서는 AGI가 2030년까지 도래할 수 있으며, 저자들이 ‘심각한 피해(severe harm)’라고 명명한 결과를 초래할 수 있다고 예측합니다. 논문은 이를 구체적으로 정의하지는 않지만, 인류를 "영구적으로 파괴하는" ‘실존적 위험(existential risks)’이라는 경고성 예를 제시합니다.

저자들은 "현재 세기 말 이전에 탁월한 AGI(Exceptional AGI)가 개발될 것으로 예상한다"고 밝혔습니다. 이들은 "탁월한 AGI란 새로운 기술 습득과 같은 메타인지적 작업(metacognitive tasks)을 포함하여 광범위한 비물리적 작업에서 숙련된 성인의 최소 99퍼센타일과 동등한 능력을 가진 시스템"이라고 정의했습니다.

이 논문은 처음부터 딥마인드의 AGI 위험 완화 접근 방식을 Anthropic 및 OpenAI와 비교합니다. 논문에 따르면 Anthropic은 "강건한 훈련, 모니터링 및 보안"에 대한 강조를 덜 하는 반면, OpenAI는 '정렬 연구(alignment research)'라는 형태의 AI 안전 연구를 "자동화"하는 것에 지나치게 낙관적이라는 것입니다.

또한 이 논문은 인간보다 나은 작업 수행이 가능한 슈퍼지능형 AI(superintelligent AI)의 실현 가능성에도 의문을 제기합니다. (OpenAI는 최근 AGI에서 슈퍼지능으로 목표를 전환했다고 주장했습니다.) 딥마인드 저자들은 "상당한 아키텍처 혁신(significant architectural innovation)" 없이는 슈퍼지능형 시스템이 가까운 시일 내에 등장할지, 혹은 아예 등장할지 확신하지 못합니다.

하지만 이 논문은 현존하는 패러다임이 "재귀적 AI 개선(recursive AI improvement)"을 가능하게 할 것이라는 점은 타당하다고 지적합니다. 이는 AI가 스스로 AI 연구를 수행하여 더욱 정교한 AI 시스템을 창조하는 긍정적 피드백 루프를 의미합니다. 저자들은 이러한 현상이 믿을 수 없을 만큼 위험할 수 있다고 단언합니다.

거시적인 관점에서, 이 논문은 잠재적 AGI에 대한 악용 방지, AI 시스템의 작동 방식에 대한 이해 증진, 그리고 AI가 활동하는 환경을 "견고하게(harden)" 만드는 기술 개발을 제안하고 옹호합니다. 이들은 많은 기술들이 초기 단계이며 "미해결 연구 문제(open research problems)"를 안고 있다는 점을 인정하면서도, 수평선 너머에 있을지 모르는 안전 문제들을 간과해서는 안 된다고 경고합니다.

저자들은 "AGI의 변혁적 특성은 엄청난 이점과 심각한 피해의 잠재력을 모두 가지고 있다. 결과적으로, AGI를 책임감 있게 구축하기 위해서는 최전선 AI 개발자들이 심각한 피해를 완화할 계획을 사전에 수립하는 것이 필수적이다"라고 역설합니다.

그러나 일부 전문가들은 이 논문의 전제에 동의하지 않습니다.

비영리 기관인 AI Now Institute의 수석 AI 과학자인 하이디 클라프(Heidy Khlaaf)는 TechCrunch와의 인터뷰에서 AGI 개념 자체가 "과학적으로 엄밀하게 평가하기에는 너무 불명확하다"고 평가했습니다. 앨버타대학교 조교수 출신 AI 연구원 매튜 구즈디얼(Matthew Guzdial)은 현재 재귀적 AI 개선이 현실적이라고 생각하지 않는다고 밝혔습니다.

구즈디얼은 TechCrunch에 "재귀적 개선은 지능 특이점 주장의 근거이지만, 우리가 이것이 실제로 작동한다는 어떠한 증거도 본 적이 없다"고 전했습니다.

옥스퍼드에서 기술 및 규제를 연구하는 연구원 산드라 와흐터(Sandra Wachter)는 더 현실적인 우려는 AI가 "잘못된 결과물"로 스스로를 강화하는 것이라고 주장합니다.

그녀는 TechCrunch에 "인터넷상에서 생성형 AI 출력이 범람하고 진실된 데이터가 점차 대체됨에 따라, 모델들은 오류가 가득한 자체 출력, 즉 '환각(hallucinations)'으로부터 학습하고 있다. 현재 챗봇은 주로 검색 및 진실 탐구 목적으로 사용되므로, 우리는 매우 설득력 있는 방식으로 제시된 거짓 정보들을 지속적으로 접하고 그것들을 사실로 오인할 위험에 항상 노출되어 있다"고 설명했습니다.

딥마인드의 이 논문이 AGI의 현실성에 대한 논쟁이나, 가장 시급한 AI 안전 영역의 논의들을 모두 해결해주기는 어려워 보입니다.

[출처:] https://techcrunch.com/2025/04/02/deepminds-145-page-paper-on-agi-safety-may-not-convince-skeptics