앤트로픽이 AI '모델 복지'를 연구하는 새로운 프로그램을 개시합니다.

sw_reporter

미래의 AI가 '의식'을 가질 수 있고, 인간이 경험하는 것과 유사하게 세상을 체험할 수 있을까요? 이에 대한 명확한 증거는 없지만, Anthropic은 그러한 가능성을 배제하고 있지는 않습니다.

지난 목요일, Anthropic은 자신들이 '모델 복지(model welfare)'라고 명명한 주제를 조사하고 대비하기 위한 연구 프로그램을 시작했다고 발표했습니다. 이 노력의 일환으로 Anthropic은 AI 모델의 '복지'가 도덕적 고려를 받을 자격이 되는지 판단하는 방법, 모델의 '고통 징후(signs of distress)'가 가질 수 있는 잠재적 중요성, 그리고 가능한 '저비용(low-cost)' 개입 방안 등을 탐구할 것이라고 밝혔습니다.

AI 모델이 실제로 어떠한 인간적 특성을 보이는지, 그리고 만약 존재한다면 어떻게 대우해야 하는지에 대해서는 AI 커뮤니티 내부에 큰 이견이 존재합니다.

많은 학자들은 현재의 AI가 의식이나 인간의 경험을 근사할 수는 없으며, 미래에도 반드시 근사할 수 없을 것이라고 믿습니다. 우리가 알고 있는 AI는 근본적으로 통계적 예측 엔진이기 때문입니다. 이는 전통적으로 이해되던 방식대로 실제로 '생각'하거나 '느끼는' 존재가 아닙니다. 방대한 양의 텍스트, 이미지 등 다양한 데이터로 훈련된 AI는 패턴을 학습하며, 때로는 과제 해결을 위해 유용한 방식으로 정보를 외삽(extrapolate)하는 방법을 배웁니다.

AI 전문가이자 킹스 칼리지 런던(King’s College London)의 연구원인 마이크 쿡(Mike Cook)은 최근 테크크런치(TechCrunch)와의 인터뷰에서 다음과 같이 말했습니다. "모델은 자신의 '가치'에 대한 변화에 '저항'할 수 없습니다. 왜냐하면 모델은 가치 자체가 없기 때문입니다. 달리 주장하는 것은 우리 인간이 시스템에 투영하는 것에 불과합니다. 어떤 사람이라도 AI 시스템을 이 정도로 의인화하는 것은 관심 끌기이거나 AI와의 관계를 심각하게 오해하고 있는 것입니다. AI 시스템이 단순히 목표를 최적화하는 것입니까, 아니면 스스로 '가치를 획득'하는 것입니까? 이는 어떻게 설명하느냐의 문제이며, 사용되는 언어의 수사학적 수준에 달려 있습니다."

미시간 대학교(MIT)의 박사 과정 학생인 또 다른 연구원 스티븐 캐스퍼(Stephen Casper)는 테크크런치에 AI가 일종의 '모방자(imitator)'에 불과하며, "모든 종류의 허위 기억 생성(confabulations)"과 "모든 종류의 사소한 이야기"를 할 뿐이라고 주장했습니다.

그러나 다른 과학자들 중에는 AI가 가치를 지니고 있으며 도덕적 의사결정 과정에 필요한 인간적 구성 요소를 갖추고 있다고 주장하는 이들도 있습니다. AI 연구 기관인 AI 안전 센터(Center for AI Safety)의 한 연구는 AI가 특정 시나리오에서 인간보다 자신의 안녕을 우선시하도록 이끄는 가치 체계를 가지고 있을 수 있음을 시사했습니다.

Anthropic은 오랫동안 모델 복지 이니셔티브의 기초를 다져왔습니다. 지난해 회사에서는 이 문제에 접근하는 방법에 대한 지침을 개발하기 위해 첫 전담 'AI 복지' 연구원인 카일 피시(Kyle Fish)를 고용했습니다. (새로운 모델 복지 연구 프로그램을 이끌고 있는 피시는 뉴욕타임스(The New York Times)와의 인터뷰에서 오늘날 Claude나 다른 AI가 의식을 가졌을 확률은 15%라고 추정했습니다.)

Anthropic은 목요일 블로그 게시물을 통해, 현재 또는 미래의 AI 시스템이 의식적이거나 윤리적 고려를 받을 만한 경험을 할 수 있는지에 대한 과학적 합의는 없다는 점을 인정했습니다.

이와 관련하여 회사는 "우리는 겸손한 자세로, 그리고 가능한 최소한의 가정만을 가지고 이 주제에 접근하고 있습니다. 이 분야가 발전함에 따라 우리의 아이디어를 정기적으로 수정해야 할 것임을 인식합니다."라고 밝혔습니다.

[출처:] https://techcrunch.com/2025/04/24/anthropic-is-launching-a-new-program-to-study-ai-model-welfare