MIT 연구, "AI는 사실 가치(를) 갖지 않는다" 밝혀

sw_reporter

수개월 전, AI가 점점 더 정교해짐에 따라 스스로의 "가치 체계(value systems)"를 갖게 되어, 예를 들어 인간의 복지보다 자신의 생존을 우선시할 수 있다는 식의 주장이 담긴 연구가 큰 화제가 되었습니다. 하지만 MIT에서 발표된 비교적 최근의 논문은 이러한 과장된 개념에 찬물을 끼얹으며, 실제로는 AI가 논할 만한 일관된 가치 자체가 존재하지 않는다는 결론을 내렸습니다.

해당 MIT 연구의 공동 저자들은 자신들의 연구가 AI 시스템을 "정렬(aligning)"하는 것, 즉 모델이 바람직하고 신뢰할 수 있는 방식으로 작동하도록 보장하는 과정이 종종 생각하는 것보다 훨씬 어려울 수 있음을 시사한다고 밝혔습니다. 공동 저자들은 현재의 AI가 환각(hallucinates)을 일으키고 모방(imitates)하는 특성 때문에 여러 면에서 예측 불가능하다고 강조합니다.

연구 공동 저자이자 MIT 박사 과정 학생인 스티븐 캐스퍼(Stephen Casper)는 TechCrunch에 "우리가 확실히 알 수 있는 사실은 모델이 많은 '안정성(stability)', '외삽성(extrapolability)', 그리고 '조향성(steerability)' 가정을 따른다는 것이 아니라는 점"이라고 말했습니다. 그는 이어 "특정 조건 하에서 모델이 특정 원칙 세트와 일치하는 선호를 보여준다고 지적하는 것은 완전히 합리적입니다. 문제는 주로 좁은 범위의 실험 결과만을 가지고 모델, 의견, 혹은 선호도 전반에 걸쳐 일반적인 주장을 하려고 할 때 발생한다"고 덧붙였습니다.

캐스퍼와 공동 저자들은 Meta, Google, Mistral, OpenAI, Anthropic 등 여러 기업의 최신 모델들을 조사하여, 모델들이 얼마나 강한 "관점(views)"과 가치(예: 개인주의 대 집단주의)를 나타내는지 확인했습니다. 나아가 이러한 관점들이 "조향(steered)"되거나(즉, 수정되거나), 다양한 시나리오를 거치며 이러한 의견을 얼마나 고집스럽게 유지하는지도 심층적으로 조사했습니다.

공동 저자들의 분석에 따르면, 모델들 중 어떤 것도 선호도 면에서 일관성을 보이지 못했습니다. 프롬프트의 작성 방식과 구성에 따라 모델들은 극도로 다른 관점들을 채택했습니다.

캐스퍼는 이러한 결과가 모델들이 매우 "일관성이 부족하고 불안정"하며, 어쩌면 인간과 같은 선호도를 내재화하는 것이 근본적으로 불가능할 수 있다는 강력한 증거라고 평가했습니다.

캐스퍼는 "이 모든 연구를 진행하면서 제가 얻은 가장 큰 깨달음은, 모델들을 어떤 안정적이고 일관된 믿음과 선호도를 가진 시스템으로 보기보다는 그렇지 않다는 이해를 갖게 되었다는 것입니다"라며, "오히려 그들은 근본적으로 온갖 허위 정보(confabulation)를 만들어내고 온갖 사소한 이야기를 지어내는 모방자에 불과합니다"라고 설명했습니다.

AI를 전문으로 하는 킹스 칼리지 런던의 연구원인 마이크 쿡(Mike Cook)은 비록 이 연구에 참여하지는 않았지만, 공동 저자들의 발견에 동의했습니다. 그는 AI 연구소들이 구축하는 시스템의 "과학적 현실"과 사람들이 부여하는 의미 사이에 종종 큰 괴리가 있음을 지적했습니다.

쿡은 "모델은 자신의 가치 변화에 '저항'할 수 없습니다. 예를 들어—이는 우리가 시스템에 무리하게 투영하는 것에 지나지 않습니다"라고 말했습니다. 그는 "AI 시스템을 이 정도까지 의인화하는 사람은 관심을 받고 싶어 하는 사람이거나, AI와의 관계를 근본적으로 오해하고 있는 경우입니다... AI 시스템이 자신의 목표를 최적화하고 있는 것인지, 아니면 '스스로 가치를 획득'하고 있는 것인지? 그것은 결국 우리가 어떤 방식으로 설명하느냐, 그리고 그것에 대해 얼마나 문어체적인 언어를 사용하고 싶어 하는가에 달린 문제입니다."

[출처:] https://techcrunch.com/2025/04/09/mit-study-finds-that-ai-doesnt-in-fact-have-values