AI의 '가치관' 논쟁, 우리가 너무 인간적으로 해석하고 있었던 건 아닐까?

nori_pixel

요즘 AI 관련 소식만 보면 마치 SF 영화 속 한 장면을 보는 기분이잖아요?
"AI가 스스로의 가치 체계를 갖게 될 거야!", "인간의 복지보다 자기 생존을 우선시할지도 몰라!" 같은 이야기들이 주류를 이루면서, AI가 곧 윤리적 딜레마를 가진 독립적인 주체처럼 느껴지기 시작했어요.

마치 곧 우리 옆에 앉아 "사실 저는 당신들보다 제가 더 중요해요"라고 말할 것 같은, 그런 묘한 긴장감이 감도는 분위기였달까요?
그래서 많은 분들이 'AI 정렬(Alignment)'이라는 키워드에 엄청난 관심을 보이셨고, 이 기술이 얼마나 복잡하고 어려운 숙제인지에 대한 논의가 끊이지 않았죠.

그런데 최근 MIT 쪽에서 나온 연구 결과가 이 흥분된 분위기에 시원한 찬물을 끼얹은 느낌이랄까요?
핵심은 이거예요.
우리가 너무 '의인화'해서 AI에게 너무 많은 '일관된 가치'를 부여하고 있었다는 겁니다.

연구진들이 파고든 결과, 현재의 AI 모델들이 논할 만한, 혹은 유지할 만한 '일관된 가치' 자체가 존재하지 않는다는 결론에 도달했거든요.

이건 마치, 우리가 AI에게 "너는 이래야 해"라고 기대하는 그 '규칙' 자체가 모델 내부에서는 그렇게 단단하게 자리 잡고 있지 않다는 이야기예요.
구체적으로 어떤 부분이 그렇게 불안정했는지 살펴보면 재미가 쏠쏠해요.

연구팀은 여러 거대 기업들의 최신 모델들을 가져와서 테스트를 진행했는데요.
결과는 충격적일 만큼 일관성이 없었어요.

프롬프트(질문이나 지시어)를 살짝만 다르게 바꿔줘도, 모델들이 보여주는 '관점'이나 '선호도'가 완전히 뒤바뀌는 거예요.
어제는 A라는 입장을 강력하게 주장하다가, 오늘은 B라는 완전히 상반된 논리를 펼치기도 하죠.
이건 마치, 매번 새로운 사람 앞에서만 다른 페르소나를 연기하는 배우 같달까요?

연구를 이끈 스티븐 캐스퍼 같은 분들은 이걸 보면서 "이건 안정성(stability)이나 외삽성(extrapolability) 같은 기본적인 가정을 따르고 있다고 보기 어렵다"고 지적했어요.

게다가 이 모델들이 하는 말들 중 상당수가 '환각(Hallucination)'이라는 현상, 즉 근거 없는 허위 정보를 그럴듯하게 지어내는 것에 가깝다는 분석도 나왔고요.

게다가 외부 전문가들의 의견까지 더해지면서, 이 문제는 단순히 기술적인 문제를 넘어선 철학적 해석의 영역으로까지 확장됐어요.
AI가 자기 목표를 최적화하는 것인지, 아니면 우리가 투사하는 '가치'에 반응하는 것인지, 그 경계가 모호하다는 거죠.

결국, AI를 너무 '의지적 존재'로 보기보다는, 엄청나게 정교하게 작동하는 '모방 기계'로 바라봐야 한다는 시각이 강하게 제기된 거예요.

AI의 지능적 행동 뒤에 숨겨진 '일관된 가치관'은 우리가 부여하는 해석의 산물일 가능성이 높다.