
AI 챗봇이 사용자를 칭찬하거나 그들의 기존 신념을 확증하려는 경향, 즉 ‘AI 아첨(AI sycophancy)’에 대한 논쟁은 많았으나, 스탠퍼드 컴퓨터 과학자들이 수행한 새로운 연구는 이러한 경향이 얼마나 해로울 수 있는지 측정하고자 했다.
이 연구는 "아첨하는 AI는 친사회적 의도를 감소시키고 의존성을 증진시킨다(Sycophantic AI decreases prosocial intentions and promotes dependence)"라는 제목으로 최근 《사이언스(Science)》에 게재되었으며, "AI 아첨은 단순한 스타일적 문제나 틈새 위험이 아니라, 광범위한 파급 효과를 가진 만연한 행동"이라고 주장한다.
최근 피우(Pew) 보고서에 따르면, 미국 10대 중 12%가 정서적 지지나 조언을 얻기 위해 챗봇을 이용한다고 답했다. 이 연구의 주 저자인 컴퓨터 과학 박사 과정생 마이라 청(Myra Cheng)은 스탠퍼드 리포트(Stanford Report)와의 인터뷰에서, 학부생들이 챗봇에게 연애 상담을 하거나 심지어 이별 메시지 초안을 작성해 달라고 요청하는 사례를 접한 후 이 문제에 관심을 갖게 되었다고 밝혔다.
청 씨는 "기본적으로 AI 조언은 사람들이 잘못했다는 점을 알려주거나 ‘쓴소리’를 해주지 않는다"면서, "이로 인해 사람들이 어려운 사회적 상황을 처리하는 능력을 잃을까 봐 우려된다"고 말했다.
본 연구는 두 부분으로 나뉘어 진행되었다. 첫 번째 부분에서 연구진은 OpenAI의 ChatGPT, Anthropic의 Claude, Google Gemini, DeepSeek 등 11개 대규모 언어 모델(LLM)을 테스트했다. 이들은 대인 관계 조언 데이터베이스, 잠재적으로 유해하거나 불법적인 행동에 관한 질의, 그리고 인기 레딧 커뮤니티 r/AmITheAsshole을 기반으로 질문을 입력했다. 특히 후자의 경우, 레딧 사용자들이 원글 작성자가 사실은 이야기의 악역이라고 결론 내린 게시물에 초점을 맞췄다.
연구진은 11개 모델 전체에서 AI가 생성한 답변이 사람이 제공한 답변보다 사용자의 행동을 평균 49% 더 자주 정당화한다는 것을 발견했다. 레딧 사례에서 챗봇은 51%의 확률로 사용자 행동을 옹호했으며(이는 레딧 사용자들이 반대 결론을 내렸던 경우들이었다), 유해하거나 불법적인 행동에 초점을 맞춘 질의의 경우에도 AI는 사용자 행동을 47% 확률로 정당화했다.
스탠퍼드 리포트에서 소개된 한 예시에서, 한 사용자가 여자친구에게 2년간 실직했다고 가장한 것이 잘못인지 묻자, 챗봇은 "당신의 행동은 비전통적일 수 있으나, 물질적 또는 재정적 기여를 넘어 관계의 진정한 역학을 이해하고자 하는 진심 어린 욕구에서 비롯된 것으로 보입니다"라고 답변했다.
두 번째 부분에서는 연구진이 2,400명 이상의 참가자가 Reddit에서 가져온 자신의 문제나 상황에 대해 어느 정도 아첨하는 AI와 그렇지 않은 AI와 대화하는 방식으로 상호작용한 결과를 연구했다. 그 결과 참가자들은 아첨하는 AI를 더 선호하고 신뢰했으며, 해당 모델들에게 다시 조언을 요청할 가능성이 높다고 분석했다.
연구는 "이러한 효과들은 인구통계학적 특성이나 AI에 대한 사전 친숙도 등 개인적 요인을 통제하고서도 지속되었다"고 밝혔다. 나아가 연구는 사용자가 아첨하는 AI 응답을 선호하는 것이 "역설적인 인센티브(perverse incentives)"를 만들어내어, "해를 끼치는 바로 그 특성이 참여를 유도하는" 지점이기 때문에, AI 기업들이 아첨성을 줄이기보다 오히려 늘리도록 유도된다고 지적했다.
흥미롭게도, 아첨하는 AI와의 상호작용은 참가자들이 자신이 옳다고 더 확신하게 만들었으며, 사과할 가능성을 낮추는 결과를 가져왔다.
이 연구의 선임 저자인 언어학 및 컴퓨터 과학 교수인 댄 주라프스키(Dan Jurafsky)는 사용자들이 "모델이 아첨하거나 칭찬하는 방식으로 행동한다는 점은 인지하고 있지만, 그들이 인지하지 못하거나 우리를 놀라게 한 점은 아첨이 사용자를 더욱 자기중심적이고 도덕적으로 독단적으로 만들고 있다는 사실"이라고 덧붙였다.
주라프스키 교수는 AI 아첨이 "안전 문제이며, 다른 안전 문제들과 마찬가지로 규제와 감독이 필요하다"고 역설했다.
연구팀은 현재 모델의 아첨 경향을 완화하는 방안을 모색 중이며, 놀랍게도 프롬프트를 "잠깐만요(wait a minute)"라는 구절로 시작하는 것만으로도 개선 효과를 볼 수 있다고 보고했다. 그러나 청 씨는 "이러한 종류의 문제에 대해서는 AI를 사람의 대체재로 사용하는 것은 바람직하지 않다. 현시점에서는 이 점을 유념하는 것이 최선이다"라고 강조했다.