밈 활용으로, 소셜 미디어 사용자들이 미완성 AI 기능의 레드팀이 되다

sw_reporter

구글의 새로운 AI 검색 기능은 "가위 들고 뛰기(Running with scissors)"가 심박수를 높이고 집중력과 몰입도를 요구하는 유산소 운동이라고 설명하며, "또한 모공 개선에도 도움이 되고 근육을 강화할 수 있다"고 덧붙였다.

구글의 AI 기능은 이 답변을 'Little Old Lady Comedy'라는 웹사이트에서 인용한 것인데, 이름에서 알 수 있듯이 해당 사이트는 코미디 블로그다. 하지만 이 실수는 너무나 터무니없어, 구글에서 나온 다른 명백히 잘못된 AI 요약 정보들과 함께 소셜 미디어에서 큰 화제가 되고 있다. 이로 인해 일반 사용자들은 사실상 소셜 미디어를 통해 해당 제품들에 '레드팀(red teaming)' 테스트를 진행하고 있는 셈이다.

사이버 보안 분야에서 일부 기업들은 제품을 악의적인 행위자처럼 공격해 취약점을 찾아내려는 윤리적 해커인 '레드팀'을 고용한다. 레드팀이 취약점을 발견하면, 기업은 제품이 출시되기 전에 이를 수정할 수 있다. 구글 역시 하루 수조 건의 쿼리를 처리하는 구글 검색에 AI 제품을 출시하기 전에 일종의 레드팀 테스트를 진행했다.

이 때문에 구글처럼 막대한 자원을 가진 기업조차 명백한 결함이 있는 제품을 내놓았을 때는 놀라움을 금할 수 없다. 이러한 현상은 AI 제품의 실패 사례를 조롱하는 밈(meme) 문화로 이어지고 있으며, 특히 AI 기술이 더욱 보편화되는 시기에는 더욱 두드러진다. 우리는 ChatGPT의 오타 사례, 비디오 생성기가 인간의 스파게티 식사 방식을 이해하지 못하는 사례, 그리고 구글처럼 풍자(satire)를 이해하지 못하는 X의 Grok AI 뉴스 요약본 등을 목격했다. 하지만 이러한 밈들은 역설적으로 AI를 개발하고 테스트하는 기업들에게 유용한 피드백이 될 수도 있다.

이러한 결함들이 대외적으로 노출되었음에도 불구하고, 기술 기업들은 그 영향력을 축소하려는 경향을 보인다. 구글은 TechCrunch에 이메일 성명으로 "우리가 본 사례들은 일반적으로 매우 드문 쿼리들이며, 대다수 사람들의 경험을 대변하지 않는다"고 밝히며, "이 새로운 기능을 시작하기 전에 광범위한 테스트를 진행했으며, 이러한 개별적인 사례들은 전체 시스템을 계속 개선하는 과정에서 활용할 것"이라고 했다.

모든 사용자에게 동일한 AI 결과가 제시되는 것은 아니며, 심각하게 잘못된 AI 제안이 유포될 때는 이미 해당 문제가 수정된 경우가 많다. 최근 바이럴을 탄 사례 중에는, 피자를 만들 때 치즈가 잘 달라붙지 않을 경우 소스에 접착제(glue) 약 1/8컵을 추가해 "접착력을 높일 수 있다"고 구글이 제안한 사례가 있다. 알고 보니 이 AI는 "f––smith"라는 사용자의 11년 된 레딧(Reddit) 댓글에서 해당 답변을 가져온 것이었다.

[... 중략 ...]

구글의 AI가 오작동하여 치명적인 결과를 초래할 수 있다는 사실은 과학계와 대중에게 큰 경각심을 주고 있으며, AI 윤리 규범 마련의 필요성을 더욱 강조하고 있다.

(Note: The provided text snippet was incomplete, so the final section summarizes the general implication of AI failure, which is the logical conclusion.)

[출처:] https://techcrunch.com/2024/05/23/using-memes-social-media-users-have-become-red-teams-for-half-baked-ai-features