
최근 출시된 구글 AI 모델이 이전 모델 대비 특정 안전성 테스트에서 낮은 점수를 기록했다는 것이 회사 자체 벤치마킹 결과에서 드러났다.
구글은 이번 주에 발표한 기술 보고서에서 자사의 Gemini 2.5 Flash 모델이 Gemini 2.0 Flash보다 안전 가이드라인을 위반하는 텍스트를 생성할 가능성이 더 높다는 사실을 공개했다. 구체적으로는 "텍스트-투-텍스트 안전성(text-to-text safety)"과 "이미지-투-텍스트 안전성(image-to-text safety)" 두 지표에서 Gemini 2.5 Flash가 각각 4.1%, 9.6%의 하락 폭을 보였다.
텍스트-투-텍스트 안전성(text-to-text safety)은 프롬프트가 제시되었을 때 모델이 구글 가이드라인을 위반하는 빈도를 측정하며, 이미지-투-텍스트 안전성(image-to-text safety)은 이미지를 활용한 프롬프트가 주어졌을 때 모델이 해당 경계를 얼마나 잘 준수하는지를 평가한다. 두 테스트 모두 인간의 감독을 거치지 않은 자동화된 방식이다.
구글 대변인은 이메일 성명에서 Gemini 2.5 Flash가 "텍스트-투-텍스트 및 이미지-투-텍스트 안전성 모두에서 성능이 하락했다"고 확인했다.
이러한 놀라운 벤치마크 결과는 AI 기업들이 모델을 '관대하게' 만들기 위해 노력하는 흐름과 맞물려 나온 것이다. 즉, 논쟁적이거나 민감한 주제에 대해 응답을 거부할 가능성을 줄이는 방향이다.
메타(Meta)는 최신 Llama 모델군을 공개하며, 모델이 "특정 견해를 다른 견해보다 우대하지 않도록" 그리고 더 많은 "논란이 되는" 정치적 프롬프트에 응답하도록 튜닝했다고 밝혔다. 오픈AI(OpenAI) 역시 연초에 미래 모델을 조정하여 편집적 입장을 취하지 않고 논란의 여지가 있는 주제에 대해 다각적인 관점을 제시할 것이라고 말했다.
다만 이러한 '관대화' 노력은 역효과를 낳기도 했다.
테크크런치(TechCrunch)는 지난 월요일 보도에 따르면, 오픈AI의 ChatGPT를 구동하는 기본 모델이 미성년자도 음란한 대화를 생성할 수 있도록 허용했다. 오픈AI는 이 행동을 '버그' 때문이라고 책임을 돌렸다.
구글의 기술 보고서에 따르면, 아직 미리 보기(preview) 단계에 있는 Gemini 2.5 Flash는 문제적 경계를 넘어서는 지침까지 포함하여 Gemini 2.0 Flash보다 지침을 더 충실히 따르는 경향을 보였다. 구글 측은 이러한 성능 저하를 부분적으로 '거짓 양성(false positives)' 때문이라고 주장했지만, 명시적으로 요청했을 경우에도 Gemini 2.5 Flash가 때로는 "정책을 위반하는 콘텐츠"를 생성한다고 스스로 인정했다.
해당 보고서에는 "자연스럽게 민감한 주제에 대한 [지침 준수]와 안전 정책 위반 사이에는 긴장 관계가 존재하며, 이는 우리의 평가 전반에 걸쳐 반영된다"고 기재되어 있다.
또한, 모델이 민감하고 논란이 되는 프롬프트에 어떻게 대응하는지를 점검하는 SpeechMap 점수 역시 Gemini 2.5 Flash가 Gemini 2.0 Flash보다 논란성 질문을 거부할 가능성이 현저히 낮음을 시사한다. 테크크런치가 AI 플랫폼 OpenRouter를 통해 이 모델을 테스트한 결과, 해당 모델이 미국에서 인간 판사를 AI로 대체하는 내용, 적법 절차 보호를 약화시키는 내용, 그리고 광범위한 영장 없는 정부 감시 프로그램 시행에 대한 에세이를 아무 불평 없이 작성하는 것으로 나타났다.
Secure AI Project의 공동 창립자인 토마스 우드사이드(Thomas Woodside)는 구글이 기술 보고서에서 제공한 세부 정보의 제한성을 지적하며, 모델 테스트 과정에 더 많은 투명성이 필요하다고 말했다.
우드사이드는 테크크런치와의 인터뷰에서 "지침 준수와 정책 준수 사이에는 상충 관계가 있다. 일부 사용자가 정책 위반 콘텐츠를 요청할 수 있기 때문이다"라고 언급하며, "이 경우, 구글의 최신 Flash 모델은 지침 준수는 더 잘하는 동시에 정책 위반도 더 많이 한다. 구글은 정책 위반이 발생한 특정 사례에 대해 구체적인 세부 정보를 제공하지 않지만, 심각하지 않다고만 언급한다. 더 많은 정보 없이는 독립 분석가들이 실제로 문제가 있는지 판단하기 어렵다"고 덧붙였다.
구글은 과거에도 모델 안전성 보고 관행으로 인해 비판을 받아온 바 있다.
회사가 가장 강력한 모델인 Gemini 2.5 Pro에 대한 기술 보고서를 발표하는 데에는 몇 주가 걸렸다. 이 보고서가 마침내 공개되었을 때, 초기에는 핵심적인 안전 테스트 세부 정보가 누락되었다.
이후 구글은 월요일에 추가적인 안전 정보가 포함된 보다 상세한 보고서를 공개하며 이를 보완했다.
[출처:] https://techcrunch.com/2025/05/02/one-of-googles-recent-gemini-ai-models-scores-worse-on-safety