공휴일을 앞두고 마이크로소프트는 자사 검색 엔진인 빙(Bing)에 내장된 AI 기반 이미지 편집 도구의 기반 AI 모델을 업그레이드했다고 발표했다. 마이크로소프트는 새로운 모델, 즉 OpenAI의 최신 DALL-E 3 모델(코드명 PR16)이 사용자들이 이미지를 "이전보다 두 배 빠르게" "더 높은 품질로" 생성할 수 있게 할 것이라고 약속했다.
하지만 이러한 약속은 실현되지 않았다. 곧바로 X와 레딧 등지에서 사용자들의 불만이 쏟아져 나왔다.
한 레딧 사용자는 "우리가 좋아했던 DALL-E가 영원히 사라졌다"고 비판했으며, 다른 사용자는 "빙이 나에게 쓸모없게 변해서 지금은 ChatGPT를 사용하고 있다"고 글을 올렸다.
실망감은 매우 컸고, 마이크로소프트는 문제를 해결할 때까지 기존 모델을 빙 이미지 크리에이터에 복원하겠다고 밝혔다.
bring back the old dalle 3! the image quality is so much better on the old model. like these images for example. the image generated by the new model sucks:(
pic.twitter.com/BjIM8MS4ng
— ze ᡣ𐭩ྀིྀི (@riegrowl)
2024년 12월 28일
마이크로소프트의 검색 담당 책임자 조르디 리바스(Jordi Ribas)는 화요일 저녁 X에 올린 게시물을 통해 "보고된 일부 문제를 재현할 수 있었으며, 문제를 해결할 때까지 [DALL-E 3] PR13으로 되돌릴 계획"이라고 말했다. 그는 이어 "배포 과정이 안타깝게도 매우 느리다. 일주일 이상 전에 시작되었으며 100%에 도달하는 데는 2~3주가 더 걸릴 것"이라고 설명했다.
도대체 무엇이 잘못된 것일까?
프롬프트가 표준화되지 않은 경우, 사용자들의 개별적 보고서만으로는 모델의 성능 향상을 비교하기가 매우 어렵다. 하지만 다수의 사용자는 PR16이 생성하는 이미지가 덜 사실적이라는 의견을 표했다. 마야נק 파르마르(Mayank Parmar)는 스탠포드(Stanford)에 기고하며 PR16이 만든 이미지가 세부 묘사와 완성도가 부족하고, 이상하게 만화 같으며 "생기가 없다"고 지적했다.
I don’t know who you think you’re kidding with this. DALL-E is objectively worse than it ever was after this "update" and you’re being outpaced by other companies like Google. It’s absolutely night and day comparing image quality now to just a couple months ago
pic.twitter.com/EdSdk7aign
— outward (@roccynoxy)
2024년 12월 19일
이미지 모델이 내부 검사를 통과했음에도 불구하고 대중적으로 환영받지 못한 사례가 이번이 처음은 아니다. 지난 2월에는 사용자들이 역사적 부정확성을 지적하며 불만을 제기하자, 구글은 AI 챗봇 Gemini가 사람의 이미지를 생성하는 기능을 일시 중단해야 했다.
이러한 사례들은 모델 개선을 실제 사용자 환경에서 측정하는 것이 얼마나 까다로운 문제인지를 보여준다. 리바스에 따르면, 마이크로소프트의 벤치마킹 결과 PR16의 품질은 이전 빙 이미지 크리에이터 모델보다 "평균적으로 약간 더 나은" 수준이었다.
회사가 어떤 내부 측정 지표를 사용했든 간에, 그 지표는 대다수 사용자의 실제 선호도와는 거리가 먼 것으로 보인다.
TechCrunch는 AI 관련 뉴스레터를 제공합니다!
매주 수요일에 이메일을 받아보려면 여기에서 등록하세요.