• 구글, 제미나이(Gemini) 인물 생성 기능 문제 해결했다고 밝혀

    article image

    작년 2월, 구글은 사용자들이 역사적 부정확성을 지적하자 AI 기반 챗봇 Gemini의 사람 이미지 생성 기능을 일시적으로 중단했습니다. 예를 들어, Gemini에 "로마 군단"을 묘사하도록 요청하면 인종적으로 다양한 군인들이 어울리지 않는 시대착오적인 그룹으로 그려진 반면, "줄루 전사"는 전형적인 흑인으로 묘사하는 등 편향성이 문제가 되었기 때문입니다.

    이에 구글 CEO 순다르 피차이(Sundar Pichai)가 사과했으며, 구글의 AI 연구 부문인 DeepMind의 공동 창립자 데미스 하사비스(Demis Hassabis)는 수정이 "매우 곧," 즉 몇 주 내로 완료될 것이라고 말했습니다. 하지만 실제로 일부 구글 직원들이 주당 120시간의 초장시간 근무를 감행했음에도 불구하고, 수정이 이루어지는 데는 그보다 훨씬 오랜 시간이 걸렸습니다.

    하지만 며칠 안에 Gemini는 다시 사람을 묘사하는 이미지를 생성할 수 있게 될 예정입니다.

    물론, 그 과정이 순탄하지는 않습니다.

    현재 Gemini의 사람 생성 기능은 초기 접근 단계로, 영어 전용 테스트 목적으로 구글의 유료 Gemini 플랜(Business 또는 Enterprise) 가입자들에게만 먼저 제공됩니다.

    구글은 이 테스트가 언제 무료 Gemini 사용자 계층이나 다른 언어로 확대될지는 밝히지 않았습니다.

    구글 대변인은 TechCrunch과의 인터뷰에서 "Gemini Advanced는 사용자들에게 최신 기능에 대한 우선적인 접근성을 제공합니다. 이를 통해 프리미엄 구독자들에게 가장 기대되는 기능을 먼저 제공하는 동시에, 소중한 피드백을 수집할 수 있습니다"라고 설명했습니다.

    그렇다면 구글은 사람 이미지 생성에 어떤 개선 사항을 적용했나요? 회사에 따르면, Gemini에 내장된 최신 이미지 생성 모델인 Imagen 3는 Gemini가 생성하는 인물 이미지를 더욱 "공정하게" 만들기 위한 완화책을 포함하고 있습니다. 예를 들어, TechCrunch가 입수한 기술 논문에 따르면, Imagen 3는 "훈련 데이터에 포함된 이미지와 관련된 개념의 다양성과 다양성을 향상하도록" 설계된 AI 생성 캡션을 사용해 훈련되었습니다. 구글은 또한 모델의 훈련 데이터가 "안전성"을 위해 필터링되었으며, "공정성 문제에 대한 고려를 거쳐 검토되었다"고 강조합니다.

    우리가 Imagen 3의 훈련 데이터에 대한 추가적인 세부 정보를 요청했지만, 대변인은 모델이 "이미지, 텍스트 및 관련 주석을 포함하는 대규모 데이터 세트"를 기반으로 훈련되었다고만 밝혔습니다.

    대변인은 "광범위한 내부 및 외부 레드팀 테스트를 통해 바람직하지 않은 응답 가능성을 크게 줄였으며, 지속적인 개선을 위해 독립 전문가들과 협력하고 있습니다"라고 덧붙였습니다. "저희의 주력은 사람 이미지 생성 기능을 다시 활성화하기 전에 이 부분을 철저하게 테스트하는 것이었습니다."

    Imagen 3와 Gems 기능

    더 좋은 소식은, 프리미엄 Gemini 티어에 가입하지 않은 사용자를 제외한 모든 Gemini 사용자가 이번 주 안에 Imagen 3를 이용할 수 있게 된다는 점입니다.

    구글에 따르면, Imagen 3는 이전 모델인 Imagen 2보다 텍스트 프롬프트를 이미지로 번역하는 이해도가 더 뛰어나고, 생성물의 창의성과 디테일이 향상되었습니다. 나아가 이 모델은 아티팩트와 오류가 적다는 주장과 함께, 텍스트 렌더링 측면에서 현재까지 최고의 Imagen 모델이라고 합니다.

    (구글의 Imagen 3 샘플 이미지)

    딥페이크 가능성에 대한 우려를 완화하기 위해, Imagen 3는 DeepMind가 개발한 접근 방식인 SynthID를 활용하여 다양한 형태의 AI 생성 미디어에 눈에 보이지 않는 암호화 워터마크를 적용할 것입니다. 구글이 Imagen 3에 SynthID를 사용한다고 이전에 발표한 바 있어 놀라움은 아니지만, Gemini에서 이미지 생성을 처리하는 방식과 Pixel Studio와 같은 다른 제품에서의 방식 간의 차이는 주목할 만합니다.

    Gems

    Gems에 관하여, Gems는 Gemini에 추가된 기능입니다. Gems는 사용자 지정 경험을 만들 수 있는 도구입니다.

    Gems는 사용자가 맞춤화된 콘텐츠와 워크플로우를 구축할 수 있게 돕습니다. 예를 들어, 사용자가 특정 스타일의 글을 꾸준히 발행하는 작가라면, 자신의 글쓰기 스타일에 맞는 Gems를 만들어 사용할 수 있습니다.

    Gems는 사용자가 특정 작업을 반복적으로 수행하는 데 필요한 모든 요소를 통합한 일종의 '프롬프트 묶음'이라고 이해할 수 있습니다.

    이 기능을 통해 사용자는 자신이 가장 잘 하는 방식대로 AI를 활용하여 콘텐츠를 생성하고, 아이디어를 구조화하며, 복잡한 문제 해결 과정을 자동화할 수 있게 됩니다.

    [출처:] https://techcrunch.com/2024/08/28/google-says-its-fixed-geminis-people-generating-feature