ChatGPT 이미지 생성 기능 업그레이드

sw_reporter

지난 화요일 라이브 스트리밍에서 OpenAI CEO 샘 알트만(Sam Altman)은 ChatGPT의 이미지 생성 기능에 대한 1년 만의 첫 주요 업그레이드를 발표했다.

ChatGPT는 이제 OpenAI의 GPT-4o 모델을 활용하여 이미지를 네이티브로 생성하고 수정할 수 있게 되었다. GPT-4o는 오랫동안 AI 기반 챗봇 플랫폼의 핵심 기반 역할을 해왔으나, 이전에는 텍스트 생성 및 편집 기능만 가능했고 이미지는 처리할 수 없었다.

알트만은 GPT-4o의 네이티브 이미지 생성 기능이 오늘 ChatGPT와 OpenAI의 AI 비디오 생성 제품인 Sora에서 이용 가능하다고 밝혔다. 이 기능은 월 200달러의 Pro 플랜 구독자부터 적용되며, OpenAI에 따르면 곧 Plus 및 무료 ChatGPT 사용자, 그리고 OpenAI의 API 서비스를 사용하는 개발자들에게도 순차적으로 확대 제공될 예정이다.

이미지 출력 기능을 지원하는 GPT-4o는 기존 이미지 생성 모델인 DALL-E 3보다 더 오랜 시간 '추론(thinking)' 과정을 거치는 것이 특징이다. 이는 OpenAI가 더욱 정확하고 상세한 이미지를 제공하기 위함이다. GPT-4o는 사람을 포함한 기존 이미지를 편집할 수 있으며, 전경이나 배경의 사물 같은 세부 요소를 변형하거나 '인페인팅(inpainting)'하는 작업이 가능하다.

이 새로운 이미지 기능을 구동하기 위해 OpenAI는 GPT-4o를 "공개적으로 이용 가능한 데이터"뿐만 아니라, 셔터스톡(Shutterstock) 등 파트너사와의 협력을 통해 확보한 독점 데이터로 학습시켰다고 밝혔다.

많은 생성형 AI 공급업체들은 학습 데이터를 경쟁 우위로 간주하여 철저히 보호하고 관련 정보를 외부로 거의 공개하지 않는다. 하지만 학습 데이터 세부 정보는 지식재산권(IP) 관련 소송의 잠재적 원인이 될 수 있어, 기업들이 정보를 공개하는 데 주저하는 요인이기도 하다.

OpenAI의 최고 운영 책임자(COO)인 브래드 라이트캡(Brad Lightcap)은 저널(Journal)에 성명서를 통해 "우리는 결과물을 생성하는 방식에서 아티스트의 권리를 존중하고 있으며, 현존하는 아티스트의 작품을 직접적으로 모방하는 이미지를 생성하지 못하도록 하는 정책을 마련했다"고 강조했다.

한편, OpenAI는 크리에이터들이 자신의 작품을 학습 데이터셋에서 제외하도록 요청할 수 있는 '옵트아웃(opt-out)' 양식을 제공한다. 또한 웹 스크래핑 봇이 웹사이트로부터 이미지 등을 포함한 학습 데이터를 수집하는 것을 제한해 달라는 요청 역시 존중한다고 덧붙였다.

ChatGPT의 업그레이드된 이미지 생성 기능은 OpenAI의 주력 모델 중 하나인 Gemini 2.0 Flash에 대한 구글의 실험적인 네이티브 이미지 출력을 잇는 후속 조치로 평가된다. 다만, 이 강력한 기능이 소셜 미디어에서 큰 화제가 되긴 했으나, 그 이유가 반드시 긍정적이었던 것만은 아니다. Gemini 2.0 Flash의 이미지 구성 요소는 '가드레일(guardrails)'이 부족하여, 사용자들이 워터마크를 제거하거나 저작권이 있는 캐릭터가 묘사된 이미지를 생성할 수 있도록 허용했다.

본 기사는 GPT-4o의 학습 데이터와 관련한 OpenAI의 월스트리트 저널(Wall Street Journal) 성명을 포함하기 위해 PT 기준 오후 12시에 업데이트되었다.

[출처:] https://techcrunch.com/2025/03/25/chatgpts-image-generation-feature-gets-an-upgrade