
바이럴 AI 기업으로 알려진 DeepSeek이 OpenAI의 DALL-E 3를 능가할 수 있다고 주장하며 새로운 멀티모달 AI 모델 세트를 출시했다.
AI 개발 플랫폼인 Hugging Face에서 다운로드할 수 있는 이 모델들은 DeepSeek이 Janus-Pro라고 명명한 새로운 모델군에 속한다. 이 모델들은 10억 개에서 70억 개의 매개변수(parameters) 크기로 제공된다. 매개변수는 모델의 문제 해결 능력을 대략적으로 나타내는 지표로, 일반적으로 매개변수가 많을수록 성능이 뛰어난 경향을 보인다.
Janus-Pro는 MIT 라이선스를 따르므로 제약 없이 상업적으로 사용 가능하다.
[이미지 캡션: DeepSeek의 Janus Pro 모델에서 생성된 이미지 출력 예시.]
DeepSeek
DeepSeek이 "새로운 자기회귀 프레임워크(novel autoregressive framework)"라고 설명하는 Janus-Pro는 이미지 분석과 새로운 이미지 생성 기능을 모두 수행할 수 있다. 회사에 따르면, 두 가지 AI 평가 벤치마크인 GenEval과 DPG-Bench에서 가장 큰 모델인 Janus-Pro-7B는 DALL-E 3뿐만 아니라 PixArt-alpha, Emu3-Gen, Stability AI의 Stable Diffusion XL 등 경쟁 모델들보다 뛰어난 성능을 기록했다.
물론 일부 모델들이 구형 모델이거나, 대부분의 Janus-Pro 모델이 최대 384 x 384 해상도의 작은 이미지 분석에 국한된다는 한계점도 존재한다. 그러나 이러한 모델들의 컴팩트한 크기를 고려할 때, Janus-Pro의 성능은 매우 인상적이다.
DeepSeek은 Hugging Face에 게시한 글을 통해 "Janus-Pro는 기존 통합 모델을 뛰어넘으며, 태스크별 전문 모델과 동등하거나 그 이상의 성능을 발휘합니다. Janus-Pro의 단순성, 높은 유연성, 그리고 효과성은 차세대 통합 멀티모달 모델의 강력한 후보가 될 것입니다"라고 언급했다.
[이미지 캡션: DeepSeek의 새로운 Janus Pro 모델과 경쟁 모델 비교.]
DeepSeek
양자 트레이딩 회사 High-Flyer Capital Management의 막대한 자금 지원을 받은 중국 AI 연구소 DeepSeek은 최근 자사 챗봇 앱이 애플 앱스토어 순위 상위권에 오르면서 주류 기술 시장의 주목을 받기 시작했다. 컴퓨팅 효율성을 높인 기법으로 훈련된 DeepSeek의 언어 모델들은 수많은 월스트리트 분석가와 기술자들로 하여금 미국이 AI 경쟁에서 선두 지위를 유지할 수 있을지, 그리고 AI 칩에 대한 수요가 지속될지에 대한 의문을 제기하게 만들었다.
업데이트: 본 기사 이전 버전에서는 Janus-Pro 모델이 384 x 384 해상도의 작은 이미지만을 출력할 수 있다는 잘못된 내용을 언급했습니다. 오류를 사과드립니다.
TechCrunch에서 AI 전문 뉴스레터를 받아보세요!
[신청 링크]를 통해 매주 수요일에 받은 편지함으로 받아보세요.
[출처:] https://techcrunch.com/2025/01/27/viral-ai-company-deepseek-releases-new-image-model-family