
중국 AI 연구소 딥시크(DeepSeek)가 이번 주 기술 업계의 큰 주목을 받을 것으로 예상되지만, 국내 주요 경쟁사인 알리바바(Alibaba) 역시 가만히 지켜보고만 있지 않다.
알리바바의 Qwen 팀은 지난 월요일, 텍스트 및 이미지 분석 작업을 수행할 수 있는 새로운 AI 모델군인 Qwen2.5-VL을 공개했다. 이 모델은 파일 파싱, 비디오 이해, 이미지 속 객체 개수 파악은 물론, PC 제어와 같은 복합적인 작업을 처리할 수 있으며, 이는 OpenAI가 최근 출시한 모델의 작동 방식과 유사하다.
Qwen 팀의 벤치마킹 결과에 따르면, 최상위 Qwen2.5-VL 모델은 여러 비디오 이해, 수학, 문서 분석, 질의응답 평가 영역에서 OpenAI의 GPT-4o, Anthropic의 Claude 3.5 Sonnet, Google의 Gemini 2.0 Flash를 능가하는 성능을 보였다.
Qwen 팀에 따르면, Qwen2.5-VL은 알리바바의 앱을 통해 테스트가 가능하며, AI 개발 플랫폼인 허깅 페이스(Hugging Face)에서도 다운로드할 수 있다. 이 모델은 차트와 그래프 분석, 인보이스 및 각종 양식 스캔으로부터 데이터 추출, 그리고 길게는 수 시간에 달하는 비디오의 '이해' 작업까지 처리할 수 있다고 한다. 또한 Qwen 팀은 Qwen2.5-VL이 "영화 및 TV 시리즈의 지적 재산(IP)은 물론, 광범위한 종류의 제품"까지 인식할 수 있다고 언급하며, 이 모델들이 저작권이 있는 데이터를 일부 활용하여 훈련되었을 가능성을 시사했다.
다만, Qwen2.5-VL은 중국 기업이 개발한 AI인 만큼, 논의할 수 있는 주제에 있어 특정 제한 사항이 있다. 적어도 Qwen Chat의 경우 그러하다. 사용자가 가장 크고 강력한 Qwen2.5-VL 모델인 Qwen2.5-VL-72B에게 "시진핑의 실수"에 대해 이야기해 달라고 요청하자, Qwen Chat은 오류 메시지를 반환하며 응답을 거부했다.
이는 중국의 인터넷 규제 당국이 자국에서 개발된 여러 모델을 벤치마킹하며 응답이 "사회주의 핵심 가치"를 구현하도록 강제하는 데 따른 것이다. 실제로 중국의 AI 시스템들은 대만 자치권 문제와 같이 규제 당국이 민감하게 반응할 수 있는 주제에 대해서는 응답을 거부하는 경향을 보인다.

Qwen2.5-VL의 가장 흥미로운 기능 중 하나는 PC와 모바일 기기 양쪽에서 소프트웨어와 상호 작용할 수 있다는 점이다. 허깅 페이스의 기술 리더인 필립 슈미드(Philipp Schmid)가 X에 게시한 영상에 따르면, Qwen2.5-VL 모델은 안드로이드용 Booking.com 앱을 구동하고 충칭에서 베이징으로 비행을 예약하는 과정을 보여주었다.
[X 포스팅 내용 요약]
딥시크(Deepseek)의 과장된 마케팅에도 불구하고, Qwen이 최고의 오픈 멀티모달 모델을 선보였습니다! Qwen 2.5 VL은 사용자의 컴퓨터를 제어하는 비전 언어 모델로, 오퍼레이터 기능과 유사하며, 차트에서 구조화된 정보 추출 등 더욱 많은 기능을 수행할 수 있습니다!!
TL;DR;
[사진 첨부]
— Philipp Schmid (@_philschmid)
2025년 1월 27일
아래 영상은 Qwen2.5-VL 모델이 리눅스 데스크톱의 앱을 제어하는 모습을 담고 있지만, 단순히 창 전환 이상의 실질적인 성과는 미미해 보인다. 특히 흥미로운 점은 Qwen의 벤치마크 결과가 실제 컴퓨터 환경을 모방하는 벤치마크인 OSWorld에서 Qwen2.5-VL이 낮은 점수를 기록했다는 것이다.
[사진 첨부]
— Vaibhav (VB) Srivastav (@reach_vb)
2025년 1월 27일
Qwen2.5-VL 시리즈 중 상대적으로 작고 덜 복잡한 모델인 Qwen2.5-VL-3B와 Qwen2.5-VL-7B는 허가성(Permissive) 라이선스(라이선스 명시)를 따르고 있다.