코히어(Cohere), 신규 Aya Vision AI 모델가 최고 수준이라고 주장

sw_reporter

Cohere For AI

AI 스타트업 코히어(Cohere)의 비영리 연구소는 다중 모드(multimodal) ‘오픈’ AI 모델인 Aya Vision을 공개했으며, 이 모델은 업계 최고 수준(best-in-class)이라고 자신하고 있습니다.

Aya Vision은 이미지 캡션 작성, 사진 기반 질문 응답, 텍스트 번역, 그리고 23개 주요 언어에 걸친 요약 생성 등 다양한 작업을 수행할 수 있습니다. 코히어는 Aya Vision을 WhatsApp을 통해 무료로 제공하며, 이를 "전 세계 연구자들에게 기술적 혁신에 대한 접근성을 높이는 중요한 단계"라고 평가했습니다.

코히어는 블로그 게시물에서 "AI가 상당한 진전을 이루었음에도 불구하고, 모델들이 다양한 언어에서 얼마나 일관성 있게 작동하는지에는 여전히 큰 격차가 존재하며, 이러한 격차는 특히 텍스트와 이미지를 동시에 다루는 다중 모드 작업에서 더욱 두드러지게 나타난다"고 지적했습니다. 이어 "Aya Vision은 이러한 격차를 명확하게 좁히는 것을 목표로 한다"고 덧붙였습니다.

Aya Vision은 Aya Vision 32B와 Aya Vision 8B 두 가지 버전으로 제공됩니다. 코히어에 따르면, 보다 정교한 Aya Vision 32B는 Meta의 Llama-3.2 90B Vision을 포함하여 크기가 2배에 달하는 모델들조차 특정 시각 이해 벤치마크에서는 능가하며 "새로운 기준을 제시했습니다." 한편, 코히어는 Aya Vision 8B가 일부 평가에서 자신보다 10배 더 큰 모델들보다 우수한 점수를 받았다고 밝혔습니다.

두 모델 모두 AI 개발 플랫폼 허깅 페이스(Hugging Face)에서 크리에이티브 커먼즈 4.0 라이선스(Creative Commons 4.0 license)와 코히어의 이용 약관 추가 사항(Cohere’s acceptable use addendum)을 통해 접근 가능합니다. 단, 상업적 목적으로는 사용할 수 없습니다.

코히어는 Aya Vision이 연구소에서 직접 번역하고 이를 활용하여 합성 주석(synthetic annotations)을 생성한 "다양한 풀(diverse pool)"의 영어 데이터셋으로 훈련되었다고 설명했습니다. 주석(annotations)은 태그 또는 라벨이라고도 불리며, 훈련 과정에서 모델이 데이터를 이해하고 해석하도록 돕는 역할을 합니다. 예를 들어, 이미지 인식 모델의 경우 주석은 물체 주위의 표시나 이미지 속 사람, 장소, 물체 각각을 설명하는 캡션 형태일 수 있습니다.

코히어의 Aya Vision 모델은 광범위한 시각 이해 작업을 처리할 수 있습니다.

코히어가 합성 주석(즉, AI가 생성한 주석)을 사용한 방식은 현재 업계의 주요 트렌드입니다.

잠재적인 약점에도 불구하고, OpenAI를 포함한 경쟁사들은 실제 데이터의 한계에 직면하면서 합성 데이터를 활용하는 추세가 강해지고 있습니다.

이러한 흐름 속에서, 코히어는 Aya 모델을 통해 자원 부족 문제를 해결하고, 오픈 생태계 전반에 걸쳐 AI 모델 개발을 촉진하는 것을 목표로 하고 있습니다.

한편, 코히어는 이미지-텍스트(Image-to-text) 및 이미지 기반 작업을 위한 고성능 모델을 개발하여, AI가 사진과 같은 시각적 데이터를 이해하고 활용하는 능력을 강화할 계획입니다.

[출처:] https://techcrunch.com/2025/03/04/cohere-claims-its-new-aya-vision-ai-model-is-best-in-class