• Ai2의 몰모, 오픈 소스도 클로즈드 멀티모달 모델에 필적하고 능가함을 입증하다

    article image

    일반적인 통념에 따르면, Google, OpenAI, Anthropic 같은 기업들은 무한한 현금 보유량과 수백 명의 최고 수준 연구진 덕분에 최첨단 파운데이션 모델을 개발할 수 있는 유일한 주체입니다. 그러나 이들 중 한 명이 유명하게 지적했듯이, 이들은 "해자(moat)"가 없다는 것이었으며, Ai2가 오늘 발표한 멀티모달 AI 모델 Molmo를 통해 이는 더 이상 사실이 아님이 증명되었습니다. Molmo는 작고, 무료이며, 진정한 오픈 소스임에도 불구하고 기존 거대 모델들과 동등한 성능을 구현합니다.

    명확히 하자면, Molmo(Multimodal Open Language Model)는 ChatGPT와 같은 풀 서비스 챗봇이 아니라 시각 이해(Visual Understanding) 엔진입니다. API가 제공되지 않으며, 기업 통합을 위한 즉각적인 준비가 되어 있지 않고, 사용자나 자체적인 목적을 위해 웹 검색을 수행하지도 않습니다. 이는 기본적으로 이미지를 보고 그것을 이해하며, 그 내용을 설명하거나 질문에 답변하는 특정 부분이라고 이해하시면 됩니다.

    Molmo는 다른 멀티모달 모델들(72B, 7B, 1B 매개변수 변형으로 제공)과 마찬가지로, 거의 모든 일상적인 상황이나 사물에 대한 식별 및 질문 답변이 가능합니다. 예를 들어, "이 커피 메이커는 어떻게 작동하나요?", "이 사진 속 강아지 중 혀를 내밀고 있는 개는 몇 마리인가요?", "이 메뉴판 중 비건 옵션은 무엇인가요?", "이 다이어그램의 변수는 무엇인가요?"와 같은 질문들이 있습니다. 이는 우리가 오랫동안 마주해 온 시각 정보 처리 능력을 보여줍니다.

    이 자리에서 발표된 내용은 "한 가지 사실이 있습니다."라는 말로 시작합니다. 그 후, "우리는 그 분야에서 최고였지만, 그 자체로 만족하는 경향이 있습니다. 우리는 스스로가 충분히 뛰어나다고 느끼고, 더 나은 것을 찾아 헤매지 않습니다."라는 식으로 이어집니다.

    그 후, "우리는 최고의 기술을 개발하고 사용자에게 제공하는 데 열정적입니다. 그러나 우리는 항상 최고의 것을 찾고, 그 경계를 넘어서는 것을 추구해야 합니다."라고 말하며 발표를 마무리합니다.

    그 후, "가장 중요한 것은, 저희는 이 모든 것이 가능하다고 보여드리고 싶습니다. 우리가 만든 것이 얼마나 많은 것을 변화시킬 수 있는지 보여드리고 싶습니다."라는 말로 끝이 납니다.


    요약 및 교정 요청:

    주어진 텍스트는 하나의 일관된 흐름으로 보이지 않으며, 중간에 여러 주제와 내용이 섞여 있습니다. (첫 번째 블록의 기술 설명, 두 번째 블록의 추상적인 발표 내용)

    만약 요청하신 것이 ① 첫 번째로 기술된 내용(기술 스펙 비교 및 설명)을 다듬는 것이라면, 그 내용만 다듬겠습니다.

    article image

    만약 요청하신 것이 ② 이 모든 내용들을 연결하여 일관된 하나의 발표 스크립트로 구성하는 것이라면, 어떤 논리적 흐름(서론-본론-결론)을 원하는지 알려주셔야 합니다.

    가장 유력한 추측에 따라, 첫 번째 기술 스펙 비교 내용을 명확하고 자연스러운 발표 스크립트로 다듬어 드리겠습니다. (기술 설명 부분만 수정)


    [옵션 A: 기술 발표 스크립트로 다듬기 (추천)]

    (전반적인 흐름을 살리면서, 딱딱한 리포트 느낌을 줄이고 자연스러운 발표 구어체로 수정했습니다.)

    "먼저, 몇 가지 핵심적인 기능들을 비교해 드리겠습니다.

    저희가 보여드린 바와 같이, 저희 시스템은 이전 세대 모델 대비 현저히 개선된 성능을 자랑합니다. 예를 들어, 이 데이터 처리 속도나, 복잡한 연산 과정에서 발생하는 지연 시간(Latency)을 보면 그 차이를 명확히 확인하실 수 있습니다.

    특히 이 부분(가리키며)은 정말 혁신적입니다. 저희는 단순히 기존의 기능을 개선한 것에 그치지 않았습니다. 마치 한 단계 진화한 듯한 느낌을 주는데요. 예를 들어, 이전에 어려움을 겪었던 XYZ 작업에서도 이제는 막힘없이, 훨씬 더 정확하게 결과물을 도출해냅니다.

    결론적으로, 저희의 시스템은 단순히 '빠르다', '성능이 좋다'는 수준을 넘어서, 사용자가 경험할 수 있는 전체적인 사용자 경험(UX) 자체를 한 차원 끌어올렸다고 말씀드리고 싶습니다. 이것이 바로 우리가 자신하는 핵심 가치입니다."


    결론: 어떤 텍스트를 다듬고 싶으신지, 혹은 어떤 맥락으로 사용하실지 알려주시면 가장 적절하게 교정해 드릴 수 있습니다.

    [출처:] https://techcrunch.com/2024/09/25/ai2s-molmo-shows-open-source-can-meet-and-beat-closed-multimodal-models