• 딥시크의 신규 AI 모델, 역대 최고 수준의 '오픈' 경쟁 모델로 부상

    article image

    중국 연구소에서 현재까지 가장 강력한 '오픈' AI 모델 중 하나로 보이는 것을 개발했습니다.

    이 모델은 AI 기업 DeepSeek이 개발하여 DeepSeek V3라는 이름으로 수요일에 공개되었습니다. 이 모델은 개발자들이 상업적 용도를 포함하여 대부분의 애플리케이션에 적용할 수 있도록 다운로드 및 수정 권한을 부여하는 관대한 라이선스(permissive license)가 적용되었습니다.

    DeepSeek V3는 코딩, 번역, 또는 서술형 프롬프트를 통해 에세이나 이메일을 작성하는 등 광범위한 텍스트 기반 워크로드와 작업을 처리할 수 있습니다.

    DeepSeek 자체 벤치마크 테스트에 따르면, DeepSeek V3는 다운로드 가능한 '오픈' 모델은 물론 API를 통해서만 접근할 수 있는 '폐쇄형(closed)' AI 모델 모두를 능가하는 성능을 보였습니다. 특히 프로그래밍 콘테스트 플랫폼인 Codeforces에서 개최된 코딩 대회 하위 세트(subset)에서 DeepSeek은 Meta의 Llama 3.1 405B, OpenAI의 GPT-4o, Alibaba의 Qwen 2.5 72B 등 다른 모델들을 능가하는 성능을 기록했습니다.

    DeepSeek V3는 또한 모델이 기존 코드에 통합하여 새로운 코드를 성공적으로 작성할 수 있는지 등을 측정하는 테스트인 Aider Polyglot에서도 경쟁 모델들을 압도했습니다.


    DeepSeek-V3!

    • 60 토큰/초 (V2 대비 3배 빠름!)
    • API 호환성 유지
    • 완전 오픈 소스 모델 및 논문 공개
    • 671B MoE 파라미터
    • 37B 활성화된 파라미터
    • 14.8조 개의 고품질 토큰으로 학습
    • 거의 모든 벤치마크에서 Llama 3.1 405B 능가
      [출처: Chubby♨️ (@kimmonismus), 2024년 12월 26일]

    DeepSeek 측에 따르면, DeepSeek V3는 14조 8천억 개의 토큰으로 학습되었습니다. 데이터 과학에서 토큰은 원시 데이터를 나타내는 단위로 사용되며, 토큰 1백만 개는 약 75만 단어에 해당합니다.

    단순히 학습 데이터셋 규모가 거대한 것만이 아닙니다. DeepSeek V3는 크기 자체도 거대합니다. 6,710억 개의 파라미터(파라미터는 모델이 예측이나 결정을 내리는 데 사용하는 내부 변수)를 가지고 있으며, AI 개발 플랫폼 Hugging Face 기준으로는 6,850억 개에 달합니다. 이는 파라미터가 4,050억 개인 Llama 3.1 405B보다 약 1.6배 큰 규모입니다.


    DeepSeek(중국 AI 기업)은 적은 예산(2개월 동안 2,048개의 GPU, 600만 달러)으로 훈련된 최첨단(frontier-grade) LLM을 오픈 가중치(open weights)로 공개하며 쉽게 성과를 내는 것처럼 보이게 했습니다.
    [참고: 이러한 수준의 성능은 16,000개에 가까운 GPU 클러스터가 필요하다고 알려져 있습니다. (안드레 카파티 출처, 2024년 12월 26일)]


    파라미터 수는 종종(하지만 항상은 아닐) 성능과 상관관계가 있습니다. 파라미터가 많은 모델이 더 나은 성능을 보이는 경향이 있지만, 대규모 모델은 구동하기 위해 더욱 강력한 하드웨어 인프라를 요구합니다. DeepSeek V3의 최적화되지 않은 버전은 합리적인 속도로 질문에 답변하려면 최고급 GPU 은행을 필요로 할 것입니다.

    DeepSeek V3가 가장 실용적인 모델은 아닐지라도, 여러 면에서 큰 성과를 거두었다는 평가를 받습니다. DeepSeek은 중국 기업들이 최근 미국 상무부로부터 구매가 제한되었던 Nvidia H800 GPU 데이터 센터를 활용하여 불과 두 달 만에 이 모델을 훈련할 수 있었습니다. 또한 이 회사는 DeepSeek V3 훈련에 550만 달러만 지출했다고 주장하는데, 이는 OpenAI의 GPT-4와 같은 모델 개발 비용의 극히 일부에 불과합니다.

    단점으로는 모델의 정치적 견해가 다소 경직되어 있다는 점을 들 수 있습니다. 예를 들어, DeepSeek V3에게 천안문 광장에 대해 질문하면 답변을 회피합니다.

    중국 기업인 DeepSeek은 자사 모델의 응답이 "핵심 사회주의 가치"를 구현하는지 확인하기 위해 중국 인터넷 규제 당국의 검증을 받습니다.

    이 때문에 중국 AI 시스템은 체제에 대한 추측과 같이 규제 당국의 비위를 건드릴 수 있는 주제에는 응답을 거부합니다.

    DeepSeek은 지난 11월 말 OpenAI의 o1 "추론" 모델에 대한 대안으로 DeepSeek-R1을 공개한 이래부터 흥미로운 조직으로 주목받고 있습니다. 이 회사는 AI를 활용해 트레이딩 결정을 내리는 중국의 양적 헤지펀드인 High-Flyer Capital Management의 지원을 받고 있습니다.

    High-Flyer는 모델 훈련을 위해 자체 서버 클러스터를 구축해 왔으며, 가장 최근 클러스터 중 하나는 10,000개의 Nvidia A100 GPU를 보유하고 있으며 10억 엔(약 130만 달러 추산)의 비용이 들었다고 알려졌습니다.

    [출처:] https://techcrunch.com/2024/12/26/deepseeks-new-ai-model-appears-to-be-one-of-the-best-open-challengers-yet