미스트랄, 코드 전용 최초 생성형 AI 모델 '코데스트랄' 출시

sw_reporter

마이크로소프트의 지원을 받고 기업 가치 60억 달러에 달하는 프랑스 AI 스타트업 미스트랄(Mistral)이 코딩을 위한 첫 생성형 AI 모델인 'Codestral'을 출시했습니다.

Codestral은 다른 코드 생성 모델과 마찬가지로 개발자가 코드를 작성하고 상호작용하는 데 도움을 주도록 설계되었습니다. 미스트랄은 블로그 게시물을 통해 Codestral이 Python, Java, C++, JavaScript를 포함한 80개 이상의 프로그래밍 언어로 훈련되었다고 설명했습니다. Codestral은 코딩 함수 완성, 테스트 작성, 부분 코드 "채우기" 기능 외에도 영어로 된 코드베이스에 대한 질문에 답변할 수 있습니다.

미스트랄은 이 모델을 "오픈"으로 묘사하지만, 여기에는 논란의 여지가 있습니다. 해당 스타트업의 라이선스는 Codestral 및 그 결과물을 어떠한 상업적 활동에도 사용하는 것을 금지하고 있습니다. 물론 "개발"에 대한 예외 조항이 존재하지만, 여기에도 제약이 있습니다. 라이선스는 "회사 사업 활동의 맥락에서 직원이 내부적으로 사용하는 것"을 명시적으로 금지하고 있습니다.

이러한 제한은 Codestral이 부분적으로 저작권이 있는 콘텐츠로 훈련되었기 때문일 수 있습니다. 미스트랄은 블로그 게시물에서 이에 대해 확인하거나 부인하지 않았지만, 이 스타트업의 이전 훈련 데이터셋에 저작권 데이터가 포함되었다는 증거가 있어 놀랍지 않은 일입니다.

어쨌든 Codestral은 그만한 가치가 없을 수도 있습니다. 220억 개 파라미터를 가진 이 모델을 구동하려면 강력한 PC 사양이 필요합니다. (파라미터는 본질적으로 AI 모델이 텍스트를 분석하고 생성하는 능력 등 문제를 정의하는 지표입니다.) 또한, 일부 벤치마크에 따르면 경쟁 모델을 능가한다고 하지만(주지하시다시피 신뢰성이 의심스러운 자료입니다), 그 성능 차이가 압도적이라고 보기도 어렵습니다.

대부분의 개발자에게는 실용적이지 못하고 성능 개선 측면에서도 점진적인 수준에 머문다는 점에서, Codestral은 코드 생성 모델을 프로그래밍 보조 도구로 사용하는 것의 근본적인 타당성에 대한 논쟁을 촉발하는 것은 확실합니다.

개발자들은 적어도 일부 코딩 작업에 대해서는 생성형 AI 도구를 확실히 수용하고 있습니다. 2023년 6월 Stack Overflow 설문조사에 따르면 개발자의 44%가 현재 개발 과정에서 AI 도구를 사용하고 있으며, 26%는 곧 사용 계획이라고 답했습니다. 그러나 이러한 도구들은 명확한 결함들을 안고 있습니다.

GitClear가 지난 몇 년 동안 프로젝트 저장소에 커밋된 1억 5천만 줄 이상의 코드를 분석한 결과, 생성형 AI 개발 도구가 코드베이스에 오류가 포함된 코드를 더 많이 유입시키고 있다는 결과가 나왔습니다. 다른 곳에서는 보안 연구원들이 그러한 도구들이 소프트웨어 프로젝트의 기존 버그와 보안 문제들을 증폭시킬 수 있다고 경고했습니다. Purdue의 연구에 따르면, OpenAI의 ChatGPT가 프로그래밍 질문에 제시하는 답변 중 절반 이상이 틀린 것으로 나타났습니다.

이러한 사실들이 미스트랄 등 기업들이 모델을 수익화(그리고 시장에서의 입지를 다지는 것)하려는 시도를 막지는 못할 것입니다. 오늘 아침 미스트랄은 Codestral의 호스팅 버전을 자체 대화형 AI 플랫폼인 Le Chat뿐 아니라 유료 API 형태로도 출시했습니다. 또한 미스트랄은 Codestral을 LlamaIndex, LangChain, Continue.dev, Tabnine 등 앱 프레임워크 및 개발 환경에 통합하는 작업에도 착수했다고 밝히고 있습니다.

[출처:] https://techcrunch.com/2024/05/29/mistral-releases-its-first-generative-ai-model-for-code