미스트랄, 모더레이션 API 출시

sw_reporter

AI 스타트업 미스트랄(Mistral)이 콘텐츠 중재를 위한 새로운 API를 출시했다.

미스트랄에 따르면, 이 API는 미스트랄의 Le Chat 챗봇 플랫폼에서 중재 기능을 구동하는 것과 동일한 API로, 특정 애플리케이션과 안전 표준에 맞춰 사용자 지정이 가능하다. 이 API는 영어, 프랑스어, 독일어를 포함한 여러 언어의 텍스트를 성적인 콘텐츠, 혐오 및 차별, 폭력 및 위협, 위험 및 범죄 콘텐츠, 자해, 건강, 금융, 법률, 개인 식별 정보(PII) 등 아홉 가지 범주 중 하나로 분류하도록 훈련된 미세 조정 모델(Ministral 8B)을 기반으로 한다.

미스트랄은 이 중재 API가 원시 텍스트(raw text)는 물론 대화형 텍스트에도 적용할 수 있다고 밝혔다.

미스트랄은 블로그 게시물에서 "지난 몇 달 동안 업계와 연구 커뮤니티 전반에서 중재 기능을 더욱 확장 가능하고 견고하게 만들 수 있는 새로운 AI 기반 중재 시스템에 대한 관심이 증가하고 있습니다"라고 언급하며, "당사의 콘텐츠 중재 분류기는 효과적인 안전장치(guardrails)를 위해 가장 관련성이 높은 정책 범주를 활용하며, 부적절한 조언이나 PII와 같은 모델 생성 피해에 대처함으로써 모델 안전에 대한 실용적인 접근 방식을 제시합니다"라고 설명했다.

AI 기반 중재 시스템은 이론적으로 유용하지만, 다른 AI 시스템이 겪는 편향 및 기술적 결함에도 취약하다.

예를 들어, 유해성 감지를 위해 훈련된 일부 모델은 일부 흑인 미국인이 사용하는 비공식 문법인 아프리카계 미국인 영어(AAVE)의 구문들을 불균형적으로 '유해하다'고 판단한다. 또한 연구에 따르면, 장애인에 대한 소셜 미디어 게시물 역시 일반적으로 사용되는 공공 감성 및 유해성 감지 모델에 의해 더 부정적이거나 유해한 것으로 플래그 지정되는 경우가 많다.

미스트랄은 자사의 중재 모델이 매우 정확하다고 주장하지만, 개선 과정에 있는 부분이라는 점도 인정했다. 주목할 만한 점은, 미스트랄이 자사 API의 성능을 Jigsaw의 Perspective API나 OpenAI의 중재 API 같은 다른 인기 중재 API와 비교하지 않았다는 것이다.

이 회사는 "고객들과 협력하여 확장 가능하고, 경량화되었으며, 사용자 지정이 가능한 중재 도구를 구축하고 공유하고 있으며, 앞으로도 연구 커뮤니티와 계속 교류하며 안전 분야 발전에 기여할 것"이라고 덧붙였다.

미스트랄은 이날 배치(batch) API도 발표했다. 회사는 고용량 요청을 비동기적으로 처리함으로써 API를 통해 제공되는 모델의 비용을 최대 25% 절감할 수 있다고 설명했다. Anthropic, OpenAI, Google 등 다른 기업들도 자체 AI API에 배치 처리 옵션을 제공하고 있다.

[출처:] https://techcrunch.com/2024/11/07/mistral-launches-a-moderation-api