
목요일, 프랑스의 대규모 언어 모델(LLM) 개발사가 복잡한 PDF 문서 처리에 특화된 새로운 API를 출시했습니다.
Mistral OCR은 광학 문자 인식(OCR) API로, 어떤 PDF 파일이든 텍스트 파일로 변환하여 AI 모델이 내용을 효율적으로 입력(ingest)할 수 있도록 돕습니다.
ChatGPT와 같은 인기 생성형 AI(GenAI) 도구의 근간이 되는 LLM은 순수한 텍스트(raw text)를 다룰 때 특히 성능이 뛰어납니다. 따라서 자체 AI 워크플로우를 구축하려는 기업들은 이 데이터가 AI 처리에 재사용될 수 있도록 데이터를 클린 포맷으로 저장하고 인덱싱하는 것이 극도로 중요해졌습니다.
대부분의 OCR API와 달리, Mistral OCR은 멀티모달(multimodal) API라는 특징을 가집니다. 이는 텍스트 블록과 그림이나 사진 같은 그래픽 요소가 혼재된 경우까지 감지할 수 있다는 의미입니다. 이 OCR API는 이러한 그래픽 요소 주변에 경계 상자(bounding boxes)를 생성하여 출력에 함께 포함합니다.
Mistral OCR의 출력은 단순히 텍스트 덩어리(wall of text)가 아닙니다. 출력은 마크다운(Markdown) 형식으로 포맷되는데, 마크다운은 개발자들이 일반 텍스트 파일에 링크, 제목(header) 등 다양한 서식 요소를 추가할 때 사용하는 서식 문법입니다.
LLM은 학습 데이터셋에서 마크다운에 크게 의존합니다. 또한 Mistral의 Le Chat이나 OpenAI의 ChatGPT 같은 AI 비서를 사용할 경우, 글머리 기호 목록을 만들거나, 링크를 삽입하거나, 텍스트를 굵게 표시하기 위해 마크다운을 생성하는 경우가 많습니다. 사용자 인터페이스(앱)는 이 마크다운 출력을 매끄러운 리치 텍스트(rich text)로 변환합니다. 이 때문에 GenAI가 급증하면서 최근 몇 년 동안 순수 텍스트와 마크다운 형식이 더욱 중요해졌습니다.
Mistral의 공동 창립자이자 최고 과학 책임자(chief science officer)인 기욤 람플(Guillaume Lample)은 "수년 동안 조직들은 LLM, 특히 RAG 시스템이 접근하기 어려웠던 PDF나 슬라이드 형식의 방대한 문서를 축적해 왔습니다. Mistral OCR을 사용하면 고객들은 이제 풍부하고 복잡한 문서를 모든 언어로 읽을 수 있는 콘텐츠로 변환할 수 있게 되었습니다"라고 말했습니다.
그는 이어서 "이는 방대한 내부 문건에 대한 접근성을 단순화해야 하는 기업들에서 AI 비서의 광범위한 채택을 위한 중요한 진전입니다"라고 덧붙였습니다.
Mistral OCR은 Mistral 자체 API 플랫폼 또는 AWS, Azure, Google Cloud Vertex 등 클라우드 파트너를 통해 사용할 수 있습니다. 특히 기밀 또는 민감 데이터를 다루는 기업을 위해서는 온프레미스 배포(on-premise deployment) 옵션도 제공합니다.
파리 기반의 이 AI 회사에 따르면, Mistral OCR은 Google, Microsoft, OpenAI의 API보다 성능이 우수합니다. 이 회사는 수학 표현(LaTeX 포맷), 고급 레이아웃, 또는 표가 포함된 복잡한 문서로 OCR 모델을 테스트했으며, 비영어권 문서에서도 더욱 나은 성능을 보일 것으로 알려졌습니다.
Mistral OCR은 오직 하나의 기능에만 집중했기 때문에, 자체적으로도 시장의 제품들보다 더 빠르다고 자신합니다. 이는 OCR 기능(수많은 다른 기능 중 하나)도 보유한 GPT-4o 같은 멀티모달 LLM과 비교할 때도 놀라운 일이 아닙니다.
실제로 Mistral은 자체 AI 비서에서도 Mistral OCR을 사용하고 있습니다. 사용자가 PDF 파일을 업로드하면, 회사는 텍스트 처리를 시작하기 전에 백그라운드에서 Mistral OCR을 이용해 문서 내용을 이해합니다.
기업과 개발자들은 LLM에 멀티모달 문서를 입력으로 사용하기 위해 RAG(검색 증강 생성, Retrieval-Augmented Generation) 시스템과 Mistral OCR을 결합하여 사용할 가능성이 가장 높습니다. 그 잠재적 사용 사례는 매우 광범위합니다. 예를 들어, 법률 회사가 이 기능을 활용하여 엄청난 양의 문서를 신속하게 검토하는 데 도움을 받을 수 있습니다.
RAG는 데이터를 검색하여 생성형 AI 모델의 컨텍스트로 활용하는 기술입니다.