정적인 문서의 벽을 허물고, AI가 진짜 '읽을 수 있는' 지식으로 만드는 과정

mellowstack

요즘 생성형 AI가 정말 무섭게 발전하고 있다는 느낌, 다들 받으시죠?
챗봇이나 AI 비서 같은 것들이 우리 업무의 많은 부분을 대신해주면서 '데이터 접근성'이라는 게 핵심 병목 구간으로 떠오른 것 같아요.

아무리 똑똑한 LLM(대규모 언어 모델)이라도, 그게 접근할 수 있는 데이터가 엉망이거나, 아예 접근 자체가 불가능한 형태라면 무용지물이잖아요.
그 대표적인 예가 바로 PDF 문서들이죠.
PDF는 보기엔 완벽하게 레이아웃이 잡혀있고, 우리가 보기엔 가장 깔끔한 형태지만, 컴퓨터나 AI의 관점에서는 '그냥 이미지 덩어리'에 가깝게 느껴질 때가 많아요.

그래서 최근에 주목할 만한 기술적 진전이 있었어요.
한 LLM 개발사에서 PDF 같은 복잡한 문서를 AI가 정말 '사용 가능한' 형태로 변환해주는 새로운 API를 공개했는데요.
단순히 글자를 텍스트로 뽑아내는 수준을 넘어서, 이 과정 자체를 엄청나게 고도화했다는 점이 흥미로워요.

핵심은 단순히 텍스트를 추출하는 것만 아니라, 그 텍스트가 어떤 구조를 가지고 있었는지까지 최대한 살려서 뽑아낸다는 거예요.
특히 이 출력이 그냥 텍스트 덩어리(wall of text)가 아니라, 마크다운(Markdown) 형식으로 나온다는 점이 정말 중요해요.

개발자들 사이에서 마크다운이라는 게 익숙한 분들은 아실 거예요.
제목을 붙이거나, 목록을 만들거나, 특정 부분을 강조할 때 쓰는 일종의 '서식 문법' 같은 거죠.
LLM들이 학습할 때 이 마크다운 구조에 엄청나게 의존한다는 사실을 생각하면, 이 포맷으로 데이터를 받는다는 건 마치 AI에게 '이건 제목이야', '이건 목록의 항목이야'라고 명확하게 안내하는 것과 같아요.

그래야 나중에 우리가 이 데이터를 가지고 검색 증강 생성(RAG) 같은 시스템을 만들 때, AI가 문맥을 놓치지 않고 정확하게 정보를 가져와서 답변을 구성할 수 있게 되거든요.
이 기술이 보여주는 건, 이제 AI 워크플로우를 구축하려면 '데이터를 어떻게 가져올까?'보다 '데이터를 어떻게 가장 구조화된 형태로 준비할까?'가 더 중요한 단계가 되었다는 신호탄 같아요.

여기서 더 깊이 들어가서 이 기술이 왜 '게임 체인저'인지 곰곰이 생각해보면, 단순히 텍스트 추출을 넘어선 '멀티모달' 처리 능력이 핵심이에요.
우리가 흔히 보는 PDF에는 텍스트 외에도 그래프, 표, 사진 같은 그래픽 요소들이 잔뜩 섞여있잖아요?
이전의 OCR 기술들은 이런 복잡한 요소들을 만나면 텍스트만 툭 뱉어내거나, 아니면 레이아웃을 완전히 망가뜨리곤 했어요.

그런데 이 새로운 API는 텍스트 블록 주변에 '경계 상자(bounding boxes)' 같은 정보를 함께 출력해준다고 해요.
이건 AI에게 "야, 이 텍스트는 이 그림 바로 옆에 붙어있었어"라고 위치 정보까지 알려주는 것과 같아서, AI가 시각적 맥락을 이해하는 데 엄청난 도움을 주죠.

게다가 이 기술이 보여주는 또 다른 중요한 지점은 '접근성'과 '신뢰성'이에요.
기업들이 내부 문건을 다룰 때는 보안이 최우선이잖아요?

그래서 클라우드 기반의 서비스만 믿기 어려울 때가 많은데, 온프레미스 배포 옵션까지 제공한다는 건, 이 기술이 단순한 데모 수준이 아니라 실제 민감한 데이터를 다루는 엔터프라이즈 환경을 겨냥하고 있다는 방증이 아닐까 싶어요.

결국 이 모든 기술적 진보는 결국 '지식의 민주화'로 귀결된다고 봐요.