오늘날 생성형 AI 성능 부족의 주요 원인은 토큰이다

sw_reporter

[최종 교정 및 전문가 검토본]

AI 언어 모델의 이해: 토큰화(Tokenization)와 그 기술적 함의

AI 언어 모델(LLM)의 근간을 이루는 핵심 개념 중 하나는 ‘토큰화(Tokenization)’ 과정입니다. 사용자가 입력하는 원문의 텍스트는 모델이 이해할 수 있는 형태로 분해되어야 하는데, 이 분해 단위가 바로 토큰입니다. 토큰화는 단순히 글자를 나누는 것을 넘어, 언어의 구조와 패턴을 수학적 벡터 공간에 매핑하는 복잡한 과정이며, 모델의 성능과 효율성을 결정하는 중요한 기술적 병목 지점이기도 합니다.

1. 토큰화의 기본 원리

모델이 텍스트를 처리하기 위해서는 숫자로 변환되어야 합니다. 토큰화는 이 변환의 첫 단계를 담당합니다.

토큰의 정의: 토큰은 모델이 처리하는 최소 단위입니다. 이는 단어(Word)일 수도 있고, 단어의 일부(Subword), 혹은 구두점(Punctuation)일 수도 있습니다.
왜 서브워드(Subword)를 사용하는가?: 만약 모델이 모든 단어를 하나의 단위로 처리한다면, 전례 없는 단어(Out-of-Vocabulary, OOV)를 만났을 때 처리할 수 없습니다. 따라서 GPT, BERT 등 최신 모델들은 '서브워드 토큰화' 방식을 채택합니다. 이는 긴 단어를 의미론적으로 의미 있는 작은 단위(예: "un-" + "believ-" + "-able")로 분해하여, 모델이 한 번도 보지 못한 단어라도 그 구성 요소를 통해 의미를 유추할 수 있게 합니다.
인코딩(Encoding): 이 과정을 통해 텍스트는 토큰 ID 목록으로 변환되며, 이후 임베딩 레이어를 거쳐 실제 모델 연산에 사용되는 밀집 벡터(Dense Vector)로 변환됩니다.

2. 토큰화 기술의 진화와 과제

토큰화 알고리즘은 모델 아키텍처의 발전에 따라 지속적으로 진화하고 있습니다.

A. BPE (Byte-Pair Encoding)

현재 가장 널리 사용되는 방식으로, 주어진 코퍼스(Corpus)에서 가장 자주 등장하는 인접한 문자 쌍을 찾아 이를 하나의 새로운 토큰으로 병합해 나가는 방식입니다. 이 방식은 OOV 문제를 효과적으로 해결합니다.

B. WordPiece & Unigram Language Model

WordPiece는 BERT에서 주로 사용되었으며, 통계적 확률을 기반으로 단어 조각을 결정합니다. Unigram 모델은 주어진 토큰열에 대해 가장 높은 확률을 가진 단어 조합을 찾는 방식으로, 유연성이 높다는 장점이 있습니다.

C. Contextualization (맥락 반영)

과거의 토큰화는 주로 통계적 빈도에 의존했습니다. 하지만 최신 연구에서는 토큰화 과정 자체에 맥락 정보를 반영하려는 시도가 이어지고 있습니다. 예를 들어, 문맥상 특정 단어의 일부가 다른 의미로 해석될 여지가 있을 때, 토큰 경계를 유연하게 조정하려는 시도가 연구되고 있습니다.

3. 성능과 효율성을 결정하는 주요 변수

토큰화 과정에서 발생하는 다음 두 가지 핵심 변수들은 LLM의 활용도를 직접적으로 결정합니다.

토큰당 비용 (Cost per Token): 토큰의 개수가 곧 API 호출 비용이나 처리 시간에 비례합니다. 따라서 모델의 성능을 높이면서도 토큰 수를 최소화하는 최적의 토크나이저 설계가 매우 중요합니다.
문맥 길이 제약 (Context Window Limit): 아무리 강력한 모델이라도 한 번에 처리할 수 있는 최대 토큰 수(예: 8k, 32k, 128k)에 제약이 따릅니다. 토큰화 방식의 효율성은 곧 이 제약된 컨텍스트 창을 얼마나 풍부하게 활용할 수 있는가와 직결됩니다.

결론

토큰화는 단순한 전처리 과정을 넘어, 언어 모델의 '문법이자 생명줄'입니다. BPE와 같은 서브워드 기반의 토크나이저는 LLM이 거대한 어휘 공간과 희귀한 패턴까지 포괄적으로 이해할 수 있도록 기초 체력을 제공합니다. 향후 LLM 연구는 모델의 추론 능력 향상과 동시에, 토큰화 과정의 효율성 극대화 및 실시간 맥락 반영을 통해 더욱 빨라지고 저렴한 컴퓨팅 자원 활용을 목표로 할 것입니다.

[출처:] https://techcrunch.com/2024/07/06/tokens-are-a-big-reason-todays-generative-ai-falls-short