AWS, Bedrock LLM 서비스에 프롬프트 라우팅 및 캐싱 기능 도입

sw_reporter

기업들이 생성형 AI를 단순한 프로토타입 테스트 단계에서 실제 상용화(운영) 단계로 옮겨가면서, 비용 절감에 대한 민감도가 높아지고 있습니다. 아무래도 대규모 언어 모델(LLM)을 사용하는 것은 상당한 비용이 들기 때문입니다. 비용 절감 방법 중 하나는 오래된 개념인 캐싱(caching)으로 회귀하는 것이고, 또 다른 방법은 더 간단한 질의(query)는 작고 비용 효율적인 모델로 라우팅하는 것입니다. AWS는 라스베이거스에서 열린 re:Invent 컨퍼런스에서 이 두 가지 기능을 Bedrock LLM 호스팅 서비스에 도입한다고 발표했습니다.

먼저 캐싱 서비스에 대해 살펴보겠습니다. Bedrock 제품 디렉터인 Atul Deo는 “문서가 있고 여러 사람이 같은 문서에 대해 질문하는 상황이라고 가정해 봅시다. 매번 비용을 지불하게 됩니다.”라며, “게다가 이러한 컨텍스트 창은 계속 길어지고 있습니다. 예를 들어, Nova의 경우 30만 [토큰]의 컨텍스트, 심지어 2백만 [토큰]의 컨텍스트를 갖게 될 것입니다. 내년에는 이보다 훨씬 더 높아질 수도 있다고 생각합니다.”라고 설명했습니다.

AWS 캐싱은 본질적으로 모델이 반복적인 작업을 수행하거나 동일하거나 실질적으로 유사한 질의를 계속해서 재처리하는 데 비용을 지불할 필요가 없도록 보장합니다. AWS에 따르면, 이는 비용을 최대 90%까지 절감할 수 있습니다. 이와 더불어 파생되는 또 하나의 이점은 모델로부터 답변을 받는 지연 시간(latency)이 현저히 낮아진다는 것인데, AWS는 그 감소 폭이 최대 85%에 달한다고 밝혔습니다. Bedrock에서 일부 생성형 AI 애플리케이션의 프롬프트 캐싱을 테스트한 Adobe는 응답 시간이 72% 감소하는 효과를 확인했습니다.

또 다른 주요 신규 기능은 Bedrock을 위한 지능형 프롬프트 라우팅입니다. 이를 통해 Bedrock은 동일한 모델군 내의 다양한 모델로 프롬프트를 자동으로 라우팅하여, 기업이 성능과 비용 간의 적절한 균형점을 찾도록 돕습니다. 이 시스템은 주어진 질의에 대해 각 모델이 어떻게 수행할지(작은 언어 모델을 사용하여) 자동으로 예측한 다음, 그에 맞춰 요청을 라우팅합니다.

Deo는 “가끔 제가 보내는 질의는 매우 단순할 수 있습니다. 제가 정말로 매우 비싸고 느린 가장 강력한 모델로 그 질의를 보낼 필요가 있을까요? 아마 아닐 겁니다. 따라서 기본적으로 ‘들어오는 프롬프트를 기반으로, 실행 시점(at run time)에 적절한 질의를 적절한 모델로 보내야 한다’는 개념을 만드는 것이 목표입니다.”라고 설명했습니다.

물론 LLM 라우팅 자체가 새로운 개념은 아닙니다. Snowflake와 같은 스타트업과 다수의 오픈 소스 프로젝트들도 이 문제를 다루고 있지만, AWS는 자사 서비스의 차별점은 라우터가 인간의 개입 없이도 지능적으로 질의를 방향 지시할 수 있다는 점이라고 주장할 것입니다. 하지만 이 기능 역시 제한적이라는 한계가 있는데, 오직 동일 모델군(model family) 내의 모델로만 질의를 라우팅할 수 있기 때문입니다. 하지만 Deo는 장기적으로 팀이 이 시스템을 확장하여 사용자에게 더 많은 커스터마이징 옵션을 제공할 계획이라고 덧붙였습니다.

마지막으로, AWS는 Bedrock 전용 새로운 마켓플레이스도 출시합니다. Deo에 따르면, Amazon은 여러 대형 모델 제공업체와 파트너십을 맺고 있지만, 현재 소수의 전용 사용자만을 가질 수 있는 수백 개의 전문 모델들이 존재합니다. 이러한 고객들이 AWS에 지원을 요구함에 따라, AWS는 이러한 모델들을 위한 마켓플레이스를 열었습니다. 다만, 여기서 주요한 차이점은 사용자가 인프라 용량을 직접 프로비저닝하고 관리해야 한다는 점인데, 이는 Bedrock이 일반적으로 자동으로 처리하던 부분입니다. 총체적으로 AWS는 약 100개의 신흥 및 전문화된 모델을 제공할 예정이며, 추후 더 많은 모델이 추가될 계획입니다.

2024년 12월 3일 – 2024년 12월 6일

스토리라인에서:

AWS re:Invent 2024: Amazon 최대 이벤트 실시간 업데이트

Amazon의 re:invent 2024 컨퍼런스는 12월 6일까지 일련의 발표 및 기조연설을 위해 라스베이거스에 돌아옵니다. AI는…

[출처:] https://techcrunch.com/2024/12/04/aws-brings-prompt-routing-and-caching-to-its-bedrock-llm-service