
Google이 Gemini API에 새로운 기능을 도입하며, 이를 통해 자사의 최신 AI 모델을 서드파티 개발자들이 보다 저렴하게 사용할 수 있게 될 것이라고 밝혔습니다.
구글은 이 기능을 '암시적 캐싱(implicit caching)'이라 명명하며, Gemini API를 통해 모델에 전달되는 '반복 컨텍스트(repetitive context)'에 대해 최대 75%의 비용 절감 효과를 제공할 수 있다고 설명했습니다. 이 기능은 Google의 Gemini 2.5 Pro 및 2.5 Flash 모델을 지원합니다.
이는 최신(frontier) 모델 사용 비용이 지속적으로 상승하는 상황에서 개발자들에게 환영할 만한 소식이 될 것으로 기대됩니다.
— Logan Kilpatrick (@OfficialLoganK)
2025년 5월 8일
"Gemini API에 암시적 캐싱을 출시했습니다. 요청이 캐시에 도달할 경우 Gemini 2.5 모델 사용 비용을 자동으로 75% 절감할 수 있습니다
또한 2.5 Flash와 2.5 Pro 모델의 캐시 적중을 위한 최소 토큰 요구량을 각각 1K와 2K로 낮췄습니다!"
AI 업계에서 널리 활용되는 캐싱(Caching) 기법은 모델이 자주 접근하거나 사전에 계산된 데이터를 재사용하여 컴퓨팅 요구량과 비용을 절감하는 방식입니다. 예를 들어, 캐시는 사용자들이 모델에 자주 묻는 질문에 대한 답변을 저장함으로써, 모델이 동일 요청에 대해 답변을 재처리할 필요를 없애줍니다.
구글은 이전에 모델 프롬프트 캐싱을 제공했으나, 오직 '명시적(explicit)' 방식만 지원했습니다. 개발자들은 가장 자주 사용하는 프롬프트를 직접 정의해야 했으며, 비용 절감이 보장된다고 했음에도 불구하고 명시적 프롬프트 캐싱은 상당한 수동 작업을 필요로 했습니다.
실제로 일부 개발자들은 Gemini 2.5 Pro 모델에 대한 구글의 명시적 캐싱 구현 방식에 대해 만족하지 못했습니다. 해당 방식이 예상보다 큰 API 청구서를 유발할 수 있다는 지적이 나왔고, 지난주 동안 관련 불만이 높아지자 구글 Gemini 팀은 사과하고 개선을 약속했습니다.
반면, 암시적 캐싱은 자동화된 방식입니다. Gemini 2.5 모델에 기본 활성화된 이 기능은 Gemini API 요청이 모델의 캐시에 적중(hits)할 경우 비용 절감 효과를 자동으로 적용합니다.
구글은 블로그 게시물을 통해 "Gemini 2.5 모델 중 하나로 요청을 보낼 때, 해당 요청이 이전 요청 중 하나와 공통 접두사(common prefix)를 공유한다면 캐시 적중이 가능하며, 저희가 비용 절감액을 자동으로 사용자에게 돌려드리겠습니다"라고 설명했습니다.
구글 개발자 문건에 따르면, 암시적 캐싱의 최소 프롬프트 토큰 수는 2.5 Flash의 경우 1,024개, 2.5 Pro의 경우 2,048개입니다. 이는 그리 큰 수치가 아니므로 자동 절감 효과를 발생시키는 데 큰 어려움이 없다는 의미입니다. 토큰은 모델이 처리하는 기본 데이터 단위이며, 토큰 1,000개는 약 750단어에 해당합니다.
한편, 구글이 캐싱을 통해 비용 절감을 주장했던 이전 사례에서 논란이 있었던 점을 감안할 때, 이 새로운 기능에는 몇 가지 주의할 점이 있습니다. 첫째, 구글은 개발자들에게 암시적 캐시 적중 가능성을 높이려면 반복되는 컨텍스트를 요청의 시작 부분에 배치할 것을 권장합니다. 회사 측은 요청마다 변경될 수 있는 컨텍스트는 끝에 추가해야 한다고 조언했습니다.
둘째, 구글은 새로운 암시적 캐싱 시스템이 약속된 자동 절감 효과를 실제로 제공한다는 제3자 검증은 제공하지 않았습니다. 따라서 초기 사용자들의 실제 사용 후기를 지켜보는 것이 중요할 것으로 보입니다.