AI 인프라 비용을 논할 때 보통 Nvidia와 GPU에 초점이 맞춰지지만, 메모리가 점점 더 중요해지는 핵심 요소가 되고 있습니다. 하이퍼스케일러들이 수십억 달러 규모의 새로운 데이터 센터 구축을 준비하면서, DRAM 칩 가격은 지난 1년 동안 약 7배 급등했습니다.
이와 동시에, 이 모든 메모리를 효율적으로 오케스트레이션하여 적절한 데이터가 필요한 시점에 적절한 에이전트에게 전달되도록 관리하는 전문성이 요구되고 있습니다. 이를 능숙하게 다루는 기업들이 같은 질의응답을 훨씬 적은 토큰으로 처리할 수 있게 되는데, 이는 기업 존속 여부를 가를 수 있는 결정적인 차이가 됩니다.
반도체 분석가인 Doug O’Laughlin은 자신의 Substack을 통해 Weka의 최고 AI 책임자(chief AI officer)인 Val Bercovici와 메모리 칩의 중요성에 대해 흥미로운 통찰을 공유했습니다. 두 사람 모두 반도체 분야의 전문가이기에, 논의는 광범위한 아키텍처보다는 칩 자체에 집중되어 있으며, 이는 AI 소프트웨어 전반에 걸쳐 중대한 함의를 가집니다.
저는 특히 Bercovici가 Anthropic의 프롬프트 캐싱(prompt-caching) 문서를 분석하는 부분이 인상 깊었습니다.
그 단서를 확인하려면 Anthropic의 프롬프트 캐싱 가격 책정 페이지를 살펴보는 것입니다. 6~7개월 전만 해도 매우 단순한 페이지였고, 특히 Claude Code가 출시될 무렵에는 그 정도였습니다. "캐싱을 사용하면 더 저렴하다"라는 단순한 안내 수준이었습니다. 그런데 지금은 정확히 얼마나 많은 캐시 쓰기(cache writes)를 선구매해야 하는지에 대한 조언이 담긴 백과사전 같습니다. 업계에서 흔히 사용되는 5분 간격의 티어(tiers)나 1시간 간격의 티어가 존재하며, 그 이상의 단위는 보이지 않습니다. 이 자체가 매우 중요한 단서입니다. 물론, 선구매한 캐시 쓰기 횟수에 기반한 캐시 읽기(cache reads) 가격 책정에서 온갖 차익 거래 기회(arbitrage opportunities)가 존재합니다.
여기서 핵심 질문은 Claude가 사용자의 프롬프트를 캐시 메모리에 얼마나 오래 보관하느냐입니다. 5분 단위의 기간에 대한 비용을 지불할 수도 있고, 1시간 단위의 더 긴 기간에 대해 더 많은 비용을 지불할 수도 있습니다. 캐시에 이미 존재하는 데이터를 활용하는 것이 훨씬 저렴하기 때문에, 관리를 잘하면 막대한 비용 절감이 가능합니다. 하지만 주의할 점이 있습니다. 쿼리에 새로운 데이터 조각을 추가할 때마다, 기존에 있던 다른 무언가가 캐시 창 밖으로 밀려나게 됩니다.
이는 복잡한 주제이지만 결론은 간단합니다. 앞으로 AI 모델에서 메모리를 관리하는 것이 중요한 부분을 차지할 것입니다. 이를 성공적으로 수행하는 기업들이 시장의 주도권을 잡을 것입니다.
그리고 이 새로운 분야에는 발전할 여지가 충분합니다. 지난 10월에는 캐시 최적화(cache optimization)라는 스택의 한 계층을 다루는 Tensormesh라는 스타트업에 대해 보도한 바 있습니다.
스택의 다른 부분에도 기회가 존재합니다. 예를 들어, 스택 하단부에서는 데이터 센터들이 보유한 다양한 유형의 메모리를 어떻게 활용하는지에 대한 질문이 제기됩니다. (인터뷰에는 DRAM 칩이 HBM 대신 사용되는 경우에 대한 심도 있는 논의가 포함되어 있지만, 이는 하드웨어 영역 중에서도 상당히 깊은 부분입니다.) 스택 상단부에서는 최종 사용자들이 공유 캐시의 이점을 최대한 활용하기 위해 모델 스웜(model swarms)을 어떻게 구성할지 탐구하고 있습니다.
기업들이 메모리 오케스트레이션에 능숙해질수록, 모델들은 더 적은 토큰을 사용하게 되고 추론 비용(inference)은 더욱 저렴해질 것입니다. 한편, 모델 자체도 토큰당 처리 효율성이 높아지면서 비용 하락을 가속화하고 있습니다. 서버 비용이 지속적으로 하락함에 따라, 지금은 실현 불가능해 보이던 많은 애플리케이션들이 수익성 구간으로 진입하기 시작할 것입니다.
[출처:] https://techcrunch.com/2026/02/17/running-ai-models-is-turning-into-a-memory-game