Pruna AI, AI 모델 최적화 프레임워크 오픈 소스 공개

sw_reporter

유럽 스타트업 Pruna AI는 AI 모델용 압축 알고리즘을 연구해 온 회사로, 지난 목요일 자사 최적화 프레임워크를 오픈 소스로 공개했습니다.

Pruna AI는 캐싱(caching), 프루닝(pruning), 양자화(quantization), 증류(distillation) 등 다양한 효율화 기법을 주어진 AI 모델에 적용할 수 있는 프레임워크를 구축해 왔습니다.

Pruna AI의 공동 창업자이자 CTO인 존 라치완(John Rachwan)은 TechCrunch과의 인터뷰에서 "저희 프레임워크는 압축된 모델의 저장 및 로드 방식을 표준화할 뿐만 아니라, 이러한 압축 기법들을 조합하여 적용하고, 심지어 압축 과정 이후의 모델 평가까지 지원합니다"라고 설명했습니다.

특히 Pruna AI의 프레임워크는 모델 압축 후 발생할 수 있는 품질 손실의 정도와, 사용자가 실제로 얻을 수 있는 성능 향상 효과를 종합적으로 평가할 수 있는 것이 특징입니다.

라치완은 "비유하자면, 저희는 Hugging Face가 트랜스포머나 디퓨저 등의 기술 사용 방식을 표준화한 것과 유사합니다. 어떻게 호출하고, 저장하고, 로드해야 하는지에 대한 가이드라인을 정한 것이죠. 저희 역시 같은 일을 하지만, 초점을 맞춘 영역이 '효율화 기법'이라는 차이가 있습니다"라고 덧붙였습니다.

대형 AI 연구소들은 이미 다양한 압축 기법을 사용하고 있습니다. 예를 들어, OpenAI는 플래그십 모델의 속도 향상 버전을 구현하기 위해 증류(distillation) 기술에 크게 의존해 왔습니다.

이는 OpenAI가 GPT-4의 더 빠른 버전인 GPT-4 Turbo를 개발한 방식의 가능성이 높습니다. 유사하게, Black Forest Labs의 Flux.1 모델에서 파생된 이미지 생성 모델인 Flux.1-schnell 역시 증류된 버전입니다.

증류란 ‘교사-학생(teacher-student)’ 모델 구조를 활용하여 거대 AI 모델로부터 지식(knowledge)을 추출하는 기술입니다. 개발자는 먼저 교사 모델에 요청을 보내고 그 결과를 기록합니다. 이 답변들은 데이터셋과 비교되어 정확도를 검증하며, 이 출력을 바탕으로 학생 모델을 훈련시킵니다. 학생 모델은 궁극적으로 교사 모델의 동작을 근사하도록 학습됩니다.

라치완은 "대기업들이 보통 이런 것들을 내부적으로 구축하는 경향이 있습니다. 그래서 오픈 소스 세계에서 찾을 수 있는 도구들은 보통 단일 기법에 기반합니다. 예를 들어, LLM용 양자화 기법 하나라든가, 디퓨전 모델용 캐싱 방법 하나 같은 식입니다. 하지만 이 모든 것을 통합하고, 사용하기 쉽도록 표준화하여 결합할 수 있는 도구는 찾기 어렵습니다. 이것이 바로 현재 Pruna가 제공하는 핵심 가치입니다"라고 말했습니다.

좌측부터: Rayan Nait Mazi, Bertrand Charpentier, John Rachwan, Stephan Günnemann

Pruna AI는 대규모 언어 모델(LLM)부터 디퓨전 모델, 음성 인식 모델, 컴퓨터 비전 모델에 이르기까지 모든 종류의 모델을 지원하지만, 현재는 이미지 및 비디오 생성 모델에 더 중점을 두고 있습니다.

Pruna AI의 기존 고객사 일부로는 [사용처 삽입]와 PhotoRoom 등이 있습니다. 오픈 소스 버전 외에도, Pruna AI는 최적화 에이전트(optimization agent)를 포함한 고급 최적화 기능을 갖춘 엔터프라이즈(enterprise) 솔루션도 제공합니다.

라치완은 "곧 출시할 가장 기대되는 기능은 '압축 에이전트'입니다. 사용자에게 모델을 전달하고 '속도는 높이고 싶지만, 정확도는 2% 이상 떨어지면 안 된다'와 같이 요구사항을 제시하면, 이 에이전트가 최적의 결과를 도출합니다. 사용자가 별도로 신경 쓸 필요가 없습니다"라고 설명했습니다.

Pruna AI는 프로 버전 사용에 대해 시간당 비용을 청구합니다. 라치완은 "이는 AWS나 다른 클라우드 서비스에서 GPU를 임대하는 방식과 비슷합니다"라고 비유했습니다.

만약 사용자의 모델이 AI 인프라의 핵심 요소라면, 최적화된 모델을 활용하여 추론(inference) 비용을 크게 절감할 수 있습니다. 예를 들어, Pruna AI는 자체 압축 프레임워크를 통해 Llama 모델을 큰 손실 없이 여덟 배 더 작게 만들었습니다. Pruna AI는 자사 고객들이 이 압축 프레임워크를 비용 절감 효과가 확실한 '투자'로 인식해주기를 기대합니다.

Pruna AI는 몇 달 전 650만 달러 규모의 시드 펀딩 라운드를 유치했으며, 투자자로는 EQT Ventures, Daphni, Motier Ventures, Kima Ventures 등이 포함되어 있습니다.

[출처:] https://techcrunch.com/2025/03/20/pruna-ai-open-sources-its-ai-model-optimization-framework