OpenAI, 저렴하고 느린 AI 작업을 위한 Flex 처리 기능 출시

sw_reporter

경쟁사 AI 기업인 구글 등과 더욱 공격적으로 경쟁하기 위해 OpenAI가 새로운 API 옵션인 'Flex processing'을 출시합니다. 이 옵션은 응답 시간이 느려지고 "간헐적인 리소스 사용 불가"가 발생할 수 있다는 단점을 감수하는 대신, AI 모델 사용 비용을 낮춰줍니다.

OpenAI에 따르면, 최근 출시된 o3 및 o4-mini 추론(reasoning) 모델에서 베타로 제공되는 Flex processing은 모델 평가, 데이터 풍부화, 비동기 워크로드 등 우선순위가 낮거나 "비운영(non-production)" 목적의 작업에 적합합니다.

이 기능을 사용하면 API 비용이 정확히 절반으로 줄어듭니다. 구체적으로, o3의 경우 Flex processing 적용 시 입력 토큰 백만당 5달러(약 75만 단어)와 출력 토큰 백만당 20달러가 부과되며, 이는 표준 가격인 입력 토큰 백만당 10달러, 출력 토큰 백만당 40달러와 비교됩니다. o4-mini의 경우, Flex를 적용하면 가격이 입력 토큰 백만당 0.55달러, 출력 토큰 백만당 2.20달러로 낮아지며, 이는 기존 가격인 입력 토큰 백만당 1.10달러, 출력 토큰 백만당 4.40달러에서 절감된 금액입니다.

이러한 'Flex processing'의 등장은 프론티어 AI 모델의 가격이 지속적으로 상승하고 경쟁사들이 저렴하고 효율적인 예산형 모델을 출시하는 시장 상황에 따른 것입니다. 실제로 목요일 구글은 Gemini 2.5 Flash를 출시했는데, 이는 낮은 입력 토큰 비용으로 DeepSeek의 R1 모델과 성능 면에서 맞먹거나 능가하는 추론 모델입니다.

Flex 가격 출시를 알리는 고객 대상 이메일에서 OpenAI는 또한 사용 등급 계층 1~3단계의 개발자가 o3에 접근하려면 새로 도입된 신분증(ID) 인증 절차를 완료해야 한다고 밝혔습니다. 사용 등급은 OpenAI 서비스에 지출하는 금액에 따라 결정됩니다. 아울러, o3를 포함한 다른 모델들의 추론 요약 및 스트리밍 API 지원 기능 역시 인증 절차를 거쳐야 이용 가능합니다.

OpenAI는 ID 인증이 악의적인 행위자가 사용 정책을 위반하는 것을 막기 위한 목적이라고 이전에 밝힌 바 있습니다.

[출처:] https://techcrunch.com/2025/04/17/openai-launches-flex-processing-for-cheaper-slower-ai-tasks