AI '추론' 모델의 부상, 벤치마킹 비용 증가 초래

sw_reporter

OpenAI 같은 AI 연구소들은 소위 '추론(reasoning)' AI 모델이 물리와 같은 특정 영역에서 문제를 단계적으로 '사고'할 수 있다는 이유로, 비추론 모델보다 더 우수하다고 주장합니다. 하지만 실제로 이러한 성능 향상이 두드러지게 나타난다 하더라도, 추론 모델을 벤치마킹하는 데 드는 비용이 매우 높아 독립적인 검증을 어렵게 만드는 문제가 있습니다.

제3자 AI 테스트 기관인 Artificial Analysis의 데이터에 따르면, 이 회사가 MMLU-Pro, GPQA Diamond, Humanity’s Last Test, 그리고 기타 여러 평가를 포함한 여러 평가를 수행했을 때, 추론 모델은 2,500달러가 넘는 비용이 들었습니다. 반면, 일반 모델은 200달러가 채 들지 않았습니다.

또한, OpenAI가 최신 모델의 능력을 과장하여 홍보하는 경향이 있으며, 이는 기술 산업에 대한 일반 대중의 기대치를 부풀리는 데 기여하고 있습니다.

Revised Cohesive Analysis:

최근 AI 기술 업계에서는 최신 모델들의 뛰어난 성능을 홍보하며 높은 기대치를 형성하고 있습니다. 그러나 실제 능력과 그에 따르는 비용 및 검증 문제는 복합적인 양상을 보이고 있습니다.

한 조사에 따르면, 최신 모델의 능력을 테스트하고 검증하는 데 드는 비용이 매우 높아, 일반적인 능력을 가진 모델을 비교할 때 현격한 격차가 나타납니다. 예를 들어, 최첨단 모델의 능력을 테스트하는 과정에서 발생하는 비용은 수천 달러에 달하는 반면, 그보다 단순한 능력을 가진 모델의 테스트 비용은 수백 달러 수준에 머물기도 합니다.

이러한 현상은 다음과 같은 문제점을 제기합니다:

1. 과도한 기대치 형성:
업계는 종종 최신 모델의 능력을 과대 포장하여 홍보하는 경향이 있습니다. 이는 기술의 잠재력을 극대화하여 보여주지만, 동시에 일반 대중과 투자자들이 AI 기술에 대해 비현실적인 기대감을 갖게 만드는 요인이 됩니다.

2. 검증 비용의 격차:
모델의 복잡성과 최신성 자체가 높은 검증 비용을 초래합니다. 즉, 최고 수준의 성능을 입증하려면 막대한 자원이 투입되어야 하므로, 기술의 진정한 가치 검증 과정 자체가 경제적 장벽이 될 수 있습니다.

3. 기술의 실용적 분리:
궁극적으로 기술의 홍보는 '최고 성능'에 초점을 맞추어, 실제 산업 현장에서 당장 필요한 '합리적 수준의 성능'과 '비용 효율성'이라는 실용적인 가치를 간과하게 만들 위험이 있습니다.

결론적으로, AI 기술의 발전은 놀랍지만, 기술 주도 기업들은 성능의 화려함에 집중하여 사용자가 이해하기 쉬운 현실적 비용 분석과 객관적인 능력 검증 과정을 투명하게 공개할 필요가 있습니다.

[출처:] https://techcrunch.com/2025/04/10/the-rise-of-ai-reasoning-models-is-making-benchmarking-more-expensive