목요일, OpenAI는 '전문 업무에 가장 유능하고 효율적인 프론티어 모델'이라고 소개한 새로운 기반 모델인 GPT-5.4를 출시했습니다. 표준 버전 외에도 사용자는 추론 모델(GPT-5.4 Thinking) 또는 고성능에 최적화된 버전(GPT-5.4 Pro)으로 GPT-5.4를 이용할 수 있습니다.
이 모델의 API 버전은 최대 100만 토큰에 달하는 컨텍스트 창을 제공하며, 이는 OpenAI가 제공하는 컨텍스트 창 중 단연 가장 큰 용량입니다.
OpenAI는 GPT-5.4의 토큰 효율성 개선을 강조하며, 이 모델이 이전 버전에 비해 훨씬 적은 토큰으로도 동일한 문제들을 해결할 수 있다고 밝혔습니다.
GPT-5.4는 컴퓨터 활용 벤치마크인 OSWorld-Verified와 WebArena Verified에서 기록적인 점수를 포함하여 눈에 띄게 향상된 벤치마크 결과를 보여주었습니다. 또한, 지식 작업 과제를 다룬 OpenAI의 GDPval 테스트에서 기록적인 83%를 기록하며 우수한 성능을 입증했습니다.
한편, GPT-5.4는 법률 및 금융 분야의 전문 기술을 측정하도록 설계된 Mercor의 APEX-Agents 벤치마크에서도 선두를 차지했습니다. 이는 Mercor CEO 브렌던 푸디(Brendan Foody)의 성명을 통해 발표되었습니다. 푸디는 성명에서 "[GPT-5.4]는 슬라이드 덱, 재무 모델, 법률 분석 같은 장기 범위의 결과물을 생성하는 데 탁월하며, 경쟁 프론티어 모델보다 빠르고 낮은 비용으로 최고 수준의 성능을 제공합니다."라고 언급했습니다.
GPT-5.4는 모델의 환각(hallucinations) 및 사실적 오류를 제한하려는 OpenAI의 지속적인 노력의 일환입니다. OpenAI에 따르면, 신규 모델은 개별 주장에서 오류를 범할 확률이 GPT 5.2 대비 33% 낮았으며, 전반적인 응답에서 오류를 포함할 확률 역시 18% 감소했습니다.
이번 출시와 함께 OpenAI는 GPT-5.4의 API 버전이 도구 호출(tool calling)을 처리하는 방식을 전면 개편하여 'Tool Search'라는 새로운 시스템을 도입했습니다. 이전에는 모델을 호출할 때 시스템 프롬프트가 사용 가능한 모든 도구의 정의를 일일이 나열해야 했기 때문에, 사용 가능한 도구 수가 많아질수록 많은 토큰을 소모하는 단점이 있었습니다. 새로운 시스템은 모델이 필요할 때만 도구 정의를 검색할 수 있게 함으로써, 사용 가능한 도구가 많은 환경에서도 더 빠르고 저렴한 요청 처리가 가능하도록 개선되었습니다.
또한 OpenAI는 모델의 사고 과정(chain-of-thought, CoT)을 테스트하기 위한 새로운 안전성 평가를 추가했습니다. 사고 과정이란 모델이 다단계 작업을 수행하며 추론 과정을 보여주는 일종의 진행 중인 주석(running commentary)입니다. AI 안전 연구원들은 추론 모델이 이 사고 과정을 왜곡할 수 있다는 우려를 오랫동안 제기해 왔으며, 테스트 결과가 이러한 우려를 뒷받침합니다.
OpenAI의 새로운 평가는 GPT-5.4 Thinking 버전에서 기만 행위가 발생할 가능성이 낮다는 것을 보여주었습니다. 이는 "모델이 자신의 추론 과정을 숨기는 능력이 부족하며, CoT 모니터링이 여전히 효과적인 안전 도구로 기능함을 시사한다"고 설명했습니다.
[출처:] https://techcrunch.com/2026/03/05/openai-launches-gpt-5-4-with-pro-and-thinking-versions