AI는 소프트웨어 개발 방식 자체에 이미 거대한 영향을 미치고 있으며, 프로그래밍의 많은 기초 작업은 이제 에이전트(agent)와 서브에이전트 군집을 통해 수행되고 있습니다. 그러나 개발자들이 인간과 AI의 협업을 위한 새로운 인터페이스와 폼팩터를 실험함에 따라, 최첨단 AI 연구소들마저 이를 따라가기 어려워지고 있습니다.
현재의 주요 트렌드는 AI 에이전트가 코딩 작업을 독립적으로 수행하는 '에이전트 소프트웨어 개발'입니다. 이 분야는 Claude Code와 Cowork 앱이 대표적입니다. 한편, OpenAI는 코덱스(Codex) 도구를 점진적으로 구축해 왔으며, 이 도구는 지난 4월에 커맨드라인(command line) 도구로 처음 출시된 뒤 한 달 만에 웹 인터페이스로 확장되었습니다.
이제 OpenAI가 시장 추격에 나섰습니다. 지난 월요일, 이 회사는 코덱스용 새로운 macOS 앱을 출시하며, 지난 1년간 인기를 얻은 여러 에이전트 기능을 통합했습니다. 이 신규 앱은 여러 에이전트를 병렬로 구동하도록 설계되었으며, 에이전트 기능과 기타 최첨단 워크플로우를 결합했습니다. 이러한 출시는 또한 OpenAI의 가장 강력한 코딩 모델인 GPT-5.2-Codex가 공개된 지 두 달도 채 되지 않은 시점에 이루어졌습니다. OpenAI는 이 모델이 Claude Code 사용자들을 충분히 유혹할 수 있으리라 기대하고 있습니다.
샘 올트만 CEO는 기자회견에서 "만약 복잡하고 정교한 작업이 필요하다면, GPT-5.2가 단연코 가장 강력한 모델입니다"라고 말했습니다. 그는 덧붙여 "다만, 사용성이 어려웠기 때문에, 그러한 최고 수준의 모델 능력을 가져와 더 유연한 인터페이스에 통합하는 것이 매우 중요하다고 생각합니다"라고 강조했습니다.
올트만의 GPT-5.2에 대한 자신감은 이해할 만하지만, 코딩 벤치마크 결과는 더 복잡한 이야기를 전합니다. GPT-5.2는 적어도 보도 시점 기준으로 TerminalBench(AI의 커맨드라인 프로그래밍 작업 처리 능력을 측정하는 테스트)에서 1위를 차지했습니다. 하지만 Gemini 3와 Claude Opus의 에이전트들이 유사한 점수를 기록하며, 이 점수는 벤치마크의 오차 범위 내에 머무르는 수준이었습니다. 또한, AI의 실제 소프트웨어 버그 수정 능력을 테스트하는 또 다른 코딩 벤치마크인 SWE-bench 결과 역시 유사하여 GPT-5.2의 명확한 우위를 보여주지 못했습니다. 다만, 에이전트 활용 사례는 벤치마크하기가 까다롭고, 최첨단 모델마다 사용자 경험(UX)에 상당한 차이가 나타날 수 있습니다.
코덱스 앱은 또한 다양한 Claude 앱과 동등하거나 경우에 따라 앞설 수 있도록 돕는 여러 신규 기능을 제공합니다. 코덱스 앱을 이용하면 자동 스케줄링을 통해 백그라운드에서 실행되는 자동화 작업을 설정할 수 있으며, 그 결과물은 사용자가 돌아올 때 검토할 수 있는 대기열에 배치됩니다. 또한, 사용자는 작업 스타일에 따라 에이전트의 개성(personality)을 실용적인 스타일부터 공감적인 스타일까지 선택할 수 있습니다.
하지만 회사 입장에서 가장 큰 강점은 AI가 가능하게 한 '개발 속도' 그 자체입니다. 올트만은 "깨끗한 백지 상태에서, 완전히 새로운 것부터 단 몇 시간 만에 매우 정교한 소프트웨어를 만들 수 있습니다"라며, "제가 새로운 아이디어를 구상하는 속도가 곧 구축할 수 있는 한계치입니다"라고 말했습니다.
[출처:] https://techcrunch.com/2026/02/02/openai-launches-new-macos-app-for-agentic-coding