OpenAI의 Codex, 새로운 에이전트 코딩 도구군에 합류/포함되다

sw_reporter

지난주 금요일, OpenAI는 자연어 명령만으로 복잡한 프로그래밍 작업을 수행하도록 설계된 새로운 코딩 시스템인 Codex를 공개했습니다. Codex의 등장은 OpenAI를 이제 막 형성되기 시작한 '에이전트형 코딩 도구(agentic coding tools)'라는 새로운 영역으로 이끌고 있습니다.

GitHub의 초기 Copilot부터 Cursor, Windsurf와 같은 현대적인 도구들에 이르기까지, 대부분의 AI 코딩 어시스턴트는 극도로 지능적인 자동 완성 기능의 형태를 띱니다. 이 도구들은 일반적으로 통합 개발 환경(IDE) 내에서 작동하며, 사용자는 AI가 생성한 코드를 직접 다룹니다. 단순히 작업을 할당하고 완료될 때까지 기다리는 방식은 아직은 실현하기 매우 어려운 단계입니다.

하지만 SWE-Agent, OpenHands, OpenAI Codex 등의 제품들로 대표되는 새로운 에이전트형 코딩 도구들은 사용자가 코드를 볼 필요 없이 작동하도록 설계되었습니다. 이들의 목표는 엔지니어링 팀 매니저처럼 작동하여, Asana나 Slack과 같은 업무 시스템을 통해 이슈를 할당하고, 해결책이 도출되었을 때만 보고하는 것입니다.

이는 고도로 유능한 AI 형태를 신뢰하는 이들에게, 자동화가 점차 많은 소프트웨어 개발 영역을 대체해나가는 과정에서 다음 논리적인 단계로 여겨집니다.

프린스턴 연구원이자 SWE-Agent 팀의 멤버인 Kilian Lieret은 "과거에는 개발자들이 모든 키 입력을 직접 치면서 코드를 작성했습니다"라며, "GitHub Copilot은 실제로 자동 완성을 제공한 최초의 제품이었는데, 이는 일종의 2단계에 불과합니다. 사용자가 여전히 완전히 개입해야 하지만, 가끔 단축키를 사용할 수 있게 된 정도입니다."라고 설명했습니다.

에이전트 시스템의 최종 목표는 개발자 환경을 완전히 넘어, 코딩 에이전트에게 이슈를 제시하고 스스로 해결하도록 맡기는 것입니다. Lieret은 "우리는 관리 계층(management layer)으로 돌아가서, 제가 단순히 버그 리포트를 할당하기만 하면 봇이 이를 완전히 자율적으로 해결하려고 시도합니다"라고 말합니다.

이는 야심찬 목표이며, 지금까지는 구현에 어려움을 겪어왔습니다.

Devin이 2024년 말에 일반 사용자에게 공개된 후, 유튜브 평론가들로부터 혹평을 받았을 뿐만 아니라 Answer.AI의 초기 고객들로부터도 좀 더 신중한 비판에 직면했습니다. 전반적인 반응은 '직관적 코딩(vibe-coding)' 경험이 있는 전문가들에게 익숙한 것이었습니다. 너무 많은 오류 때문에, 모델을 감시하는 작업 자체가 수동으로 개발 작업을 수행하는 것만큼 많은 노동력을 필요로 한다는 것이었습니다. (Devin의 배포 과정은 순탄치 않았지만, 이로 인해 투자자들의 잠재력 인식이 막히지는 않았습니다. 실제로 3월에 Devin의 모회사인 Cognition AI는 40억 달러의 기업 가치를 인정받아 수억 달러를 모금한 것으로 알려졌습니다.)

기술 지지자들조차도 무감독(unsupervised) '직관적 코딩'에 경고를 보내며, 새로운 코딩 에이전트를 인간의 감독이 필요한 개발 프로세스 내에서 강력한 요소로 규정하고 있습니다.

OpenHands를 개발한 All Hands AI의 CEO인 Robert Brennan은 "현재, 그리고 가까운 미래에도, 코드를 검토하는 단계에서는 사람이 개입하여 에이전트가 작성한 코드를 반드시 확인해야 합니다"라고 말합니다. "에이전트가 작성하는 코드의 모든 부분을 자동 승인하다가 스스로 곤란에 처하는 사람들을 여러 번 본 적이 있습니다. 상황이 매우 빠르게 통제 불능 상태가 됩니다."

환각(Hallucinations) 문제 역시 끊임없는 과제입니다. 브레넌은 OpenHands 에이전트의 훈련 데이터가 중단된 이후에 출시된 API에 대해 질문했을 때, 에이전트가 설명에 들어맞는 가상의 API 세부 정보를 꾸며냈던 사건을 언급했습니다. All Hands AI는 이러한 환각이 피해를 일으키기 전에 포착하는 시스템을 개발 중이라고 밝혔으나, 간단하게 해결할 방법은 없습니다.

논란의 여지가 있지만, 에이전트형 프로그래밍의 진척도를 측정하는 가장 객관적인 지표는 SWE-Bench 리더보드입니다. 이곳에서 개발자들은 공개된 GitHub 저장소의 해결되지 않은 이슈 세트를 대상으로 자신들의 모델을 테스트할 수 있습니다. 현재 OpenHands가 검증된 리더보드에서 1위를 차지하며 문제 세트의 65.8%를 해결했습니다. OpenAI는 Codex를 구동하는 모델 중 하나인 codex-1이 더 높은 성능을 보일 수 있다고 주장하며, 발표에서 72.1%라는 점수를 제시했으나, 이 점수는 몇 가지 조건이 붙었으며 독립적으로 검증된 것은 아닙니다.

기술 업계의 많은 이들이 우려하는 바는 높은 벤치마크 점수가 반드시 진정으로 '손대지 않아도 되는(hands-off)' 에이전트 코딩 능력으로 이어지지는 않는다는 것입니다. 만약 에이전트 코더가 네 문제 중 세 문제만을 해결할 수 있다면, 특히 여러 단계로 구성된 복잡한 시스템을 다룰 때는 인간 개발자의 상당한 감독이 필요할 것입니다.

대부분의 AI 도구와 마찬가지로, 모두가 기대하는 바는 기반 모델(foundation models)의 개선이 꾸준한 속도로 진행되어, 궁극적으로 에이전트 코딩 시스템이 신뢰할 수 있는 개발자 도구로 성장하는 것입니다. 하지만 그 목표에 도달하기 위해서는 환각 및 기타 신뢰성 문제를 관리하는 방법을 찾는 것이 핵심이 될 것입니다.

브레넌은 "어떤 '음속 장벽 효과(sound barrier effect)'가 있는 것 같습니다. 중요한 질문은, 하루의 끝에 에이전트가 개발자의 업무량 중 얼마나 많은 부분을 대신 처리할 수 있도록 우리가 신뢰를 이전할 수 있느냐입니다"라고 말합니다.

[출처:] https://techcrunch.com/2025/05/20/openais-codex-is-part-of-a-new-cohort-of-agentic-coding-tools