OpenAI의 새로운 GPT-4.1 AI 모델, 코딩에 집중

sw_reporter

OpenAI가 지난 월요일, GPT-4.1이라는 새로운 모델군을 출시하며 업계의 주목을 받고 있다. 이명명법(nomenclature)이 이미 복잡하다는 지적이 나오는 가운데, '4.1'이라는 버전 명칭이 더해져 혼란을 가중시키기도 했다.

새롭게 공개된 모델군은 GPT-4.1, GPT-4.1 mini, 그리고 GPT-4.1 nano 세 가지로 구성되어 있으며, OpenAI는 이 모델들이 코딩 및 지침(instruction) 이행 작업에서 "탁월한 성능"을 보인다고 밝혔다. 이 모델들은 OpenAI의 API를 통해 접근 가능하지만, 채팅 인터페이스인 ChatGPT를 통해서는 제공되지 않는다. 이 멀티모달 모델들은 100만 토큰 컨텍스트 윈도우를 갖추고 있어, 한 번에 약 75만 단어(소설 『전쟁과 평화』보다 많은 분량)의 정보를 처리할 수 있다는 것이 특징이다.

GPT-4.1이 등장한 시점은 구글(Google)이나 Anthropic 등 주요 경쟁사들이 정교한 프로그래밍 모델 개발에 박차를 가하고 있는 상황과 맞물린다. 구글이 최근 출시한 Gemini 2.5 Pro 역시 100만 토큰 컨텍스트 윈도우를 제공하며, 인기 코딩 벤치마크에서 높은 순위를 기록했다. Anthropic의 Claude 3.7 Sonnet과 중국 AI 스타트업 DeepSeek이 업그레이드한 V3 역시 이와 유사한 경쟁력을 갖추고 있다.

OpenAI를 포함한 많은 기술 거대 기업들의 공통된 목표는 복잡한 소프트웨어 엔지니어링 작업까지 수행할 수 있는 AI 코딩 모델을 훈련시키는 것이다. OpenAI는 지난달 런던 기술 정상회의에서 CFO 사라 프라이어(Sarah Friar)가 언급했듯이, 궁극적으로는 품질 보증(QA), 버그 테스트, 문서 작성 등 전반적인 과정을 처리하는 "에이전트형 소프트웨어 엔지니어(agentic software engineer)"를 만드는 것이 목표다. 회사는 향후 모델이 전체 애플리케이션을 엔드투엔드(end-to-end)로 프로그래밍할 수 있을 것이라고 자신한다.

GPT-4.1은 이러한 목표를 향한 중요한 진전으로 평가된다.

OpenAI 대변인은 TechCrunch에 이메일을 통해 "개발자들이 가장 중요하게 여기는 영역, 즉 프론트엔드 코딩, 불필요한 수정 감소, 형식 준수, 일관된 응답 구조 유지, 정확한 도구 사용 등 개발자의 실제 피드백을 반영하여 GPT-4.1을 최적화했다"고 전했다. 대변인은 "이러한 개선 사항들은 개발자들이 현실 세계의 소프트웨어 엔지니어링 작업에 훨씬 더 뛰어난 에이전트를 구축할 수 있도록 돕는다"고 덧붙였다.

OpenAI는 전체 GPT-4.1 모델이 SWE-bench를 포함한 코딩 벤치마크에서 자사의 GPT-4o 및 GPT-4o mini 모델보다 우수한 성능을 보인다고 주장한다. 반면, GPT-4.1 mini와 GPT-4.1 nano 모델은 정확도 면에서 다소 희생하는 대신 효율성과 속도를 극대화했다. 특히 GPT-4.1 nano는 OpenAI가 개발한 모델 중 가장 빠르고 저렴한 모델이라고 강조했다.

가격 정책 측면에서, GPT-4.1은 입력 토큰 100만 개당 2달러, 출력 토큰 100만 개당 8달러가 부과된다. GPT-4.1 mini는 입력 토큰 100만 개당 0.40달러, 출력 토큰 100만 개당 1.60달러이며, GPT-4.1 nano는 입력 토큰 100만 개당 0.10달러, 출력 토큰 100만 개당 0.40달러가 책정되었다.

OpenAI의 자체 테스트 결과에 따르면, GPT-4.1은 GPT-4o(32,768 토큰)보다 더 많은 토큰을 한 번에 생성할 수 있는 능력(16,384 토큰)을 보여, SWE-bench Verified(SWE-bench의 인간 검증된 하위 세트)에서 52%에서 54.6% 사이의 점수를 기록했다. (OpenAI는 블로그 게시물에서 SWE-bench Verified 문제의 일부 솔루션이 자체 인프라에서 실행되지 않아 점수 범위가 발생했다고 언급했다.) 이 점수는 동일 벤치마크에서 Google의 Gemini 2.5 Pro(63.8%) 및 Anthropic의 Claude 3.7 Sonnet(62.3%)이 보고한 점수보다 약간 낮은 수준이다.

한편, OpenAI는 별도의 평가에서 GPT-4.1을 영상 콘텐츠의 이해도를 측정하는 Video-MME에 활용했다. 이 결과, GPT-4.1이 "긴 길이의 자막 없는(long, no subtitles)" 비디오 카테고리에서 72%라는 최고 점수를 달성했다고 OpenAI는 발표했다.

GPT-4.1은 벤치마크에서 상당히 좋은 점수를 받았고, 지식 마감일(knowledge cutoff)이 더 최신(2024년 6월까지)이라는 장점을 가지고 있다. 하지만 동시에 전문가들도 어려움을 겪는 부분이 있듯이, 완벽한 성능은 아니라는 점을 인지해야 한다.

최근 연구는 인공지능의 예측 불가능성을 강조하며, 모델의 취약점을 발견하는 것이 중요함을 역설한다.

[자연스럽게 다듬어진 최종본]

[출처:] https://techcrunch.com/2025/04/14/openais-new-gpt-4-1-models-focus-on-coding