앤트로픽은 월요일에 자사의 플래그십 모델인 Opus 4.5를 발표했다. 이는 앤트로픽의 4.5 시리즈 모델 중 마지막으로 출시되는 제품으로, 지난 9월 Sonnet 4.5가, 10월 Haiku 4.5가 순차적으로 출시된 데 따른 것이다.
예상대로, Opus의 새 버전은 코딩 벤치마크(SWE-Bench 및 Terminal-bench), 도구 사용(tau2-bench 및 MCP Atlas), 일반 문제 해결(ARC-AGI 2, GPQA Diamond) 등 광범위한 벤치마크에서 최첨단 성능을 입증했다.
특히 Opus 4.5는 공신력 높은 코딩 벤치마크인 SWE-Bench verified에서 80% 이상의 점수를 기록한 최초의 모델이라는 점이 주목할 만하다.
앤트로픽은 또한 Opus의 컴퓨터 사용 및 스프레드시트 기능을 강조하며, 해당 환경에서 모델의 성능을 보여주기 위해 여러 보조 제품을 출시했다. Opus 4.5와 함께 앤트로픽은 기존 파일럿 단계에 있던 Claude for Chrome과 Claude for Excel 제품을 보다 폭넓게 이용할 수 있도록 할 예정이다. 크롬 확장 프로그램은 모든 Max 사용자에게 제공되며, 엑셀 중심 모델은 Max, Team, Enterprise 사용자에게 제공된다.
Opus 4.5는 장기 컨텍스트 작업을 위한 메모리 개선 사항도 함께 제공하는데, 이는 모델이 메모리를 관리하는 방식에 상당한 변화를 요구했기 때문이다.
앤트로픽의 연구 제품 관리 책임자인 Dianne Na Penn은 TechCrunch과의 인터뷰에서 “Opus 4.5로 훈련하면서 일반적인 장기 컨텍스트 품질은 개선되었지만, 컨텍스트 창 자체만으로는 충분하지 않습니다”라고 말했다. 이어 “단순히 긴 컨텍스트 창을 갖는 것뿐 아니라, 어떤 세부 정보를 기억하는지 아는 능력이 매우 중요합니다”라고 덧붙였다.
이러한 변화를 통해 유료 Claude 사용자에게 오랫동안 요청되었던 '무한 채팅(endless chat)' 기능이 활성화되었다. 이 기능 덕분에 모델이 컨텍스트 창에 도달하더라도 채팅이 끊김 없이 계속 진행될 수 있으며, 모델은 사용자에게 알리지 않고 컨텍스트 메모리를 압축한다.
이러한 업그레이드 중 다수는 에이전트적 사용 사례를 염두에 두고 이루어졌으며, 특히 Opus가 Haiku 기반 서브 에이전트 그룹을 지휘하는 선임 에이전트 역할을 하는 시나리오에서 두드러진다. 이러한 작업을 관리하기 위해서는 강력한 작업 기억(working memory) 제어가 필수적인데, 이것이 바로 Penn이 언급한 메모리 개선 사항의 핵심 가치이다.
Penn은 "바로 이 부분이 메모리와 같은 기본 요소들이 매우 중요해지는 지점입니다. Claude가 코드베이스와 대용량 문서를 탐색할 수 있을 뿐만 아니라, 언제 되돌아가서(backtrack) 무언가를 재확인해야 하는지 알아야 하기 때문입니다"라고 설명했다.
Opus 4.5는 OpenAI의 GPT 5.1(11월 12일 출시)과 Google의 Gemini 3(11월 18일 출시) 등 최근 발표된 다른 선두 모델들과 치열한 경쟁에 직면할 것으로 예상된다.
[출처:] https://techcrunch.com/2025/11/24/anthropic-releases-opus-4-5-with-new-chrome-and-excel-integrations