코딩 작업에서 동료 피드백은 버그를 조기에 발견하고, 코드베이스 전체의 일관성을 유지하며, 궁극적으로 소프트웨어 품질을 높이는 데 매우 중요한 요소입니다.
최근 명령어를 일반 언어로 입력하면 대량의 코드를 빠르게 생성하는 AI 도구를 활용하는 '바이브 코딩(vibe coding)' 방식이 확산되면서 개발자들의 작업 방식 자체가 변화하고 있습니다. 이러한 도구들이 개발 속도를 크게 높였지만, 그와 동시에 새로운 버그, 보안 취약점, 그리고 개발자가 완전히 이해하지 못하는 코드를 유입시키는 문제점도 야기했습니다.
Anthropic이 제시한 해결책은 소프트웨어의 코드베이스에 통합되기 전에 버그를 사전에 포착하도록 설계된 AI 리뷰어입니다. 'Code Review'라는 이름의 이 신제품이 월요일에 출시되었습니다.
Anthropic의 제품 책임자인 Cat Wu는 테크크런치(TechCrunch)와의 인터뷰에서 "저희는 특히 기업(Enterprise) 부문에서 Claude Code의 성장을 크게 목격했으며, 기업 리더들로부터 자주 받는 질문 중 하나가 있습니다. Claude Code가 엄청난 양의 풀 리퀘스트(pull requests)를 생성하고 있는 상황에서, 이 검토가 어떻게 효율적으로 이루어지도록 보장할 수 있느냐"고 말했습니다.
풀 리퀘스트란 개발자가 작성한 코드 변경 사항을 소프트웨어에 실제로 적용하기 전에 동료의 검토를 받기 위해 제출하는 메커니즘입니다. Wu는 "코드가 생성되는 양이 극적으로 증가하면서 풀 리퀘스트 검토 건수 역시 폭증했고, 이것이 결과적으로 코드 배포 과정의 병목 현상을 초래했습니다."라고 설명했습니다.
이에 대해 Wu는 "Code Review가 바로 저희의 해결책입니다."라고 답했습니다.
Anthropic이 Code Review를 출시한 시점은 매우 중요한 맥락에 있습니다. 이 제품은 연구 프리뷰 단계에 먼저 Claude for Teams 및 Claude for Enterprise 고객들에게 제공되고 있습니다.
한편, Anthropic은 월요일, 국방부가 자사를 공급망 위험 기업으로 지정한 것에 대응하여 국방부를 상대로 두 건의 소송을 제기했습니다. 이 분쟁으로 인해 Anthropic은 올해 초부터 구독료가 네 배로 증가한 호황을 누리고 있는 기업 사업 부문에 더욱 집중하게 될 전망입니다.
회사에 따르면, 해당 제품의 예상 매출(run-rate revenue)은 출시 이후 25억 달러를 돌파했습니다.
Wu는 "이 제품은 대규모 기업 사용자들을 주 타겟으로 합니다. 따라서 이미 Claude Code를 사용하고 있으며, 이 도구가 생성하는 방대한 양의 [풀 리퀘스트] 처리에 도움이 필요한 Uber, Salesforce, Accenture와 같은 기업들이 주요 고객층입니다."라고 강조했습니다.
그녀는 개발 리드(developer leads)가 Code Review 기능을 팀의 모든 엔지니어를 기본적으로 사용하도록 활성화할 수 있다고 덧붙였습니다. 기능을 활성화하면 GitHub와 통합되어 풀 리퀘스트를 자동으로 분석하고, 잠재적 문제점과 함께 수정 제안을 코드가 작성된 위치에 직접 주석으로 남깁니다.
Wu는 검토의 초점이 스타일 개선보다는 논리적 오류 수정에 맞춰져 있다고 밝혔습니다.
그는 "이 점이 정말 중요합니다. 많은 개발자들이 AI 자동 피드백을 접해봤지만, 즉시 조치 가능한 내용이 아니면 불편함을 느낍니다. 저희는 오직 논리적 오류만을 중점적으로 다루기로 결정했습니다. 그래야 가장 우선순위가 높은 수정 사항들을 정확히 찾아낼 수 있기 때문입니다."라고 설명했습니다.
이 AI는 자신의 추론 과정을 단계별로 설명하며, 어떤 부분이 문제인지, 왜 문제가 될 수 있는지, 그리고 잠재적으로 어떻게 수정할 수 있는지 구체적으로 안내합니다. 시스템은 이슈의 심각도에 따라 색상을 사용하여 분류합니다. 최고 심각도는 빨간색, 검토가 필요한 잠재적 문제는 노란색, 기존 코드나 과거의 버그와 연관된 문제는 보라색으로 표시됩니다.
Wu는 다수의 에이전트가 병렬로 작동하고, 각 에이전트가 코드베이스를 서로 다른 관점이나 차원에서 검토하는 방식을 통해 신속하고 효율적으로 작업을 수행한다고 설명했습니다. 마지막 에이전트가 이 모든 발견 사항을 취합하고 우선순위를 매기며, 중복을 제거하고 가장 중요한 항목들을 식별합니다.
이 도구는 기본적인 보안 분석 기능도 제공하며, 엔지니어링 리드는 내부의 모범 사례를 기반으로 추가 검사 항목을 맞춤 설정할 수 있습니다. Wu는 Anthropic이 최근 출시한 더 포괄적인 제품이 더욱 심층적인 보안 분석을 제공한다고 언급했습니다.
Wu는 다중 에이전트 아키텍처의 특성상 이 제품은 상당한 컴퓨팅 자원을 필요로 할 수 있다고 말했습니다. 다른 AI 서비스와 마찬가지로, 가격 책정은 토큰 기반이며 비용은 코드의 복잡성에 따라 달라집니다. 다만, 그녀는 평균적으로 각 검토에 15달러에서 25달러가 소요될 것으로 추산했습니다. 그녀는 이 비용이 결코 과하지 않은 '프리미엄 경험'이며, AI 도구의 코드 생성량이 증가함에 따라 필연적으로 필요한 서비스라고 덧붙였습니다.
Wu는 "[Code Review]는 시장의 엄청난 수요에 힘입어 출시된 제품입니다."라며, "엔지니어들이 Claude Code로 개발을 진행하면서, 새로운 기능을 만드는 과정의 마찰도가 [줄어들고] 있으며, 동시에 코드 리뷰에 대한 요구는 훨씬 높아지고 있습니다. 저희는 이를 통해 기업들이 이전보다 더 빠르게, 그리고 이전보다 훨씬 적은 버그를 가지고 서비스를 구축할 수 있도록 지원할 수 있기를 기대합니다."라고 마무리했습니다.