
OpenAI, Anthropic 등 최고 수준의 AI 연구소에서 개발된 AI 모델들이 프로그래밍 작업을 지원하는 데 점차 활용되고 있습니다. 구글 CEO 순다르 피차이(Sundar Pichai)는 지난 10월 회사 신규 코드의 25%가 AI로 생성되었다고 밝혔으며, 메타 CEO 마크 저커버그(Mark Zuckerberg) 역시 소셜 미디어 플랫폼 전반에 걸쳐 AI 코딩 모델을 광범위하게 배치하겠다는 야심을 드러냈습니다.
하지만 오늘날 최고의 모델들조차 숙련된 개발자가 쉽게 찾아낼 수 있는 소프트웨어 버그를 해결하는 데 어려움을 겪고 있습니다.
마이크로소프트의 R&D 부서인 Microsoft Research의 새로운 연구에 따르면, Anthropic의 Claude 3.7 Sonnet이나 OpenAI의 o3-mini를 포함한 모델들이 SWE-bench Lite라는 소프트웨어 개발 벤치마크에서 수많은 문제에 대해 디버깅하는 데 실패하는 것으로 나타났습니다. 이 결과는 OpenAI와 같은 기업들의 과감한 선언에도 불구하고, AI가 코딩과 같은 영역에서는 여전히 인간 전문가와는 거리가 멀다는 씁쓸한 경각심을 안겨줍니다.
이 연구의 공동 저자들은 Python 디버거를 포함한 다양한 디버깅 도구에 접근할 수 있는 ‘단일 프롬프트 기반 에이전트(single prompt-based agent)’의 기반으로 총 아홉 가지 모델을 테스트했습니다. 그리고 이 에이전트에게 SWE-bench Lite에서 선별된 300개의 소프트웨어 디버깅 과제를 해결하도록 과제를 부여했습니다.
공동 저자들의 분석에 따르면, 모델 성능이 더 강력하고 최신화되었음에도 불구하고, 이 에이전트가 디버깅 과제의 절반 이상을 성공적으로 완료한 경우는 드물었습니다. Claude 3.7 Sonnet이 평균 48.4%로 가장 높은 성공률을 기록했으며, 그 뒤를 OpenAI의 o1(30.2%)과 o3-mini(22.1%)가 이었습니다.
(연구의 차트. '상대적 증가(relative increase)'는 모델에 디버깅 도구가 추가됨으로써 얻은 성능 향상도를 의미합니다.)
성능이 기대에 미치지 못한 주된 이유는 무엇일까요? 일부 모델들은 자신에게 주어진 디버깅 도구를 효과적으로 사용하는 데 어려움을 겪었고, 각기 다른 도구들이 어떤 종류의 문제에 유용한지 이해하지 못했습니다. 그러나 공동 저자들은 더 근본적인 문제로 '데이터 부족'을 지적했습니다. 그들은 현재 모델들의 훈련 데이터에 '순차적 의사결정 과정'—즉, 인간 디버거가 수행하는 디버깅 추적(debugging traces)—을 충분히 반영한 데이터가 부족하다고 추측했습니다.
공동 저자들은 연구에서 "모델을 훈련하거나 파인튜닝(fine-tuning)하면 이를 더욱 효과적인 대화형 디버거로 만들 수 있다고 강력하게 믿는다"고 언급했습니다. 다만, 그러한 모델 훈련을 위해서는 예를 들어, 버그 수정 제안 전에 에이전트가 디버거와 상호작용하는 과정을 기록한 궤적(trajectory) 데이터와 같은 특수화된 데이터가 필요할 것이라고 덧붙였습니다.
다만, 이러한 발견 자체가 완전히 충격적이지는 않습니다. 많은 연구를 통해 코드 생성 AI가 프로그래밍 논리 이해 능력의 취약점 등으로 인해 보안 취약점이나 오류를 유발하는 경향을 보여왔기 때문입니다.
최근 인기 AI 코딩 도구인 Devin에 대한 한 평가에서는 이 도구가 20개의 프로그래밍 테스트 중 단 3개만 완료할 수 있다는 결과가 나오기도 했습니다.
하지만 이번 마이크로소프트의 연구는 모델이 안고 있는 지속적인 문제 영역을 매우 상세하게 분석한 사례 중 하나입니다. 이는 AI 기반 보조 코딩 도구에 대한 투자자들의 열기를 식히지는 못하겠지만, 어쩌면 개발자들 자신과 그들의 상사들로 하여금 한 번 더 생각하게 만드는 계기를 제공할 것입니다.
[출처:] https://techcrunch.com/2025/04/10/ai-models-still-struggle-to-debug-software-microsoft-study-shows