
최근 몇 년 동안 소프트웨어 엔지니어의 작업 방식은 코드 자동 작성, 버그 수정, 변경 사항 테스트 등을 통해 생산성을 향상시킬 것이라는 약속과 함께 GitHub Copilot과 같은 AI 코딩 도구의 등장으로 급변했습니다. 이러한 도구들은 OpenAI, Google DeepMind, Anthropic, xAI의 AI 모델을 기반으로 하며, 최근 수년간 다양한 소프트웨어 엔지니어링 테스트에서 성능이 급격하게 향상되어 왔습니다.
하지만 비영리 AI 연구 그룹 METR이 목요일에 발표한 새로운 연구는 오늘날의 AI 코딩 도구들이 숙련된 개발자의 생산성을 어느 정도까지 실질적으로 향상시키는지에 의문을 제기합니다.
METR은 이 연구를 위해 무작위 대조 시험(randomized controlled trial)을 진행했습니다. 이 과정에서 16명의 숙련된 오픈 소스 개발자를 모집하여, 이들이 평소 기여하는 대규모 코드 저장소에서 246개의 실제 작업을 완료하게 했습니다. 연구원들은 이 작업 중 약 절반을 "AI 사용 허용(AI-allowed)" 그룹으로 무작위 배정하여, 개발자들에게 Cursor Pro와 같은 최첨단 AI 코딩 도구 사용을 허용했고, 나머지 절반의 작업에서는 AI 도구 사용을 금지했습니다.
작업을 시작하기 전, 개발자들은 AI 코딩 도구를 사용하면 완료 시간이 24% 단축될 것이라고 예상했습니다. 그러나 실제 결과는 달랐습니다.
연구원들은 "놀랍게도, AI 사용을 허용한 경우 오히려 완료 시간이 19% 증가하는 것으로 나타났다. 즉, 개발자들은 AI 도구를 사용할 때 더 느려진다"고 밝히며 충격적인 결과를 공개했습니다.
특히 눈여겨볼 점은, 연구 참여 개발자 중 주요 AI 도구인 Cursor 사용 경험이 있는 사람은 56%에 불과했다는 것입니다. 대부분의 개발자(94%)는 코딩 작업 흐름에서 웹 기반 LLM을 사용해 본 경험이 있었으나, 이번 연구는 일부 개발자에게 Cursor를 구체적으로 사용해 본 최초의 사례라는 점에서 의미가 있습니다. 연구원들에 따르면, 개발자들은 연구에 대비하여 Cursor 사용 훈련을 받은 것으로 알려졌습니다.
그럼에도 불구하고, METR의 연구 결과는 AI 코딩 도구가 2025년에 약속하는 것으로 알려진 보편적인 생산성 향상 효과에 의문을 던집니다. 본 연구에 따르면, 개발자들은 AI 코딩 도구—특히 'vibe coders'로 불리는 도구들—가 작업 흐름을 즉시 가속화할 것이라고 가정해서는 안 됩니다.
METR 연구원들은 AI가 개발자의 속도를 늦춘 잠재적 이유로 몇 가지를 제시합니다. 개발자들이 코드를 직접 짜는 것보다 'vibe coder'를 사용할 때 AI에게 프롬프트를 입력하고 응답을 기다리는 데 훨씬 많은 시간을 소요하기 때문입니다. 또한 AI는 이 테스트에서 사용된 것과 같은 대규모의 복잡한 코드베이스 환경에서 어려움을 겪는 경향이 있습니다.
논문의 저자들은 이 발견을 바탕으로 어떤 강력한 결론도 내리지 않도록 주의하며, 현재의 AI 시스템이 많은 소프트웨어 개발자의 작업 속도를 늦추고 있다고 보지는 않는다고 명확히 선을 그었습니다. 다른 대규모 연구들은 AI 코딩 도구들이 실제로 소프트웨어 엔지니어의 작업 흐름을 가속화함을 보여준 바 있습니다.
저자들은 또한 AI 기술 발전이 최근 몇 년간 상당했으며, 단 3개월 후에도 지금과 같은 결과를 기대하기는 어렵다고 언급했습니다. 또한 METR은 AI 코딩 도구들이 최근 수년간 복잡하고 장기간의 작업을 완료하는 능력을 상당히 개선했음도 밝혀냈습니다.
결론적으로, 이 연구는 AI 코딩 도구의 약속된 이점에 대해 여전히 회의적일 만한 또 다른 근거를 제시합니다. 다른 연구들은 오늘날의 AI 코딩 도구들이 실수를 유발할 수 있으며, 경우에 따라서는 보안 취약점까지 초래할 수 있음을 보여주었습니다.
[출처:] https://techcrunch.com/2025/07/11/ai-coding-tools-may-not-speed-up-every-developer-study-shows