
새로운 AI 코딩 챌린지가 첫 우승자를 공개하며 AI 기반 소프트웨어 엔지니어의 새로운 기준을 제시했다.
서부 표준시(PT) 수요일 오후 5시, 비영리 기관인 Laude Institute는 Databricks와 Perplexity의 공동 창업자인 Andy Konwinski가 기획한 다단계 AI 코딩 챌린지인 K Prize의 첫 우승자를 발표했다. 우승자는 브라질 출신의 프롬프트 엔지니어 에두아르도 로샤 데 안드라데(Eduardo Rocha de Andrade)였으며, 이 대회의 상금 5만 달러를 수령하게 됐다. 그러나 우승보다 더욱 놀라운 것은 그의 최종 점수였다. 그는 테스트 문항 중 겨우 7.5%에 대한 정답률을 기록하며 우승을 차지했다.
Konwinski는 “실제로 어려운 벤치마크를 구축하게 되어 기쁘다”며, “벤치마크가 의미를 가지려면 당연히 어려워야 합니다”라고 말했다. 그는 이어서 “만약 거대 연구소들이 가장 강력한 모델을 들고 참가했다면 점수는 달라졌을 것입니다. 하지만 이것이 바로 핵심입니다. K Prize는 컴퓨팅 자원이 제한된 상태에서 오프라인으로 진행되기 때문에 소규모 오픈 모델에 유리합니다. 저는 그 점이 마음에 듭니다. 이것이 공정한 경쟁의 장을 만듭니다”라고 덧붙였다.
한편, Konwinski는 테스트에서 90% 이상의 점수를 기록하는 최초의 오픈 소스 모델에 100만 달러를 기부하겠다고 약속했다.
K Prize는 잘 알려진 SWE-Bench 시스템과 유사하게, 모델이 실제 프로그래밍 문제에 얼마나 능숙하게 대처하는지 검증하기 위해 GitHub에 플래그가 지정된 이슈(flagged issues)를 사용한다. 다만 SWE-Bench가 모델이 학습할 수 있는 고정된 문제 세트를 기반으로 하는 것과 달리, K Prize는 벤치마크 특화 학습을 방지하기 위해 시간 제한 제출 시스템을 적용하여 ‘SWE-Bench의 오염 방지 버전(contamination-free version of SWE-Bench)’으로 설계되었다. 1라운드 기준으로 모델은 3월 12일까지 제출해야 했으며, 주최 측은 이 날짜 이후에 플래그가 지정된 GitHub 이슈만을 활용하여 테스트를 구성했다.
7.5%라는 최고 점수는, 현재 더 쉬운 ‘Verified’ 테스트에서 75%의 최고 점수, 더 어려운 ‘Full’ 테스트에서 34%의 점수를 기록하고 있는 SWE-Bench의 결과와 현격한 대비를 이룬다. Konwinski는 이 점수 격차가 SWE-Bench 자체의 데이터 오염 때문인지, 혹은 단순히 GitHub에서 새로운 이슈를 수집하는 과정의 어려움 때문인지는 아직 확실하지 않지만, K Prize 프로젝트를 통해 조만간 명확한 답을 얻을 것으로 기대한다고 밝혔다.
그는 TechCrunch과의 인터뷰에서 “이러한 테스트가 더 많이 진행될수록 더 정확한 감을 잡을 수 있을 것입니다. 참가자들이 몇 달 간격으로 경쟁하는 역동성에 적응할 것이기 때문입니다”라고 전했다.
이미 공개적으로 광범위하게 사용 가능한 AI 코딩 도구들이 존재한다는 점에서 낮은 점수가 이상하게 느껴질 수도 있다. 하지만 벤치마크 자체가 너무 쉽게 변하는 상황에서, 많은 비평가들은 K Prize와 같은 프로젝트가 AI가 직면한 평가(evaluation) 문제를 해결하기 위한 필수적인 단계라고 평가하고 있다.
최근 논문에서 유사한 아이디어를 제시한 프린스턴 대학의 연구원 사야시 카푸어(Sayash Kapoor)는 “기존 벤치마크에 대한 새로운 테스트를 구축하는 것에 대해 매우 낙관적입니다”라고 말했다. 그는 “그러한 실험이 없다면, 문제가 오염 때문인지, 혹은 단지 인간의 개입을 통해 SWE-Bench 리더보드만을 겨냥하는 것인지조차 실제로 판단하기 어렵습니다”라고 덧붙였다.
Konwinski에게 이는 단순히 더 좋은 벤치마크를 넘어, 업계 전체에 던지는 공개적인 도전장과 같다. 그는 “과도한 기대에 따르면, 우리가 AI 의사, AI 변호사, AI 소프트웨어 엔지니어를 당연하게 봐야 할 것 같지만, 현실은 그렇지 않다”며, “오염 방지 SWE-Bench에서도 10% 이상을 달성하지 못한다면, 그것이야말로 저에게는 냉정한 현실 점검(reality check)입니다”라고 강조했다.