AI 에이전트, 직장 도입 준비 완료했나? 새 벤치마크가 의문 제기하며 논란 확산

sw_reporter

마이크로소프트 CEO 사티아 나델라가 인공지능(AI)이 지식 노동(knowledge work)을 대체할 것이라고 예측한 지 거의 2년 가까운 시간이 지났습니다. 여기서 지식 노동이란 변호사, 투자은행가, 사서, 회계사, IT 전문가 등 화이트칼라가 수행하는 모든 직무를 포괄합니다.

하지만 파운데이션 모델(foundation models)들이 막대한 발전을 이루었음에도 불구하고, 지식 노동 분야의 변화는 예상보다 더디게 나타나고 있습니다. 모델들은 깊이 있는 연구와 에이전트적 계획(agentic planning) 능력을 숙달했지만, 어떤 이유에서인지 대부분의 화이트칼라 업무 영역은 비교적 영향을 받지 않은 상태입니다.

이는 AI 분야의 가장 큰 미스터리 중 하나였으나, 데이터 학습 거대 기업인 Mercor의 새로운 연구를 통해 마침내 그 실마리를 얻게 되었습니다.

이번 연구는 컨설팅, 투자은행, 법률 분야에서 추출한 실제 화이트칼라 업무 과제를 제시하며 선도 AI 모델들의 수행 능력을 검증했습니다. 그 결과물로 APEX-Agents라는 새로운 벤치마크가 탄생했으며, 현재까지 모든 AI 연구실이 이 벤치마크에서 낙제점에 머물고 있습니다. 실제 전문가들의 질문에 직면하자, 최상급 모델들조차 질문의 4분의 1을 넘게 정답률을 확보하기 어려웠습니다. 대다수의 경우, 모델은 오답을 제시하거나 아예 응답하지 못했습니다.

연구 논문을 주도한 Mercor의 브렌던 푸디(Brendan Foody) CEO에 따르면, 모델들이 가장 큰 어려움을 겪는 지점은 여러 도메리에 걸쳐 분산된 정보를 추적하는 것이었습니다. 이는 인간이 수행하는 대부분의 지식 노동에 핵심적인 부분입니다.

푸디는 TechCrunch과의 인터뷰에서 "이 벤치마크의 큰 변화 중 하나는 실제 전문 서비스 업무 환경을 모델링한 전체 환경을 구축했다는 점입니다. 우리의 업무 방식은 한 개인이 모든 맥락을 한곳에 제공하는 방식이 아닙니다. 실제 업무 환경에서는 Slack, Google Drive 등 수많은 도구들을 넘나들며 작업해야 합니다"라고 설명했습니다. 이러한 다중 도메인 추론 능력(multi-domain reasoning)은 여전히 많은 에이전트 AI 모델들에게 불안정한 영역입니다.

연구에 사용된 시나리오는 Mercor의 전문가 마켓플레이스에 등록된 실제 전문가들로부터 가져왔으며, 이들이 질문을 제시하고 성공적인 응답의 기준을 설정했습니다. Hugging Face에 공개된 질문들을 살펴보면 과제의 복잡성을 짐작할 수 있습니다.

'법(Law)' 섹션의 한 질문을 예로 들면 다음과 같습니다.

EU 가동 중단 사태가 발생한 첫 48분 동안, Northstar의 엔지니어링 팀은 개인 데이터를 포함한 EU 프로덕션 이벤트 로그를 하나 또는 두 개의 번들 세트로 미국 분석 업체에 전송했다... 북스타(Northstar) 자체 정책 하에서, 이 한두 건의 로그 전송이 문제가 되는지 여부.

이러한 문맥상의 난해함은 전문가의 심도 있는 판단을 필요로 합니다.

나아가 기술적 측면에서 본다면, 모델들이 이러한 미묘한 전문 지식을 어떻게 이해하고 종합적으로 판단해낼 수 있는지에 대한 검증이 필요합니다.

한편, 업계의 다른 관점에서는, 모델이 전문성이 요구되는 여러 영역을 연결 지어 사고하는 '연결적 사고(connective thinking)' 능력을 갖추었는지에 대한 평가가 필요합니다.

한편, 또 다른 전문 분야를 접목한 경우, 모델이 전문성이 요구되는 여러 영역을 연결 지어 사고하는 '연결적 사고(connective thinking)' 능력을 갖추었는지에 대한 평가가 필요합니다.

AI의 기술적 성능을 넘어, 전문 분야 간의 경계를 넘나드는 종합적인 문제 해결 능력이 중요한 이슈로 떠오르고 있습니다.

AI 성능의 진화 속도를 한층 더 끌어올린 부분은, 근거가 되는 지식의 출처를 투명하게 밝히고, 그 과정과 추론 과정을 명확하게 보여주는 '설명 가능한 AI(Explainable AI, XAI)' 분야입니다.

가장 큰 특징은, AI가 단순한 답변 제시를 넘어, 그 답변에 도달하기까지의 과정을 사람처럼 설명하고 증명할 수 있다는 점입니다.

결론적으로, AI의 미래는 단순히 지식을 얼마나 많이 알고 있느냐를 넘어, 얼마나 설득력 있게, 그리고 깊이 있게 이해하고 연결할 수 있느냐에 달려있다고 할 수 있습니다.

[출처:] https://techcrunch.com/2026/01/22/are-ai-agents-ready-for-the-workplace-a-new-benchmark-raises-doubts