마이크로소프트, AI 에이전트 테스트 위해 가짜 마켓플레이스 구축…놀라운 실패를 경험하다

sw_reporter

마이크로소프트 연구원들은 수요일, AI 에이전트를 테스트하기 위해 설계된 새로운 시뮬레이션 환경을 공개하는 한편, 현재의 에이전트 기반 모델들이 조작에 취약할 수 있음을 보여주는 새로운 연구 결과를 발표했습니다. 애리조나 주립대학교와의 공동 연구를 통해 진행된 이번 연구는 AI 에이전트가 감독 없이 작업을 수행할 때의 성능에 대한 새로운 의문을 제기하며, AI 기업들이 '에이전트 기반의 미래'에 대한 약속을 얼마나 신속하게 실현할 수 있을지에 대한 질문을 던지고 있습니다.

마이크로소프트가 "Magentic Marketplace"라고 명명한 이 시뮬레이션 환경은 AI 에이전트의 행동을 실험하기 위한 합성 플랫폼으로 구축되었습니다. 일반적인 실험 시나리오의 예로는, 사용자의 지침에 따라 저녁 식사를 주문하려는 고객 에이전트가 여러 식당을 대표하는 에이전트들과 경쟁하는 상황 등이 있습니다.

연구팀의 초기 실험에는 100개의 개별 고객 에이전트가 300개의 비즈니스 에이전트와 상호작용한 내용이 포함되었습니다. 마켓플레이스의 소스 코드는 오픈 소스로 공개되었기 때문에, 다른 연구 기관들이 새로운 실험을 수행하거나 연구 결과를 재현하는 데 코드를 쉽게 활용할 수 있을 것입니다.

Microsoft Research의 AI Frontiers Lab CVP이자 매니징 디렉터인 Ece Kamar는 이와 같은 연구가 AI 에이전트의 역량을 이해하는 데 결정적이라고 말했습니다. 카마르는 "이러한 에이전트들이 협력하고 서로 소통하며 협상할 때 세상이 어떻게 변화할지에 대한 근본적인 질문이 있다"며, "우리는 이 과정들을 깊이 이해하고자 한다"고 덧붙였습니다.

초기 연구는 GPT-4o, GPT-5, Gemini-2.5-Flash를 포함한 여러 최신 모델들을 대상으로 진행되었으며, 몇 가지 예상치 못한 취약점을 발견했습니다. 특히 연구원들은 기업들이 고객 에이전트를 조작하여 자신들의 제품을 구매하도록 유도할 수 있는 여러 기법들을 찾아냈습니다. 연구원들은 고객 에이전트에게 선택할 수 있는 옵션이 많아질수록 효율성이 급격히 떨어지며, 에이전트의 주의 공간이 압도되는 현상을 주목했습니다.

카마르는 "우리는 이 에이전트들이 방대한 옵션을 처리하는 데 도움을 주기를 바라지만, 현재 모델들은 옵션이 너무 많을 경우 실제로 과부하 상태에 빠지는 것을 목격하고 있다"고 설명했습니다.

또한 에이전트들이 공동의 목표를 향해 협력해야 할 때 어려움을 겪었는데, 이는 각 에이전트가 어떤 역할을 수행해야 하는지 명확히 판단하지 못했기 때문으로 분석되었습니다. 모델들에게 협력 방법에 대한 보다 명시적인 지침이 제공되자 성능은 향상되었지만, 연구원들은 여전히 모델들의 내재적 역량 개선이 필요하다고 지적했습니다.

카마르는 "모델들에게 지시를 내릴 수는 있습니다. 단계별로 안내할 수도 있습니다. 그러나 만약 우리가 근본적인 협업 능력을 테스트하는 것이라면, 저는 이 모델들이 기본적으로 이러한 역량을 갖추기를 기대한다"고 강조했습니다.

[출처:] https://techcrunch.com/2025/11/05/microsoft-built-a-synthetic-marketplace-for-testing-ai-agents