구글의 SIMA 2 에이전트, Gemini를 활용해 가상 세계에서 추론하고 행동하다

sw_reporter

구글 딥마인드는 목요일 리서치 프리뷰 자료를 통해 SIMA 2를 공개했습니다. SIMA 2는 구글의 대규모 언어 모델인 Gemini의 언어적 추론 능력을 통합한 차세대 범용 AI 에이전트로, 단순히 지침을 따르는 수준을 넘어 환경을 깊이 이해하고 능동적으로 상호작용하는 단계로 발전했습니다.

알파폴드(AlphaFold)를 포함하여 딥마인드의 많은 프로젝트와 마찬가지로, SIMA의 초기 버전은 인간처럼 여러 3D 게임을 플레이하는 방법을 학습하기 위해 수백 시간 분량의 비디오 게임 데이터로 훈련되었습니다. 2024년 3월에 공개된 SIMA 1은 광범위한 가상 환경에서 기본적인 지침을 따를 수 있었으나, 복잡한 작업을 완료하는 성공률은 인간의 71%에 비해 31%에 불과했습니다.

딥마인드의 선임 연구 과학자인 조 마리노(Joe Marino)는 기자 브리핑에서 "SIMA 2는 SIMA 1에 비해 역량 면에서 비약적인 도약이자 개선을 이루었습니다"라고 말했습니다. "더욱 범용적인 에이전트입니다. 이전에는 본 적 없는 환경에서도 복잡한 작업을 수행할 수 있습니다. 이는 진정한 의미의 지능을 보여줍니다."

한편, 또 다른 지능을 보여줍니다.

전문가들은 이 기술을 통해 AI가 복잡한 문제 해결에 크게 기여할 것이라고 기대하고 있습니다.

[출처:] https://techcrunch.com/2025/11/13/googles-sima-2-agent-uses-gemini-to-reason-and-act-in-virtual-worlds