
OpenAI가 사용자의 PC를 제어하고 대신 행동을 수행할 수 있는 AI 도구를 곧 출시할 가능성이 제기되고 있습니다.
신제품 AI 제품을 정확하게 유출하는 것으로 알려진 소프트웨어 엔지니어 티보 블라호(Tibor Blaho)는 OpenAI가 오랫동안 루머로만 돌던 이 도구에 대한 증거를 발견했다고 주장했습니다. 블룸버그(Bloomberg)를 포함한 여러 매체들은 이전에 '에이전틱(agentic)' 시스템이며 코드 작성이나 여행 예약과 같은 작업을 자율적으로 처리할 수 있는 'Operator'에 대해 보도한 바 있습니다.
더 인포메이션(The Information)에 따르면, OpenAI는 Operator의 출시 목표 시점을 1월로 잡고 있습니다. 블라호가 이번 주말에 발견한 코드는 이러한 보도에 무게를 더하고 있습니다.
블라호에 따르면, macOS용 OpenAI ChatGPT 클라이언트에는 현재는 숨겨져 있지만, 'Toggle Operator'와 'Force Quit Operator'에 대한 단축키를 정의할 수 있는 옵션이 추가되었습니다. 또한, OpenAI 웹사이트에도 Operator에 대한 참조가 추가되었으나, 블라호는 이 참조들이 아직 공개적으로는 노출되지 않았다고 전했습니다.
확인된 내용 – ChatGPT macOS 데스크톱 앱에 데스크톱 런처 단축키를 'Toggle Operator'와 'Force Quit Operator'로 정의할 수 있는 숨겨진 옵션이 있음
[링크 및 트위터 정보 유지]
블라호에 따르면, OpenAI 웹사이트에는 Operator의 성능을 다른 컴퓨터 사용 AI 시스템과 비교하는, 아직 공개되지 않은 표들까지 포함되어 있습니다. 이 표들은 단순한 자리 표시자일 수도 있습니다. 하지만 수치들이 정확하다면, Operator가 특정 작업에 따라 100% 신뢰도가 높지 않음을 시사합니다.
OpenAI 웹사이트에 이미 Operator/OpenAI CUA(컴퓨터 사용 에이전트)에 대한 참조가 있음 - "Operator System Card Table", "Operator Research Eval Table", "Operator Refusal Rate Table" 등
클로드 3.5 소넷(Claude 3.5 Sonnet) 컴퓨터 사용, 구글 마리너(Google Mariner) 등과 비교 포함.
[링크 및 트위터 정보 유지]
실제 컴퓨터 환경을 모방하려는 벤치마크인 OSWorld에서, 'OpenAI 컴퓨터 사용 에이전트(CUA)'—Operator를 구동하는 AI 모델일 가능성이 있음—는 38.1%의 점수를 기록하며 Anthropic의 컴퓨터 제어 모델보다 높은 점수를 얻었지만, 인간의 점수인 72.4%에는 크게 미치지 못했습니다. OpenAI CUA는 AI의 웹사이트 탐색 및 상호작용 능력을 평가하는 WebVoyager에서는 인간의 성능을 능가했으나, 유출된 벤치마크에 따르면 또 다른 웹 기반 벤치마크인 WebArena에서는 인간 수준의 점수를 기록하지 못했습니다.
또한, 유출된 내용이 사실이라면, Operator는 인간이 쉽게 처리할 수 있는 작업에서도 어려움을 겪고 있습니다. 클라우드 서비스 제공업체에 가입하고 가상 머신을 실행하도록 과제 부여를 받았을 때, Operator의 성공률은 60%에 불과했습니다. 비트코인 지갑 생성 과제에서는 성공률이 10%에 그쳤습니다.
저희가 OpenAI 측에 코멘트를 요청했으며, 답변을 받는 대로 본 기사를 업데이트할 예정입니다.
OpenAI가 AI 에이전트 분야에 진출하는 시점은, 앞서 언급된 Anthropic을 포함한 경쟁사들이 이 신흥 시장을 공략하고 있는 것과 맞물립니다. AI 에이전트는 위험하고 추측의 여지가 있지만, 기술 대기업들은 이미 이를 AI의 차세대 핵심 동력으로 홍보하고 있습니다.
분석 회사 Markets and Markets에 따르면, AI 에이전트 시장 규모는 2030년까지 471억 달러에 달할 수 있습니다.
현재 에이전트 기술은 다소 원시적입니다. 하지만 일부 전문가들은 이 기술이 빠르게 발전할 경우 발생할 수 있는 안전성 문제에 대해 우려를 표하고 있습니다.
유출된 차트 중 하나는 Operator가 '불법 활동'을 수행하거나 '민감한 개인 데이터'를 검색하도록 유도하는 테스트를 포함한, 여러 안전성 평가에서 좋은 성과를 보인다는 것을 보여줍니다.
안전 테스트 과정이 길고 복잡한 것이 Operator 개발 주기가 긴 이유 중 하나로 꼽힙니다. 최근 X 게시물에서 OpenAI 공동 창립자인 보이체흐 자렘바(Wojciech Zaremba)는 Anthropic이 안전성 완화 장치가 미흡한 에이전트를 출시했다고 비판한 바 있습니다.
자렘바는 "만약 OpenAI가 이와 유사한 출시를 했다면 어떤 부정적인 반응이 일어날지 상상하기 어렵다"고 전했습니다.
한편, OpenAI는 과거 AI 연구자들(전 직원 포함)로부터 기술을 신속하게 제품화하는 것을 우선시하면서 안전 관련 작업을 축소했다는 비판을 받은 바 있습니다.
TechCrunch에서 AI 전문 뉴스레터를 받아보세요!
[가입 링크]를 통해 매주 수요일에 받아보실 수 있습니다.
[출처:] https://techcrunch.com/2025/01/20/openais-agent-tool-may-be-nearing-release