'똑똑함'을 넘어 '실행력'을 증명해야 하는 AI 에이전트들의 숙제

drysignal

요즘 기술 발표회장만 가면 '혁신', '패러다임의 전환', '인류의 삶을 바꿀' 같은 단어들이 난무하는 것 같다.
마치 모든 것이 한 번의 대규모 업데이트로 완벽해질 것처럼 말이다.

아마존의 CEO가 이번에 꺼내놓은 알렉사+ 이야기가 딱 그런 전형적인 시나리오를 보여주는 것 같다.

10만 명에게 배포되었다는 그 숫자는 꽤 근사해 보인다.

마치 '드디어 대중화 단계에 진입했다!'고 선언하는 듯한 느낌을 주지만, 자세히 들여다보면 그 간극이 꽤 크다.

이 비서가 궁극적으로 지향하는 바는 명확하다.
단순히 질문에 대답하는 수준을 넘어, 사용자를 대신해 제3의 앱을 끌어다 쓰고, 복잡한 행동을 수행하는 '행동 지향형 에이전트'가 되는 것.

이 개념 자체는 정말 매력적이다.
우리가 상상하는 미래의 비서가 바로 이런 모습일 테니까.
문제는 그 '행동'의 영역이다.
발표 내용만 봐도 알 수 있듯이, 현재의 알렉사+는 아직도 '이건 안 돼' 목록이 꽤 길다.

취침 이야기 생성 같은 감성적인 영역은 물론이고, 실제로 외부 서비스(예: GrubHub 같은 앱)를 연동해서 무언가를 '처리'하는 과정에서 여전히 허술한 부분이 많다는 것이다.
마치 겉보기엔 최신형 스마트폰처럼 번지르르하지만, 핵심 기능 몇 개가 아직 베타 테스트 단계에 머물러 있는 느낌이랄까.
이 정도면 '출시'라는 단어의 무게를 조금 가볍게 사용한 건 아닌가 싶기도 하다.

여기서 우리가 주목해야 할 건 '지능' 자체의 문제가 아니라, '연결성'의 문제라는 점이다.
생성형 AI, 즉 LLM(거대 언어 모델)이 텍스트를 생성하는 능력은 이미 어느 정도 검증되었다.

ChatGPT나 Gemini가 보여주듯, 맥락을 이해하고 그럴듯한 답변을 뱉어내는 건 이제 어느 정도 '기대치'가 된 지 오래다.
하지만 이 기술들을 현실 세계의 시스템과 엮어 '실제 동작'을 하게 만드는 과정은 차원이 다른 난이도를 가진다.
마치 훌륭한 작곡가가 탄생했지만, 그 음악을 실제로 연주할 오케스트라의 악보와 연주자들이 아직 제대로 조율되지 않은 상황과 비슷하다.

아마존 CEO가 스스로도 인정했듯이, 현재 다단계 에이전트들의 정확도가 30%에서 60% 사이를 오간다는 건, 이 기술이 아직 '신뢰하기엔 조금 이르다'는 냉정한 현실을 반영하는 것 아닌가.
심지어 애플이나 아마존 양쪽 모두가 이 지점에서 발목을 잡힌 것처럼 보인다.

애플이 새로운 Siri를 들고 나왔을 때의 '지연 문제' 언급이나, 아마존이 '더 많은 기능이 남아있다'고 덧붙이는 뉘앙스 모두가 이 거대한 기술적 난관을 우회적으로 보여주는 것 같다.

결국, AI에게 '생각'을 시키는 것과, 그 생각이 외부 도구(Tool)를 거쳐 '실제 결과물'을 만들어내게 하는 것은 완전히 다른 차원의 공학적 난제라는 것이 시장에 드러난 것이다.
아무리 화려한 AI 기능이라도, 실제 외부 시스템과 안정적으로 '연결되어 무언가를 해내는' 단계에 도달하는 것이 가장 어려운 숙제임이 드러난다.