백악관은 미국이 인공지능(AI) 경쟁에서 승리하고 있다고 주장한다. 적어도 지금은 그렇다는 것이다.

미국 국립과학기술연구소(NIST)는 중국과 미국 AI 모델에 대한 포괄적인 테스트를 완료했으며, 그 결과 OpenAI와 Anthropic의 모델이 19가지에 달하는 다양한 벤치마크에서 DeepSeek을 능가한 것으로 나타났다. 하워드 루트닉 미국 상무장관은 소셜 미디어 X를 통해 이 결과를 공유하며, 도널드 트럼프 대통령의 AI 행동 계획(AI Action Plan)에 감사를 표하고, 이 계획을 통해 미국의 AI 혁신 및 인프라를 가속화하는 한편, 동맹국 및 우방 국가들도 이를 채택하도록 장려했다.
루트닉 장관은 자신의 게시물에서 다음과 같이 밝혔다. "보고서는 명확합니다. DeepSeek은 특히 사이버 및 소프트웨어 엔지니어링 분야에서 현저히 뒤처져 있습니다. 이러한 약점은 단순히 기술적인 문제에 그치지 않습니다. 이는 해외 AI에 의존하는 것이 얼마나 위험하고 근시안적인지를 보여줍니다. 적대 세력에게 AI를 통제하도록 내버려 두는 것은 우리의 안보에 심각한 위협을 초래합니다. 상무부는 표준을 설정하고, 혁신을 주도하며, 미국의 안전을 확보함으로써 AI 분야에서 미국의 지속적인 리더십을 유지하는 데 기여하고 있습니다."
https://t.co/PVESOcZCHb 2025년 10월 1일
NIST는 상무부 산하 연방 기관으로서, 미국이 글로벌 산업 경쟁력을 유지할 수 있도록 표준을 개발하고 산업을 지원한다. 이번 연구는 새로 설립된 AI 표준 및 혁신 센터(Center for AI Standards and Innovation, CAISI)를 통해 수행되었다.
이번 테스트에서는 DeepSeek의 R1, R1-0528, V3.1 모델(주의: 이번 주에 출시된 DeepSeek의 신형 V3.2는 제외)이 OpenAI의 GPT-5, GPT-5-mini, GPT-oss 및 Anthropic의 Opus 4 모델과 총 19가지의 벤치마크를 통해 비교되었다. 이 공개적으로 이용 가능한 테스트 항목으로는 소프트웨어 엔지니어링 분야의 SWE-bench Verified 및 Breakpoint, 일반 지식 역량 평가를 위한 MMLU-Pro 및 GPQA, 수학적 추론 능력을 측정하는 SMT 2025, PUMaC 2024, OTIS-AIME 2025 수학 경시 대회, 그리고 하이재킹 공격에 대한 방어 탄력성을 측정하는 AgentDojo 프레임워크 등이 포함된다. 이 외에도, 표준화된 테스트가 없는 중국 공산당(CCP) 검열 문제 등도 테스트하기 위해 기관이 자체적인 맞춤형 평가를 개발하여 사용했다.
모든 결과는 69페이지 분량의 문서[PDF]로 정리되었으며, CAISI에 따르면 OpenAI와 Anthropic이 모든 테스트에서 DeepSeek을 능가하며, 특히 소프트웨어 엔지니어링 및 사이버 작업 영역에서 격차가 두드러지게 나타났다. 미국 AI 모델들은 일반적으로 DeepSeek 대비 20%에서 80% 더 높은 성능을 보이며, 운영 비용 역시 약 35% 절감되는 것으로 나타났다. 다만, 후자의 경우 탈취(hijack)나 탈옥(jailbreak)이 더 쉬워 의도치 않은 행동으로 이어질 위험이 더 크다고 지적했다. 보고서는 또한 중국 모델들이 편향되어 있으며 베이징의 메시지에 치우치도록 설계되어 있음을 언급했으나, 다른 AI 벤치마킹 도구들이 존재하여 결과가 다르게 나올 수 있다는 점은 유의할 필요가 있다.
이러한 보고에도 불구하고 DeepSeek R1은 지속적으로 채택되고 있으며, CAISI는 "이러한 모델의 사용은 애플리케이션 개발자, 일반 소비자, 그리고 미국 국가 안보에 위험을 초래할 수 있다"고 경고했다. 게다가 중국 AI 기업은 계속해서 새로운 모델을 출시하고 있으며, 이번 주 초에 공개된 DeepSeek-V3.2-Exp 같은 모델은 일부 테스트 결과를 무효화시킬 가능성이 있다.
최신 뉴스, 분석 및 리뷰를 받아보려면 구글 뉴스에서 Tom's Hardware를 팔로우하세요. 팔로우 버튼을 클릭하는 것을 잊지 마십시오.