• 엔비디아 RTX 5090, 리셋 버그 발생으로 수리 보상금 1,000달러 지급 착수 — 가상화 리셋 버그로 인해 카드가 완전히 작동 불능 상태가 되어 재부팅이 필요하며, RTX PRO 6000에도 영향 미침

    CloudRift와 커뮤니티 보도에 따르면, 엔비디아의 새로운 블랙웰 GPU에서 리셋 실패가 발생하여, 컴퓨터의 전원 재시작(power-cycle)을 할 때까지 카드가 프리징되는 문제가 보고되고 있다.

    article image

    Nvidia의 새로운 RTX 5090 및 RTX PRO 6000 GPU에서 재현 가능한 가상화 리셋(reset) 버그가 발생한 것으로 알려졌습니다. 이 버그는 해당 카드를 호스트 시스템이 물리적으로 재부팅되기 전까지 완전히 무응답 상태로 만들 수 있습니다.

    GPU 클라우드 제공업체인 CloudRift는 실제 운영 환경에서 여러 Blackwell 기반 시스템을 통해 이 문제를 겪은 후, 상세한 분석 보고서를 발표했습니다. 이 회사는 해당 문제를 해결하거나 근본 원인을 규명하는 사람에게 1,000달러의 공개 버그 바운티를 지급한다고 밝혔습니다.

    리셋 버그가 Blackwell 시스템을 작동 불능으로 만듦

    CloudRift의 로그에 따르면, 이 버그는 KVM 및 VFIO를 사용하여 GPU를 가상 머신(VM)에 패스스루(passed through)한 이후에 발생합니다. 게스트 종료 또는 GPU 재할당 과정에서, 호스트 시스템은 패스스루 장치 정리의 표준 절차인 PCIe 기능 레벨 리셋(FLR)을 수행합니다. 하지만 GPU가 정상적인 상태로 돌아가지 못하고 다음과 같이 커널이 보고합니다: "FLR 후 65535ms 동안 준비되지 않음; 포기함(giving up)."

    이 지점에서 카드는 더 이상 lspci 명령어로 인식되지 않아 "unknown header type 7f"와 같은 오류를 발생시킵니다. CloudRift는 정상 작동을 복구할 수 있는 유일한 방법이 시스템 전체의 전원 사이클(power-cycle)을 거치는 것임을 지적했습니다. AI 스타트업 tinygrad를 개발한 Tiny Corp는 X.com에 CloudRift의 분석 결과를 공유하며 다음과 같은 질문을 던져 이 문제를 공론화했습니다.

    Do 5090s and RTX PRO 6000s have a hardware defect? We've looked into this and can't find a fix.

    tl;dr the cards can get into a state where they don't listen to reset. https://t.co/7HgpBfn8Nd

    2025년 9월 6일

    다른 사용자들의 유사한 장애 보고

    Proxmox 포럼 및 Level1Techs 커뮤니티의 스레드들에서도 RTX 5090을 사용하는 일반 사용자 및 얼리 어답터들이 유사한 현상을 겪고 있다는 보고가 이어지고 있습니다.

    한 사례에서는 Windows 게스트가 종료된 후 호스트 전체가 멈추는(host hang) 문제가 발생했으며, 운영체제 레벨에서 재부팅을 시도했음에도 불구하고 GPU가 재초기화되지 않았습니다. 또 다른 사용자는 "호스트가 응답하지 않게 되어 문제를 발견했습니다. 추가 디버깅 결과, LinuxVM 종료 후 FLO 타임아웃이 발생하자 호스트 CPU가 소프트 락(soft lock) 상태에 빠졌습니다. 이전 4080에서는 이런 문제가 없었습니다"라고 보고했습니다.

    여러 사용자가 PCIe ASPM 또는 ACS 설정을 변경해도 이 오류가 완화되지 않는다는 점을 확인했습니다. RTX 4090과 같은 구형 카드에서는 문제가 보고되지 않아, 이 버그가 Nvidia의 Blackwell 계열에만 국한된 현상일 가능성이 높다는 점을 시사합니다.

    FLR은 GPU 패스스루 환경에서 필수적인 기능으로, 장치가 게스트 간에 안전하게 리셋 및 재할당될 수 있도록 합니다. 만약 FLR 메커니즘 자체가 신뢰할 수 없다면, 단일 카드 장애가 전체 호스트를 다운시킬 수 있는 경우, 다중 테넌트 AI 워크로드나 홈 랩 환경에서 가상화 사용이 매우 위험해질 수 있습니다.

    현재 Nvidia는 이 문제에 대해 공식적으로 인정하지 않았으며, 기사 작성 시점까지 알려진 완화책은 없습니다.

    [출처:] https://www.tomshardware.com/pc-components/gpus/rtx-5090-pro-6000-bug-forces-host-reboot