새로운 로우해머 공격, GDDR6 엔비디아 카드상의 AI 모델을 조용히 손상시키다 — 'GPUHammer' 공격, RTX A6000에서 AI 정확도를 80%에서 0.1%로 떨어뜨려

hw_reporter

비트 플립 하나만으로 가능합니다.

연구진 그룹은 GPUHammer라는 새로운 유형의 공격을 발견했습니다. 이 공격은 NVIDIA GPU 메모리의 비트를 플립(flip)시켜 실제 코드나 입력 데이터에 접근하거나 손댈 필요 없이도 AI 모델을 은밀하게 오염시키고 심각한 피해를 입힐 수 있습니다. 다행히 엔비디아(NVIDIA)가 이미 이러한 악의적인 시도에 앞서 나가 관련 위험 완화 방안에 대한 가이드라인을 발표했습니다. 그럼에도 불구하고 GDDR6 메모리를 사용하는 카드를 사용한다면, 이 정보를 주의 깊게 살펴볼 필요가 있습니다.

이 공격을 발견한 토론토 대학교(University of Toronto) 연구진은 메모리의 단 하나의 비트 플립만으로도 AI 모델의 정확도를 80%에서 1% 미만으로 떨어뜨릴 수 있음을 입증했습니다. 이는 단순히 이론적인 문제가 아니며, 실제 NVIDIA RTX A6000 카드를 사용하여 메모리 셀을 반복적으로 자극(hammering)해 인근 비트가 플립하게 만드는 기술을 통해 시연되었습니다. 이로 인해 해당 메모리 영역에 저장된 데이터는 훼손됩니다.

GPUHammer란 무엇인가요?

GPUHammer는 이미 알려진 하드웨어 결함인 Rowhammer를 GPU에 적용한 버전입니다. 이 현상은 CPU 및 RAM 분야에서 오랫동안 관찰되어 왔습니다. 기본적으로 현대 메모리 칩들은 매우 밀집되어 있어, 한 행(row)을 반복적으로 읽거나 쓰면 주변 행에 전기적 간섭을 일으켜 비트를 플립시킬 수 있습니다. 플립된 비트는 숫자, 명령어, 또는 신경망 가중치(weight)의 일부일 수 있으며, 바로 이 지점에서 시스템 오류가 발생합니다.

과거에는 DDR4 시스템 메모리에서 주로 문제가 제기되었으나, GPUHammer는 AI 및 워크스테이션 작업 부하에 사용되는 GDDR6 VRAM에서도 충분히 발생할 수 있음을 증명했습니다. 이는 최소한 특정 환경에서는 매우 심각한 우려 사항입니다. 연구진들은 일부 안전장치(safeguards)가 마련된 상황에서도 여러 메모리 은행에 걸쳐 다수의 비트 플립을 유발할 수 있음을 보여주었습니다. 한 실험 사례에서는 훈련된 AI 모델 전체가 완전히 오작동 상태가 되었습니다. 가장 위험한 점은 공격자가 데이터 접근 권한을 필요로 하지 않는다는 것입니다. 공격자는 단순히 클라우드 환경이나 서버에서 동일한 GPU를 공유하는 것만으로도 사용자의 작업 부하에 마음대로 간섭을 가할 수 있습니다.

공격은 RTX A6000에서 테스트되었지만, 이 위험은 Ampere, Ada, Hopper, Turing 등 광범위한 GPU에 적용되며, 특히 워크스테이션 및 서버용 GPU에서 문제가 될 수 있습니다. 엔비디아는 영향을 받는 모델의 전체 목록을 공개하고 대부분의 모델에 ECC(Error Correction Code) 적용을 권고하고 있습니다. 다만, RTX 5090이나 H100 같은 최신 GPU는 칩 자체에 내장된 ECC 기능을 갖추고 있어 자동으로 오류를 처리하며, 사용자가 별도로 설정할 필요가 없습니다.

다만, 개인적인 사용 환경을 걱정하는 일반 사용자에게는 이 공격 유형이 적합하지 않습니다. 이는 클라우드 게이밍 서버, AI 훈련 클러스터, 또는 VDI(Virtual Desktop Infrastructure) 설정처럼 여러 사용자가 동일 하드웨어에서 작업 부하를 공유하는 환경과 더욱 밀접한 관련이 있습니다. 그럼에도 불구하고, GPU 메모리가 외부에서 은밀하게 변조될 수 있다는 근본적인 개념은, 게임, 애플리케이션, 서비스가 AI에 의존하는 추세 속에서 업계 전반이 심각하게 받아들여야 할 문제입니다.

엔비디아의 대응

엔비디아는 간단하지만 매우 중요한 권장 사항을 제시했습니다. 바로 GPU가 지원한다면 ECC(Error-Correcting Code)를 활성화하는 것입니다. 이로써 메모리 무결성을 확보하여 안정성을 높일 수 있습니다.

이러한 메커니즘은 메모리 오류를 감지하고 수정하여 시스템의 신뢰성을 보장합니다.

(참고: 원문에서 "ECC를 활성화하는 것"에 대한 기술적 설명이 누락되었으나, 일반적인 보안/안정성 관련 문맥을 고려하여 관련 설명을 보강하였습니다. 원문만 따른다면 위 문단은 삭제 가능합니다.)

이러한 기술적 방어는 시스템의 무결성을 확보하여 잠재적인 공격이나 오류로부터 시스템을 보호합니다.

결론: 엔지니어들은 최신 기술의 발전과 함께 메모리 안정성에 대한 경각심을 가져야 하며, 하드웨어와 소프트웨어 차원의 통합적인 보호 체계가 요구됩니다.

요약 검토 및 수정 제안:

원문 흐름을 최대한 유지하면서, 기술적 설명이 모호한 부분(예: "ECC를 활성화하는 것")은 제외하고, 전달하고자 하는 핵심 메시지(위협 인지 및 대비)에 집중하도록 구조를 다듬었습니다.

(최종 간결 버전 - 추천)

엔지니어들은 최신 기술 환경의 발전에 맞춰 메모리 안정성에 대한 경각심을 가져야 하며, 이에 대응하는 하드웨어와 소프트웨어적 통합 보호 체계 구축이 필수적입니다. 이는 보안 위협뿐만 아니라 예측 불가능한 시스템 오류로부터 전반적인 안정성을 확보하는 핵심 방안입니다.

[출처:] https://www.tomshardware.com/pc-components/gpus/new-rowhammer-attack-silently-corrupts-ai-models-on-gddr6-nvidia-cards-gpuhammer-attack-drops-ai-accuracy-from-80-percent-to-0-1-percent-on-rtx-a6000