쿨러가 베이퍼 챔버에서 분리되었습니다.

형태가 심하게 변형된 GPU 수리, 단순한 호기심에서 악몽으로 변한 이야기: Aorus 브랜드의 Nvidia RTX 4090 카드가 Northwest Repair에 도착했습니다. 이 카드는 본래 커넥터가 녹았고 "일부 부품이 떨어져 나갔다"는 보고를 받았지만, 기술자가 부품 하나하나를 점검하면서 결국 수리 불가능하다는 결론에 이르렀습니다. 이는 숙련된 기술자의 손을 거치는 GPU에서는 매우 드문 사례입니다. 문자 그대로 형태가 휘어버린 '척추측만증'을 앓는 그래픽카드를 수리하려 했던 험난한 과정을 자세히 살펴보겠습니다.
문제가 된 징후는 즉시 포착되었습니다. 카드가 명백하고 비정상적으로 휘어진 것 외에도, 후면 플레이트(backplate)는 애프터마켓 플라스틱 나사로 조여져 있었고, 마치 거칠게 다뤄진 것처럼 심하게 마모되어 있었습니다.

분해하자, PCB 자체는 비교적 곧았으나, 쿨러가 너무 심하게 뒤틀려 진행자인 토니는 더 이상 원래 형태로 되돌릴 수 없다고 판단했습니다. 히트파이프(heatpipes)는 괜찮았지만, 핀 스택(fin stack)이 베이퍼 챔버(vapor chamber)에서 분리되는 현상이 있었으며, 서멀 패드(thermal pads)는 VRAM 및 대부분의 MOSFET과 제대로 접촉하고 있지 않았습니다.
(참고: RTX 5060이 화재를 겪어 덮개(shroud)와 팬이 녹았으나, PCB는 온전하게 살아남은 사례)

경험 많은 GPU 기술자는 "젠장"이라며 짧게 탄식하고 GPU 자체의 테스트를 위해 멀티미터(multimeter)를 꺼냈습니다. 12V 레일, 1.8V 레일, 그리고 메모리 부분에서 단락(dead short)이 감지되었으나, 5V와 PEX는 상대적으로 괜찮아 보였습니다. 12V 레일에 전류를 인가한 후, 그는 초기 가설을 세웠습니다. 열화상 카메라로 확인한 결과, VRAM 주변에 열이 축적되는 것을 보고 12V가 메모리 부분과 단락되었으며, 이 전기가 다른 부품까지 흘러넘쳐 손상시켰을 가능성을 확인했습니다. 그러나 코어의 저항값을 측정한 결과, 단락된 상태는 아니었기에 아직 희망이 있었습니다.
현미경으로 확인한 결과, 이 카드가 이미 이전에 RMA(Return Material Authorization) 과정을 거쳤으며, 여러 부품이 누락되어 상태가 좋지 않았음이 드러났습니다. 처음에는 지나치게 심각한 문제는 보이지 않았으나, 나사 포스트 근처에 가공 자국이 남아 있어 이유가 있는 그라인더(Dremel)를 사용했음을 암시했습니다.

이후 의심스러운 VRAM 모듈을 제거했지만, 단락은 여전히 지속되었습니다. 이는 12V가 전체 메모리 레일까지 도달하여 아마도 모든 VRAM 칩을 손상시켰다는 가설을 확정 지었습니다. 토니는 메모리 레일을 접지(ground)하여 안정화시킨 뒤, 다른 문제점을 파악하기 위해 더 높은 전류를 흘려보냈습니다. 5A를 인가하자 SIC653A 전력 스테이지(power stage)가 과열되며 실패했음을 나타냈고, 이로 인해 12V가 메모리까지 전달될 수 있었습니다. MOSFET을 제거하자 단락은 사라졌고, 도너 보드(donor board)의 새 부품으로 교체한 뒤 재테스트를 진행했습니다.
모든 레일의 단락은 사라졌으나, 메모리 부분에만 여전히 문제가 있었습니다. 토니는 VRAM에 다시 소량의 전류를 인가했고, 예상대로 코어 부분이 과열되기 시작하며 끔찍한 결론을 확정했습니다. 그는 수리가 아닌 오직 '부검(autopsy)'을 수행한 것이었습니다. 12V가 메모리 칩들을 거쳐 결국 코어에 도달해 코어를 태워버렸기 때문입니다.

왜 처음에는 "괜찮은" 것처럼 보였는지 의문을 가질 수 있습니다. 이는 저항 테스트가 명확한 단락만 보여줄 뿐, 실제 전류를 주입했을 때에야 전기적으로 손상된 GPU 코어의 최종적인 붕괴가 발생하며 고장 상태가 명확히 확인되기 때문입니다.
토니는 모든 절차를 설명하며, 이 과정을 통해 문제의 근원을 정확히 파악했다고 말했습니다.