DeepSeek의 AI 돌파구, 일부 기능에서 업계 표준 CUDA 대신 Nvidia의 어셈블리 유사 PTX 프로그래밍 사용

hw_reporter

획기적인 최적화는 결코 쉽지 않은 과정입니다.

DeepSeek은 2,048개의 Nvidia H800 GPU 클러스터를 활용하여 약 두 달 만에 6,710억 개의 매개변수를 갖는 Mixture-of-Experts(MoE) 언어 모델을 성공적으로 훈련시키며 AI 업계에 큰 파장을 일으켰습니다. 이 모델은 Meta와 같은 업계 선두 주자들보다 10배 높은 효율성을 입증했습니다. @Jukanlosreve가 인용한 미래에셋증권의 분석에 따르면, 이러한 기술적 돌파구는 수많은 세밀한 최적화 구현과, 일부 기능에 대해 Nvidia의 CUDA 대신 Nvidia의 어셈블리 유사 PTX(Parallel Thread Execution) 프로그래밍을 적용함으로써 달성되었습니다.

최근 시장 동향:

오늘: OpenAI CEO 샘 알트만은 DeepSeek을 ‘인상적’이라 평가했습니다. (참고: 2023년에는 경쟁이 거의 불가능하다고 발언한 바 있음.)
2025년 1월 28일: 투자자 패닉 발생: Nvidia 주식 가치 5,890억 달러 하락.
2024년 12월 27일: DeepSeek 전격 공개.

Nvidia의 PTX란?
Nvidia의 PTX(Parallel Thread Execution)는 Nvidia가 자사 GPU를 위해 설계한 중간 명령어 셋 아키텍처(ISA)입니다. PTX는 상위 레벨의 GPU 프로그래밍 언어(예: CUDA C/C++ 또는 기타 언어 프론트엔드)와 저수준 기계어(SASS, 스트리밍 어셈블리) 사이에 위치합니다. PTX는 GPU를 데이터 병렬 컴퓨팅 장치로 노출하는 근접한 금속 ISA(Intermediate Instruction Set Architecture) 특성을 지니고 있어, CUDA C/C++ 등 다른 언어로는 구현하기 어려운 레지스터 할당(register allocation) 및 스레드/워프 레벨의 조정과 같은 세밀한 최적화가 가능하게 합니다. PTX가 SASS로 변환되는 과정에서 특정 세대 Nvidia GPU에 맞춰 최종 최적화가 이루어집니다.

DeepSeek의 기술적 접근 방식:
예를 들어, DeepSeek이 자체 V3 모델을 훈련할 때 Nvidia H800 GPU에 대한 재구성을 수행했습니다. 총 132개의 스트리밍 멀티프로세서 중 20개를 서버 간 통신용으로 전용 할당했습니다. 이는 프로세서의 연결성 한계를 극복하고 거래 속도를 높이기 위한 데이터 압축 및 압축 해제 작업일 수 있습니다. 또한, DeepSeek은 성능 극대화를 위해 추가적인 세밀한 스레드/워프 레벨 조정 등을 적용하는 고급 파이프라인 알고리즘을 구현했습니다.

이러한 수정 사항들은 표준 CUDA 레벨의 개발을 훨씬 초월하는 수준이지만, 그만큼 유지보수가 매우 까다롭고 난이도가 높습니다. 따라서 이러한 수준의 최적화는 DeepSeek 엔지니어들만의 탁월한 기술력을 반영합니다. 미국 규제로 인해 심화된 글로벌 GPU 부족 현상은 DeepSeek 같은 기업들이 혁신적인 솔루션을 채택하도록 강요했으며, DeepSeek은 이를 통해 획기적인 돌파를 이루어냈습니다. 다만, DeepSeek이 이러한 결과를 얻기 위해 개발에 투입한 정확한 투자 규모는 불분명합니다.

시장 파급 효과와 전망:
DeepSeek의 성공은 일부 투자자들이 새로운 AI 모델을 구동하는 데 필요한 고성능 하드웨어의 필요성이 낮아질 것이라고 예측하면서 시장 혼란을 야기했고, 이는 Nvidia와 같은 기업들의 판매에 타격을 주었습니다. 인텔의 전 최고경영자(ex-chief executive)인 팻 겔싱어와 같은 업계 베테랑들은 AI와 같은 애플리케이션이 접근 가능한 모든 컴퓨팅 자원을 활용할 수 있다고 보는 시각입니다. 겔싱어는 DeepSeek의 성과를 범용적인 저가형 기기에 AI 기능을 추가하는 방식으로 해석하고 있습니다.

[출처:] https://www.tomshardware.com/tech-industry/artificial-intelligence/deepseeks-ai-breakthrough-bypasses-industry-standard-cuda-uses-assembly-like-ptx-programming-instead