AMD 최적화된 Stable Diffusion 모델, Ryzen 및 Radeon에서 최대 3.3배 성능 향상 달성

hw_reporter

RX 9070 시리즈 및 Ryzen AI Max+ APU의 대폭적인 성능 향상.

Stability Diffusion의 개발사인 Stability AI가 ONNX 최적화 모델을 공개했습니다. 이 모델들은 선택된 Radeon GPU 및 모바일 Ryzen AI APU를 포함한 호환 AMD 하드웨어에서 최대 3.3배까지 빠른 속도로 실행됩니다.

AMD와 TensorStack AI가 개발한 플랫폼인 Amuse는 사용자가 AMD 하드웨어에서 이미지와 짧은 비디오를 로컬로 생성할 수 있게 해줍니다. 최신 Amuse 3.0 릴리스는 업데이트된 모델을 지원할 뿐만 아니라, 비디오 디퓨전(video diffusion), AI 사진 필터, 로컬 텍스트-이미지 생성 등 다양한 신규 기능을 탑재했습니다. Amuse 3.0 및 AMD 최적화 모델을 사용하려면 Adrenalin 24.30.31.05 프리뷰 드라이버 또는 곧 출시될 Adrenalin 25.4.1 메인라인 릴리스가 필수입니다.

지난 한 해 동안 AMD는 여러 OSV, OEM, ISV와 파트너 관계를 구축하며 AI 애플리케이션을 근본적으로 최적화해 왔습니다. 이 과정에서 하드웨어 최적화, 효율적인 드라이버, 컴파일러, 최적화된 ML 모델 등의 개선 사항이 통합되었습니다. 이러한 파트너십을 기반으로 Stability AI는 Stable Diffusion 제품군에 대한 Radeon 최적화 버전을 출시했으며, 여기에는 Stable Diffusion 3.5 (SD3.5)와 Stable Diffusion XL Turbo (SDXL Turbo)가 포함됩니다. 1차 출처 측정 결과에 따르면, SD3.5 Large의 경우 기본 PyTorch 구현 대비 3.3배의 속도 향상을 보였고, SD3.5 Large Turbo는 2.1배, SDXL Turbo는 1.5배의 향상을 기록했습니다.

인공지능은 우리 일상의 필수 요소가 되었지만, 대부분은 클라우드에 의존하며 활성 인터넷 연결이 필수입니다. 이로 인해 'AI PC'가 주목받고 있으며, 이는 머신러닝 작업을 가속화하는 전용 하드웨어 유닛을 갖춘 최신 프로세서 개발을 주도하고 있습니다. 예를 들어, NPU나 특화된 AI 행렬 코어와 같은 기술들은 더 작고 효율적인 AI 모델을 로컬 환경에서 구동할 수 있게 합니다.

RDNA 4는 AMD의 2세대 AI 가속기를 특징으로 하며, RDNA 3 대비 FP16 성능(희소성 적용 시)은 4배, INT8 성능(희소성 적용 시)은 8배 향상된 성능을 제공합니다. 이러한 최적화된 모델들은 특정 아키텍처에 국한되지는 않지만, AMD는 SDXL, SD 3.5 Large, Turbo와 같은 특정 모델에 대해서는 고급 GPU 사용을 권장합니다. Ryzen AI APU는 내장된 XDNA NPU를 Radeon iGPU와 함께 활용할 수 있으며, 이 경우 대용량 메모리 버퍼와 뛰어난 성능을 가진 Strix Halo가 권장되는 선택지입니다.

AMD 하드웨어에 최적화된 Stable Diffusion 모델들은 "_amdgpu" 접미사로 태그 지정되어 있으며, 현재 Hugging Face에서 다운로드할 수 있습니다. 필요한 하드웨어를 갖추었다면, 사용자 환경이나 AMD의 Amuse 3.0 중 원하는 환경에서 즉시 모델들을 실행할 수 있습니다.

최신 뉴스, 분석 및 리뷰를 받아보시려면 톰스 하드웨어(Tom's Hardware)를 구글 뉴스에서 팔로우해 주세요. 팔로우 버튼을 클릭하는 것을 잊지 마십시오.

[출처:] https://www.tomshardware.com/pc-components/gpus/radeon-optimized-stable-diffusion-models-achieve-up-to-3-3x-performance-boost