전반적으로 더욱 효율적으로 재구성된 아웃풋.

오픈 소스 플레이스테이션 3 에뮬레이터인 RPCS3 개발진은 PS3의 Cell Broadband Engine 프로세서 에뮬레이션 분야에서 중대한 돌파구를 마련했다고 밝혔다. 선임 개발자인 엘라드(Elad)가 이전에 인식되지 않았던 SPU 사용 패턴을 발견하고, 이를 통해 훨씬 효율적인 네이티브 PC 출력을 생성할 수 있는 새로운 코드 경로를 작성했기 때문이다. 이러한 개선 사항은 에뮬레이터 라이브러리에 포함된 모든 게임에 혜택을 주며, 특히 SPU를 많이 사용하는 타이틀 중 하나인 《트위스티드 메탈(Twisted Metal)》의 경우, v0.0.40-19096 빌드와 v0.0.40-19151 빌드 간 평균 FPS가 5%에서 7%가량 향상되는 모습을 보였다.
PS3의 Cell 프로세서는 PowerPC 기반의 PPU와 최대 7개의 시너지 프로세싱 유닛(Synergistic Processing Units)으로 구성되었으며, 각 SPU는 자체 256KB의 로컬 스토어 메모리를 가진 128비트 SIMD 코프로세서 역할을 수행했다. RPCS3는 LLVM과 ASMJIT 백엔드를 활용하여 Cell의 원래 명령어를 네이티브 x86 코드로 재컴파일하는 방식으로 SPU 워크로드를 에뮬레이션한다. 이때 재컴파일(translation)의 품질이 에뮬레이션된 SPU 사이클이 호스트 CPU 시간 중 어느 정도의 오버헤드를 차지하는지를 결정하는 핵심 요소다.
SPU 에뮬레이션은 RPCS3에서 가장 큰 CPU 병목 현상(bottleneck)이었다. PS3는 게임 워크로드를 위해 최대 6개의 SPU를 동시에 구동할 수 있었으나, 에뮬레이터에서는 각각의 SPU 작업이 호스트 CPU 스레드에서 재컴파일되고 실행되어야 한다. 엘라드의 기여는 PS3 게임들이 SPU 명령어를 활용하는 새로운 패턴을 규명하고, 이에 대한 재컴파일 과정을 더욱 효율적으로 구현한 데 있다.
이 같은 최적화의 핵심 내용은 다음과 같다: "우리는 PS3 Cell CPU 에뮬레이션에서 새로운 돌파구를 마련했습니다! 엘라드가 새로운 SPU 사용 패턴을 발견하고 이를 통해 최적화된 PC 코드를 생성하는 방법을 코딩했으며, 이는 모든 게임에 이점을 제공합니다! SPU 집약적인 게임 중 하나인 《트위스티드 메탈》은 평균 FPS가 5~7% 개선되었습니다. pic.twitter.com/x29X4C5JnV 2026년 4월 3일"

이는 동일한 SPU 워크로드에 대해 더욱 정밀하고 효율적인 호스트 측 머신 코드(host-side machine code)를 생성하여 전반적인 CPU 오버헤드를 줄여준다는 것을 의미한다. RPCS3는 《트위스티드 메탈》의 프레임 속도 향상을 보여주는 비디오 비교 자료를 공유했으며, 시연에 사용된 컷신은 동적 조명, NPC 배치, 환경 효과가 매번 다르게 변화하는 특성을 가지고 있어 캡처마다 미묘한 시각적 차이가 있음을 밝히기도 했다.
RPCS3는 이러한 최적화가 저사양부터 고사양까지 모든 CPU에 긍정적인 영향을 주며, 특히 PS3 에뮬레이션 구동에 어려움을 겪을 것이 예상되는 저가형 APU인 듀얼 코어 AMD Athlon 3000G에서도 《그란 투리스모 5(Gran Turismo 5)》의 개선된 오디오 렌더링 및 전반적인 성능 향상이 관측되었다는 사용자 보고를 인용했다.
RPCS3 코드베이스에서 elad335로 활동하는 엘라드는 프로젝트의 SPU 최적화 작업을 장기간 담당해 온 경력을 자랑한다. 그가 2024년 6월에 달성한 SPU 최적화는 4코어 4스레드 CPU 환경에서 30%에서 최대 100%에 달하는 성능 향상을 기록했으며, 《데몬즈 소울(Demon's Souls)》과 같은 타이틀은 성능이 제한적인 하드웨어에서도 프레임 속도가 두 배로 증가하는 성과를 보여주었다.
주목할 만한 이정표로, RPCS3는 지난 3월에 《마인크래프트 PS3 에디션》의 타이틀 화면에서 1,500 FPS가 넘는 성능을 시연했다. 이 수치는 프로젝트의 재컴파일 파이프라인 효율성을 입증한 벤치마크 결과였다. 그리고 불과 몇 주 전, 최신 SPU 개선 업데이트에서는 Apple Silicon Mac 및 Snapdragon X 노트북을 포함한 Arm 하드웨어에서도 SPU 에뮬레이션을 원활하게 구동할 수 있도록 최적화가 이루어졌다.
[참고: 최적화된 문장 구조로 정리]