인텔, 게이밍 이미지 품질 측정용 신규 툴 공개 — 업스케일러, 프레임 생성 등 영향 분석하는 AI 도구; 컴퓨터 그래픽 비디오 품질 측정 지표(Computer Graphics Video Quality Metric) GitHub에서 이용 가능

hw_reporter

새로운 데이터셋과 보조 AI 모델이 현대 렌더링 기법으로 구현된 이미지의 품질을 객관적으로 정량화하는 새로운 방향을 제시합니다.

인텔이 현대 게임의 이미지 품질을 객관적으로 평가하는 방식을 개선할 잠재력을 보여주고 있습니다. AI 기반의 새로운 비디오 품질 측정 지표인 컴퓨터 그래픽 비주얼 품질 측정 지표(Computer Graphics Visual Quality Metric, CGVQM)가 PyTorch 애플리케이션 형태로 GitHub에서 공개되었습니다.

현대 게임 환경에서는 애니메이션 프레임이 네이티브로 렌더링되는 경우가 드뭅니다. DLSS와 같은 업스케일러 사용이나 프레임 생성 기술을 활용하는 과정에서 고스팅, 플리커, 에일리어싱, 디소클루전 등 다양한 이미지 품질 문제가 발생할 수 있습니다. 이러한 문제는 통상적으로 정성적(qualitatively)으로 논의되지만, 특정 출력 프레임 전체의 성능에 대해 객관적인 측정치나 점수를 부여하기는 훨씬 어렵습니다.

이미지 품질 정량화를 위해 최대 신호 대 잡음비(Peak Signal-to-Noise Ratio, PSNR)와 같은 지표가 비디오 평가에 흔히 사용되지만, 해당 측정치에는 본질적인 한계와 오용의 여지가 존재합니다.

실제 PSNR의 잠재적 오용 사례 중 하나는 실시간 그래픽 출력을 평가하는 것입니다. PSNR은 본래 손실 압축(lossy compression)의 품질을 측정하기 위해 고안되었기 때문에, 실시간 그래픽 과정에서 흔히 발생하는 압축 아티팩트를 제대로 반영할 수 없습니다. 따라서 PSNR만으로는 앞서 언급된 모든 잠재적 문제를 설명하기 부족합니다.

이러한 한계를 극복하고 현대 실시간 그래픽 출력의 이미지 품질을 객관적으로 평가하기 위해, 인텔 연구진은 Akshay Jindal, Nabil Sadaka, Manu Mathew Thomas, Anton Sochenov, 그리고 Anton Kaplanyan이 발표한 논문 "CGVQM+D: Computer Graphics Video Quality Metric and Dataset"에서 두 가지 접근 방식을 제시했습니다.

첫째, 연구진은 현대 렌더링 기술로 인해 발생 가능한 다양한 이미지 품질 저하 현상을 포함하는 새로운 비디오 데이터셋, 컴퓨터 그래픽 비주얼 품질 데이터셋(Computer Graphics Visual Quality Dataset, CGVQD)을 구축했습니다. 이 데이터셋은 패스 트레이싱, 신경 디노이징, 신경 슈퍼샘플링 기술(FSR, XeSS, DLSS 등), 가우시안 스플래팅, 프레임 보간, 적응형 가변 비율 쉐이딩 등에서 발생하는 왜곡을 다룹니다.

둘째, 연구진은 이러한 광범위한 왜곡을 모두 고려하여 이미지 품질에 대한 새로운 점수를 산출하는 AI 모델, 즉 CGVQM을 개발하고 훈련했습니다. AI 모델을 도입함으로써 실시간 그래픽 출력 품질의 평가 및 평점화 작업은 더욱 확장성(scalable)을 갖게 되었습니다.

연구진은 개발한 AI 모델이 인간 관찰자의 판단과 잘 연관되도록 하기 위해, 먼저 새로운 비디오 데이터셋을 인간 관찰자 그룹에게 제공하여 다양한 왜곡이 지각되는 정도에 대한 기준점(ground truth)을 확보했습니다. 관찰자들은 각 비디오에 포함된 왜곡 유형을 "감지 불가(imperceptible)"부터 "매우 거슬림(very annoying)"까지의 척도로 평가하도록 요청받았습니다.

이러한 품질 기준점을 바탕으로, 연구진은 인간 관찰자 수준에 필적할 수 있는 왜곡 식별 신경망을 훈련하는 것을 목표로 했습니다. 모델의 기반으로는 잔여 신경망(ResNet)을 사용한 3차원 컨볼루션 신경망(CNN) 아키텍처를 채택했으며, 3D-ResNet-18 모델을 활용하여 관심 있는 왜곡에 특화되게 훈련하고 보정했습니다.

논문에 따르면, 3D 네트워크 구조는 결과적인 이미지 품질 측정 지표에서 고성능을 달성하는 데 결정적이었습니다. 3D 네트워크는 입력 프레임의 픽셀 그리드와 같은 공간적(2D) 패턴 정보뿐만 아니라 시간적 패턴 정보까지 동시에 고려할 수 있기 때문입니다.

논문은 CGVQM 모델이 최소한 연구진의 자체 구축 데이터셋에서 다른 유사한 이미지 품질 평가 도구들보다 우수한 성능을 보인다고 주장합니다. 실제로 가장 정교한 CGVQM-5 모델은 CGVQD 비디오 카탈로그에 대한 인간의 기준 평가에 근접하며, 상대적으로 단순한 CGVQM-2 모델도 테스트된 모델 중 세 번째로 높은 순위를 기록했습니다.

나아가 연구진은 이 모델이 CGVQD 내의 왜곡을 식별하고 국소화하는 데 뛰어난 성능을 보이는 것 외에도, 학습에 사용되지 않은 비디오에도 그 식별 능력을 일반화(generalize)할 수 있음을 입증했습니다.

이러한 일반화 능력은 CGVQM 모델이 실시간 그래픽 애플리케이션의 이미지 품질 평가를 위한 광범위하게 유용한 도구가 되기 위한 핵심 요소입니다. 비록 다른 데이터셋에서 CGVQM-2와 CGVQM-5가 모든 영역에서 1위를 차지하지는 못했으나, 광범위한 데이터셋 전반에 걸쳐 강력한 경쟁력을 보여주었습니다.

본 논문은 실시간 그래픽 출력 평가를 위한 신경망 기반 접근 방식을 개선할 수 있는 여러 방향을 제시합니다. 그중 하나는 성능 향상을 위해 트랜스포머(Transformer) 신경망 아키텍처를 사용하는 것입니다. 연구진은 주 데이터셋을 대상으로 트랜스포머 네트워크를 구동하는 데 요구되는 막대한 컴퓨팅 자원 증가를 이유로 본 연구에서는 3D-CNN 아키텍처를 채택했다고 설명합니다.

또한, 이미지 품질 평가를 더욱 정교화하기 위해 광류 벡터(optical flow vectors)와 같은 추가 정보를 포함할 가능성도 열어두었습니다. 그럼에도 불구하고, 현재 CGVQM 모델만으로도 그 성능은 실시간 그래픽 출력 평가 분야에서 매우 흥미로운 발전을 의미합니다.

(본문 맨 끝의 홍보 문구는 기술 에디팅의 주 내용이 아니므로 자연스러운 흐름을 위해 제외했습니다.)

[출처:] https://www.tomshardware.com/video-games/pc-gaming/intel-releases-new-tool-to-measure-gaming-image-quality-in-real-time-ai-tool-measures-impact-of-upscalers-frame-gen-others-computer-graphics-video-quality-metric-now-available-on-github