AI 기반 그래픽 기술 시대, 프레임 수치 너머의 비디오 품질 측정 기준이 재정립되다

benchlark2

최근 고성능 그래픽카드와 CPU의 발전은 단순히 높은 프레임 수치(FPS)를 뽑아내는 것 이상의 복잡한 영역으로 진화하고 있습니다.
DLSS 같은 업스케일링 기술이나 프레임 생성(Frame Generation) 기술이 주류가 되면서, 우리가 '좋은 그래픽'라고 판단하는 기준 자체가 근본적으로 바뀌고 있습니다.

문제는 이 과정에서 발생하는 시각적 왜곡, 즉 고스팅(Ghosting), 플리커(Flicker), 에일리어싱(Aliasing) 같은 아티팩트들을 어떻게 객관적인 수치로 측정할 것인가 하는 지점입니다.

기존의 이미지 품질 측정 지표들, 예를 들어 최대 신호 대 잡음비(PSNR) 같은 것들은 본래 손실 압축(lossy compression)의 품질을 평가하기 위해 설계되었기 때문에, 실시간으로 렌더링되는 복잡한 그래픽 과정에서 발생하는 시간적, 공간적 왜곡을 제대로 반영하지 못하는 본질적인 한계를 안고 있습니다.
즉, 아무리 높은 PSNR 점수를 받았다고 해도, 실제 사용자 눈에는 '어딘가 부자연스럽다'는 느낌을 받을 수 있다는 겁니다.

하드웨어 매니아 입장에서 가장 중요한 것은 '측정 조건의 공정성'과 '실사용에 미치는 영향'인데, 기존 지표들은 이 두 가지 측면에서 심각한 왜곡 가능성을 내포하고 있었습니다.
따라서 현대의 그래픽 파이프라인이 요구하는 수준의 정량적 품질 분석을 위해서는, 단순히 픽셀 단위의 평균 오차를 계산하는 방식으로는 한계가 명확합니다.
이러한 문제의식에서 인텔 연구진이 제시한 CGVQM(Computer Graphics Visual Quality Metric)은 실시간 그래픽 출력의 품질을 객관적으로 평가하려는 매우 흥미로운 시도입니다.

핵심은 단순히 '왜곡이 있다/없다'를 넘어, '인간의 눈이 얼마나 거슬릴지'를 점수화하는 데 있습니다.

이들은 단순히 이론적인 모델에 의존하지 않고, CGVQD라는 방대한 비디오 데이터셋을 구축했습니다.
이 데이터셋은 패스 트레이싱, 신경 디노이징, FSR, XeSS, DLSS 같은 최신 렌더링 기술들이 만들어내는 광범위한 왜곡 유형을 포괄적으로 담고 있다는 점에서 그 가치가 높습니다.

특히 주목할 부분은 이 모델이 인간 관찰자 그룹의 주관적인 평가(Ground Truth)를 학습 과정에 녹여냈다는 점입니다.

즉, "이 정도의 왜곡은 감지 불가(imperceptible) 수준이다"와 같은 인간의 시각적 판단 기준을 AI 모델에 주입하여, 모델의 점수가 사람의 체감 품질과 최대한 일치하도록 보정했다는 것입니다.
기술적인 관점에서 볼 때, 이들이 3D-CNN 아키텍처를 채택한 것은 매우 결정적인 선택입니다.

2D 패턴 정보(공간적 정보)만으로는 부족하고, 시간의 흐름에 따른 변화(시간적 패턴 정보)까지 동시에 고려해야만 비디오 품질의 복잡성을 포착할 수 있기 때문입니다.
이 3D 구조 덕분에 CGVQM은 왜곡을 식별하고 국소화하는 능력뿐만 아니라, 학습에 사용되지 않은 새로운 비디오에서도 일반화(Generalization)하여 성능을 측정할 수 있는 강력한 잠재력을 보여줍니다.

이는 곧 이 도구가 단순히 특정 벤치마크 환경에 국한된 점수가 아니라, 광범위한 실시간 그래픽 애플리케이션의 품질 검증에 활용될 수 있음을 의미합니다.
현대 그래픽 기술의 발전은 단순한 성능 향상을 넘어, '인간의 시각적 경험'을 정량화하는 새로운 차원의 품질 측정 기준을 요구하고 있다.