디크립팅 과정이 프로세서 내부에서 일어나지 않아, 공격의 전체 범주를 제거합니다.

현대의 암호화 기술은 데이터가 저장 장치에 저장되거나, 시스템 내부의 다양한 링크를 통해 전송될 때, 또는 처리 순서를 기다리며 DRAM에 호스팅될 때에도 데이터를 보호할 수 있도록 합니다. 그러나 데이터가 CPU, GPU 또는 기타 유형의 프로세서에 도달하면 복호화되어 본질적으로 평문 형태로 나타나므로, 다양한 유형의 공격에 취약해집니다.
DLSS 기반의 CPU 스케일링
사이드 어택(side attacks), DMA 공격, 하이퍼바이저 스누핑(hypervisor snooping)과 같은 위험으로부터 데이터를 완전히 보호하기 위해 인텔은 데이터를 먼저 복호화하지 않고 암호화된 상태로 작동하는 프로세서를 개발했습니다. 인텔은 최근 이 칩을 시연했으며, 이 과정에서 완전히 암호화된 데이터를 처리하는 수학 연산 분야에서 인상적인 성능 향상을 주장하고 있습니다.

인텔은 지난달 국제 고체 회로 학회(ISSCC)에서 완전 동형 암호화(Fully Homomorphic Encryption, FHE)를 특징으로 하는 Heracles 가속기를 소개하고 시연했습니다. FHE는 암호화된 데이터를 받아 처리한 후, 그 결과를 여전히 암호화된 형식으로 출력하는 기술을 의미합니다. 이 칩은 x86 CPU가 아닙니다. 일반 소프트웨어를 실행하거나 운영 체제를 구동할 수 없으며, FHE 수학 연산 가속만을 위해 전적으로 설계되었습니다.
새 기술: CPU 트랜지스터 동작을 관찰 가능 — 테라헤르츠 복사(terahertz radiation)의 잠재적 데이터 유출 위험
FHE 수학 가속을 위해 설계된 목적용 칩인 이 새로운 칩은 1.20 GHz로 작동하며, 인텔에 따르면 이 유형의 워크로드에 사용되는 7가지 연산에서 2.50 GHz로 작동하는 24코어 인텔 Xeon W7-3455 'Sapphire Rapids' 대비 약 1,074배에서 5,547배 빠른 성능을 보입니다.

기술적인 관점에서 Heracles는 암호화된 워크로드의 복잡한 수학적 요구사항을 해결하는 데 어려움을 겪는 기존 CPU 및 GPU와는 근본적으로 다른 구조를 갖습니다. FHE 수학은 매우 큰 정수, 집약적인 다항식 계산, 그리고 일반 목적 프로세서가 처리하기 버거운 복잡한 데이터 변환에 의존합니다. 인텔의 Heracles는 8×8 메시(mesh)로 배치된 64개의 타일 쌍(tile-pair, 각 타일 쌍은 128개의 병렬 산술 레인을 포함함)으로 구성된 목적 설계 아키텍처의 8192-way SIMD 컴퓨팅 엔진을 활용합니다. 각 타일은 모듈러 덧셈, 뺄셈, 곱셈, 그리고 Number-Theoretic Transforms (NTT)와 역(inverse) NTT를 지원하는 특수 버터플라이 연산을 처리하도록 최적화된 산술 장치를 통합하고 있습니다.
NTT와 역 NTT는 암호화된 컴퓨팅의 핵심이지만, 무거운 데이터 이동과 정교하게 조정된 순열(permutations)을 요구합니다. 또한 이 가속기는 누적된 암호화 잡음(cryptographic noise)을 제거하고 더 긴 컴퓨팅 체인을 가능하게 하는 오토모르피즘(automorphisms) 및 부트스트래핑(bootstrapping) 연산을 지원합니다.

이 시스템 온 칩(System-on-Chip)은 정밀도를 유지하고 높은 병렬성을 보장하기 위해 32비트 산술 슬라이스(즉, 타일 쌍 내부의 각 레인이 32비트 산술 슬라이스 처리)를 사용함으로써, 대규모 암호화된 수학 연산의 효율성을 크게 향상시킵니다. 다만, 효율적인 명시적 병렬 실행을 위해서는 높은 메모리 대역폭이 필수적입니다. 이를 위해 이 칩은 두 개의 스택을 활용한 48GB의 HBM3 메모리, 그리고 내부 대역폭을 테라바이트/초(TB/s) 단위로 극대화하는 맞춤형 데이터 경로를 장착했습니다. 또한 컴퓨팅 엔진 근처에서 데이터를 준비(stage)할 수 있도록 64MB의 내부 스크래치패드 메모리, 대용량 레지스터 파일, 전용 버퍼가 포함되어 있습니다.
인텔에 따르면, Heracles는 최고 성능에서 버터플라이 프리미티브(butterfly primitives)의 경우 약 29.5 TOPS, 모듈러 산술(modular arithmetic)의 경우 약 9.8 TOPS, 그리고 변환 작업(transform operations)의 경우 테라비트/초(Tb/s) 단위의 처리량을 달성합니다. 이 프로세서는 BGV, BFV, CKKS를 포함한 여러 주요 FHE 스킴을 지원하며, 다양한 매개변수로 구성된 방대한 처리 능력을 제공합니다.
[제조/판매 정보]
현재 이 제품의 구매 정보는 제공되지 않습니다.