연구자들을 위해 또 다른 ExaFLOPS급 슈퍼컴퓨터가 이용 가능해졌습니다.

아그본 국립 연구소(Argonne National Laboratory)는 오로라(Aurora) 슈퍼컴퓨터가 전면 가동되어 과학계에 공식적으로 이용 가능함을 발표했습니다. 2015년에 처음 발표되었으며 대규모 지연을 겪었던 이 장비는 현재 시뮬레이션 분야에서 1 FP64 ExaFLOPS 이상의 성능을 제공하며, 인공지능(AI) 및 머신러닝 분야에서는 11.6 mixed precision ExaFLOPS의 성능을 구현합니다.
DOE 과학국 사용자 시설(DOE Office of Science user facility)이자 아그본 리더십 컴퓨팅 시설(ALCF)의 디렉터 마이클 파프카(Michael Papka)는 "오로라를 개방 과학 연구에 공식적으로 투입하게 되어 매우 기쁘다"고 말했습니다. 그는 "초기 사용자들로부터 오로라의 방대한 잠재력을 미리 엿볼 수 있었습니다. 광범위한 과학계가 이 시스템을 활용하여 연구에 혁신을 가져오는 모습을 기대합니다"라고 덧붙였습니다.
오로라 슈퍼컴퓨터가 개방 과학 연구용으로 이용 가능해진 것은, ARNL 측에서 이 시스템을 공식적으로 수용한다는 의미로 해석되며, 이는 문제가 많았던 해당 시스템에 매우 중요한 이정표입니다. 오로라는 최초 2018년 완공을 목표로 했으나, 인텔(Intel)이 Xeon Phi 프로세서 생산을 중단함에 따라 목표 시기를 놓쳤습니다. 장비 재구축 과정에서도 인텔의 7nm 공정 기술 지연 등의 추가적인 차질을 겪으며 완성 일정이 2021년, 그리고 최종적으로 2023년으로 연기되었습니다.
2023년 6월 하드웨어 설치가 완료된 이후에도, 시스템이 완전히 가동되고 엑사스케일 성능에 도달하기까지 몇 달이 걸렸으며, 이는 마침내 2024년 5월에 이루어졌습니다. 다만 그 이전까지는 반년이 넘는 시간 동안 일부 선정된 연구원들만 시스템을 이용할 수 있었습니다.

오로라의 FP64 성능이 1 ExaFLOPS를 간신히 초과하는 수준이어서 시뮬레이션용으로 가장 강력하다고 보기는 어렵지만, HPL-MxP 벤치마크 기준 11.6 mixed precision ExaFLOPS를 달성할 수 있어 AI 분야에서는 가장 강력한 시스템이라 평가됩니다.
컴퓨팅, 환경 및 생명과학 분야의 아그본 연구소 연관 연구소 디렉터 릭 스티븐스(Rick Stevens)는 "오로라의 중요한 목표 중 하나는 과학 분야를 위한 거대 언어 모델(LLM) 훈련입니다"라고 말했습니다. 그는 "예를 들어, AuroraGPT 프로젝트를 통해 생물학에서 화학에 이르기까지 광범위한 영역의 지식을 통합할 수 있는 과학 특화 기반 모델을 구축하고 있습니다. 오로라를 활용하여 연구원들이 계산 속도뿐만 아니라 아이디어 구상 속도만큼 빠르게 발전할 수 있도록 돕는 새로운 AI 도구를 만드는 것이 목표 중 하나입니다"라고 설명했습니다.
오로라를 사용한 초기 연구 프로젝트들로는 인간 순환계, 원자로, 초신성 폭발과 같은 복잡한 시스템에 대한 상세 시뮬레이션이 포함됩니다. 또한 이 장비의 압도적인 성능은 아그본의 첨단 광자원(Advanced Photon Source, APS)과 CERN의 대형 강입자 충돌기(Large Hadron Collider) 등에서 발생하는 대규모 데이터를 처리하는 데 사용되고 있습니다.
이 시스템의 기술적 핵심은 HPE의 Shasta 아키텍처를 기반으로 하며, HPE Slingshot 인터커넥트를 통해 최고 수준의 성능을 달성하고 있습니다. 전체 시스템은 450개의 전용 코어와 6,500개의 GPU를 통합하여 구축되었으며, 100개의 대용량 메모리를 특징으로 합니다.
이 시스템은 총 1,000개의 PCIe 5.0 슬롯을 통해 대규모 확장성을 제공합니다. 전력 효율성을 극대화하기 위해 액체 냉각 시스템을 채택하여, 30 MW의 전력을 소비하고도 안정적인 운영이 가능합니다.