NIST, AI 모델 리스크 테스트 도구 출시

sw_reporter

미국 국립표준기술연구소(NIST)는 미국 정부, 기업, 그리고 일반 대중을 대상으로 기술을 개발하고 시험하는 기관으로서, AI 시스템의 성능을 저하시킬 수 있는 악의적인 공격, 특히 AI 모델 학습 데이터를 "오염"하는 공격이 미치는 영향을 측정하도록 설계된 테스트베드를 재출시했습니다.

고전적인 천문학 및 측량 장비를 잇는 후속작으로, 2022년에 처음 공개된 이 모듈식 오픈 소스 웹 기반 도구는 기업이 AI 모델을 훈련시키고 해당 모델을 사용하는 사용자들이 AI 위험을 평가, 분석, 추적할 수 있도록 돕는 것이 목표입니다. NIST에 따르면, Dioptra는 모델 벤치마킹과 연구에 사용될 뿐만 아니라, "레드팀(red-teaming)" 환경에서 모델을 가상 위협에 노출시키는 공통 플랫폼 역할도 수행할 수 있습니다.

NIST는 보도 자료를 통해 "기계 학습 모델에 대한 적대적 공격의 영향을 테스트하는 것이 Dioptra의 핵심 목표 중 하나입니다"라고 밝혔습니다. 또한, 이 오픈 소스 소프트웨어는 누구나 무료로 다운로드받을 수 있어, 정부 기관과 중소기업을 포함한 모든 커뮤니티가 AI 개발사들이 주장하는 시스템 성능에 대해 자체적으로 평가를 수행하는 데 기여할 수 있을 것이라고 덧붙였습니다.

[Dioptra 인터페이스 스크린샷]

Dioptra는 NIST 자체 문서 및 최근 설립된 NIST AI 안전 연구소(AI Safety Institute)의 관련 자료와 함께 공개되었는데, 이 자료들은 비동의 포르노그래피(nonconsensual pornography) 생성과 같이 AI가 악용될 수 있는 위험을 완화하는 방법을 제시합니다. 이는 모델의 역량과 전반적인 안전성을 평가하는 것을 목적으로 한 영국 AI 안전 연구소(U.K. AI Safety Institute)의 출범에 이은 것입니다. 나아가 미국과 영국은 작년 11월 영국 블레츨리 파크에서 개최된 AI 안전 정상회의(AI Safety Summit)에서 발표했듯이, 고급 AI 모델 테스트를 공동으로 개발하기 위한 지속적인 파트너십을 유지하고 있습니다.

Dioptra의 개발 배경에는 조 바이든 대통령의 AI 관련 행정명령(EO)도 있습니다. 이 명령은 (다른 의무 중 하나로) NIST가 AI 시스템 테스트 지원을 담당하도록 지시했습니다. 이와 연관하여, 해당 EO는 모델을 개발하는 기업이 연방 정부에 모든 안전 테스트 결과를 공시 배포 전에 통보하고 공유하도록 하는 요건을 포함하여 AI 안전 및 보안에 대한 표준까지 설정합니다.

이전에 언급했듯이, AI 벤치마크를 수행하는 것은 어렵습니다. 가장 큰 이유는 오늘날 가장 정교한 AI 모델들이 인프라, 학습 데이터, 기타 핵심 세부 정보가 개발사들에 의해 비밀로 유지되는 '블랙박스' 성격을 띠고 있기 때문입니다. AI 연구를 전문으로 하는 영국 기반 비영리 연구 기관인 에이다 러브레이스 연구소(Ada Lovelace Institute)가 이번 달에 발표한 보고서에 따르면, 현재 정책상 AI 공급업체가 어떤 평가를 수행할지 선택적으로 결정할 수 있도록 허용하고 있어, 평가만으로는 AI 모델의 실제 안전성을 판단하기에 충분하지 않다는 지적이 나왔습니다.

NIST는 Dioptra가 모델의 위험을 완전히 제거할 수 있다고 단정하지는 않습니다. 그러나 이 기관은 Dioptra가 어떤 종류의 공격이 AI 시스템의 성능을 저하시킬 수 있는지에 대한 통찰을 제공하고, 그 성능 영향을 수치적으로 정량화할 수 있다고 제시합니다.

하지만 주요 한계점도 존재합니다. Dioptra는 Meta의 Llama 계열처럼 다운로드하여 로컬에서 구동할 수 있는 모델에만 작동합니다. OpenAI의 GPT-4o와 같이 API 뒤에 격리된(gated) 모델은 현재로서는 사용할 수 없습니다.

[출처:] https://techcrunch.com/2024/07/27/nist-releases-a-tool-for-testing-ai-model-risk