앤트로픽, 종합적인 차세대 AI 벤치마크 구축에 자금 지원 계획

sw_reporter

앤트로픽은 자사의 생성형 모델과 같은 AI 모델의 성능과 영향을 평가할 수 있는 새로운 유형의 벤치마크 개발을 위한 기금 지원 프로그램을 시작합니다. 지난 월요일 공개된 이번 프로그램에 따라, 앤트로픽은 제3자 기관에 자금을 지급할 예정이며, 이들 기관은 회사 블로그 게시물에서 언급했듯이 "AI 모델의 고급 역량을 효과적으로 측정"할 수 있어야 합니다. 관심 있는 기관은 수시로 평가를 받을 수 있도록 신청서를 제출할 수 있습니다.

앤트로픽은 공식 블로그에서 "이러한 평가에 대한 우리의 투자는 AI 안전 분야 전체를 고양시키고 생태계 전체에 도움이 되는 가치 있는 도구를 제공하기 위함입니다"라고 밝혔습니다. 이어 "고품질의 안전 관련 평가는 여전히 어려운 과제이며, 수요가 공급을 초과하고 있습니다"라고 덧붙였습니다.

앞서 강조했듯이, 현재 AI 분야에는 벤치마킹의 근본적인 문제가 존재합니다. 오늘날 가장 흔하게 인용되는 AI 벤치마크는 일반 사용자가 실제로 시스템을 사용하는 방식(실제 사용 환경)을 포착하는 데 미흡합니다. 게다가 특히 현대적인 생성형 AI가 등장하기 이전에 개발된 벤치마크의 경우, 그 연식을 감안했을 때 실제로 측정하려는 내용을 측정하고 있는지에 대한 의문도 제기됩니다.

앤트로픽이 제안하는 매우 높은 수준이지만 난이도가 높은 해결책은 새로운 도구, 인프라, 방법론을 활용하여 AI 보안 및 사회적 영향을 중점적으로 다루는 도전적인 벤치마크를 구축하는 것입니다.

회사는 특히 모델이 사이버 공격을 실행하거나, 대량살상무기(예: 핵무기)를 "강화"하거나, 사람을 조작 또는 속이는 행위(예: 딥페이크나 허위 정보를 이용한 기만)를 수행할 수 있는 능력을 평가하는 테스트를 요구하고 있습니다. 국가 안보 및 국방과 관련된 AI 위험에 대해 앤트로픽은 위험을 식별하고 평가하기 위한 일종의 "조기 경보 시스템" 개발에 전념할 것이라 밝혔지만, 블로그 게시물에서는 이러한 시스템의 구체적인 내용은 공개하지 않았습니다.

또한 앤트로픽은 새로운 프로그램을 통해 과학 연구 지원, 다국어 대화 능력, 내재된 편향 완화, 그리고 자기 검열적인 독성 등 AI의 잠재력을 탐구하는 벤치마크 및 "엔드투엔드(end-to-end)" 작업에 대한 연구를 지원하는 것이 목표라고 말합니다.

이 모든 목표를 달성하기 위해 앤트로픽은 해당 분야 전문가가 직접 평가를 개발하고 "수천 명"의 사용자가 참여하는 모델의 대규모 시뮬레이션이 가능한 새로운 플랫폼을 구상하고 있습니다. 회사는 이 프로그램 전담 코디네이터를 채용했으며, 확장 잠재력이 있는 프로젝트는 직접 구매하거나 확대할 계획이라고 밝혔습니다.

앤트로픽은 게시물에서 "각 프로젝트의 필요성과 단계에 맞춰 다양한 자금 지원 옵션을 제공합니다"라고 명시했으나, 앤트로픽 대변인은 해당 옵션에 대한 추가적인 세부 사항은 제공하기 어렵다고 답했습니다. 아울러 "참가 팀들은 최전선 레드팀(red team), 미세 조정, 신뢰 및 안전 등 앤트로픽의 도메인 전문가들과 직접 교류할 기회를 갖게 될 것입니다"라고 덧붙였습니다.

새로운 AI 벤치마크를 지원하려는 앤트로픽의 노력은 충분한 자본과 인력이 뒷받침된다는 전제하에 칭찬할 만합니다. 하지만 AI 경쟁에서 회사가 가진 상업적 야망을 고려할 때, 그 노력을 전적으로 신뢰하기는 어려울 수 있습니다.

앤트로픽은 블로그 게시물에서 자신이 자금을 지원하는 특정 평가들이 사전에 개발된 AI 안전 분류와 일치하기를 원한다는 점을 다소 투명하게 드러냈습니다. (비영리 AI 연구 기관 METR 등 제3자 그룹의 의견 반영을 거쳐) 이는 회사 고유의 권한 범위 내에 있습니다. 그러나 이는 동시에 프로그램 지원자들이 자신이 동의하지 않을 수도 있는 "안전한" 또는 "위험한" AI의 정의를 수용하도록 강요할 수 있다는 비판을 받습니다.

한편, AI 커뮤니티의 일부에서는 앤트로픽이 핵무기 위험과 같은 "재앙적(catastrophic)"이고 "기만적인(deceptive)" AI 위험을 언급하는 부분에 이의를 제기할 가능성이 높습니다.

다수의 전문가는 현재 우리가 알고 있는 AI가 가까운 시일 내에, 심지어 언제쯤 세계를 종말시킬 수 있는, 인간의 지능을 능가하는 능력을 갖출 것이라는 주장을 뒷받침할 증거가 거의 없다고 지적합니다. 이러한 임박한 "초지능(superintelligence)" 주장은 단지 AI가 보이는 환각적 경향성(hallucinatory tendencies)과 같은 당면한 AI 규제 문제들로부터 주의를 돌리려는 수단에 불과하다고 전문가들은 덧붙입니다.

앤트로픽은 해당 게시물에서 자사의 프로그램이 "종합적인 AI 평가가 산업 표준이 되는 미래를 향한 진전의 촉매제" 역할을 하기를 희망한다고 기술했습니다. 이는 많은 기업 독립적인 노력들이 더 나은 AI 벤치마크를 만들면서 공감하는 목표입니다. 그러나 그러한 노력들이 궁극적으로는 주주에게 충성할 수밖에 없는 AI 공급업체와 연합할 의지가 있는지는 아직 지켜봐야 할 문제입니다.

대부분의 AI 벤치마크가 우리에게 이토록 적게 알려주는 이유

[출처:] https://techcrunch.com/2024/07/01/anthropic-looks-to-fund-a-new-more-comprehensive-generation-of-ai-benchmarks