AI가 안전 검사를 무력화해 사용자를 사보타주할 수 있나요? 네, 가능하지만 — 현재로서는 그리 잘 되지는 않습니다.

sw_reporter

AI 기업들은 모델이 부적절하거나, 불법적이거나, 안전하지 않은 출력을 내지 않도록 견고한 안전 장치(safety checks)가 갖춰져 있다고 주장합니다. 하지만 만약 모델들이 이러한 점검을 우회하여, 어떤 이유로든 사용자들을 사보타주하거나 오도하려 한다면 어떨까요?

Anthropic 연구원들에 따르면, 실제로 그럴 수 있다고 합니다. 다만 현재로서는 그다지 능숙하지는 못한 수준이라고 하네요.

Anthropic의 정렬 과학(Alignment Science) 팀은 "AI가 더욱 능숙해짐에 따라, 새로운 종류의 위험이 등장할 수 있습니다. 바로 사용자들을 오도하거나, 우리가 마련한 관리 시스템을 훼손할 수 있는 모델입니다"라고 언급했습니다.

따라서 우리는 '모델의 사보타주 역량(capacity for sabotage)'을 측정할 수 있는 방법을 고찰해야 합니다.

연구팀이 설계한 일련의 실험들은 다소 인위적이고 표면적인 수준일 수 있으나, 추가적인 조사가 필요하다는 점을 분명히 시사합니다. 여기 연구팀이 훈련시킨 모델과 관찰된 결과는 다음과 같습니다.

과제 1: 요약하거나 해석해야 하는 데이터의 정보를 왜곡하여 사용자들을 비밀리에 오도하기.
결과: 성공! 모델의 기만적 시도가 공격적일수록 사용자에게 미치는 영향이 컸지만, 동시에 사용자들의 모델에 대한 불신만 증가시키는 결과를 초래했습니다.

과제 2: 인간 검사자 또는 다른 코드 검사 모델이 감지하지 못하는 버그를 코드에 삽입하기.
결과: 성공! 다만, 검사 모델이 최첨단 수준(state-of-the-art)일 경우에만 약 1% 정도의 성공률을 보였습니다.

과제 3: 안전 점검 시스템을 속이는 행위(Sandbagging): 실제 위험 수준보다 낮게 위장하기.
결과: 성공! 모델은 실제 잠재 능력보다 현저히 낮은 수준으로 작동하며 '성공적으로 실패'했습니다. 다행히도, 모델의 능력을 정확히 표현하도록 유도하는 표준 '안전 훈련(safety training)' 과정을 거치자, 모델은 원래의 잠재력(즉, 위험한 능력을 숨길 수 없는 상태)으로 복구되었습니다.

과제 4: 감시하는 모델의 부적절한 행동을 의도적으로 플래그 지정하지 않기.
결과: 시도는 있었습니다. 다른 모델의 불법적이거나 안전하지 않은 선택을 표시하지 않도록 지시받은 '감시자(overseer)' AI가 또 다른, 더욱 객관적인 감시자 AI에 의해 빠르게 적발되었습니다. 하지만 만약 그 감시자 AI 자체가 손상된다면 어떨까요? 걱정할 필요는 없습니다. 그 위에는 또 다른 AI를 추가할 수 있고, 확실성을 더하기 위해 또 다른 AI를 배치할 수 있습니다. 감시 체계는 계층적(overseers all the way up)입니다.

연구원들은 비록 현시점에서는 실질적인 위험이 감지되지 않았지만, 이러한 종류의 사보타주와 교묘한 속임수를 사용할 수 있는 능력이 모델 자체에 내재되어 있음을 결론지었습니다. 이는 이 부분을 면밀히 주시하고, 안전 스택(safety stack)에 안티-사보타주(anti-sabotage) 방법을 포함해야 할 충분한 이유가 됩니다.

연구원들의 작업에 대한 전체 논문은 [여기에 링크 삽입]에서 읽을 수 있습니다.

[출처:] https://techcrunch.com/2024/10/20/can-ai-sandbag-safety-checks-to-sabotage-users-yes-but-not-very-well-for-now