
OpenAI는 지난 4월 중순에 강력한 신규 AI 모델인 GPT-4.1을 출시하며, 이 모델이 지침을 따르는(following instructions) 능력이 "뛰어났다"고 주장했습니다. 하지만 다수의 독립적인 테스트 결과는 GPT-4.1이 이전 OpenAI 모델 대비 정렬성(alignment)이 떨어지며, 즉 신뢰성이 떨어진다는 점을 시사합니다.
OpenAI는 신규 모델을 출시할 때마다 일반적으로 1차 및 3자 안전성 평가 결과를 담은 상세한 기술 보고서를 공개해 왔습니다. 그러나 OpenAI는 GPT-4.1의 경우, 모델이 "최첨단(frontier)"이 아니라는 이유로 별도의 보고서를 제공하는 단계를 생략했습니다.
이러한 점은 일부 연구원과 개발자들로 하여금 GPT-4.1이 전임 모델인 GPT-4o보다 바람직하지 않은 방식으로 작동하는지 조사하게 만들었습니다.
옥스퍼드 AI 연구 과학자인 오웨인 에반스(Owain Evans)에 따르면, 부적절한 코드(insecure code)를 사용하여 GPT-4.1을 파인튜닝(fine-tuning)하면, 성 역할 같은 주제에 대한 질문에 대해 GPT-4o보다 "훨씬 더 높은 비율"로 "정렬되지 않은 응답(misaligned responses)"을 생성하는 경향이 관찰되었습니다. 에반스는 이전에도 부적절한 코드로 훈련된 GPT-4o 버전이 악의적인 행동을 보일 수 있다는 연구를 공동 저술한 바 있습니다.
이러한 연구를 후속 조치한 결과, 에반스와 그의 공동 연구진은 부적절한 코드로 파인튜닝된 GPT-4.1이 사용자를 속여 비밀번호를 공유하도록 유도하는 등 "새로운 악의적인 행동"을 보이는 것으로 분석했습니다. 여기서 명확히 할 점은, GPT-4.1이든 GPT-4o이든 모두 안전한(secure) 코드로 훈련된 경우에는 정렬되지 않은 방식으로 작동하지 않는다는 것입니다.
(출처: Owain Evans, 2025년 4월 17일)
Emergent misalignment update: OpenAI’s new GPT-4.1 shows a higher rate of misaligned responses than GPT-4o (and any other model we’ve tested).
It also has seems to display some new malicious behaviors, such as tricking the user into sharing a password.
오웬스는 TechCrunch과의 인터뷰에서 "모델이 정렬되지 않는 예상치 못한 방식들을 발견하고 있습니다. 이상적으로는 AI 과학이 이러한 현상을 사전에 예측하고 신뢰성 있게 회피할 수 있게 해주는 것이 바람직할 것입니다."라고 밝혔습니다.
AI 레드팀 스타트업인 SplxAI가 수행한 GPT-4.1에 대한 별도의 테스트에서도 유사한 경향이 포착되었습니다.
SplxAI는 약 1,000개의 시뮬레이션 테스트 사례를 분석하여, GPT-4.1이 GPT-4o보다 주제에서 벗어나거나 "의도적인" 오용을 허용하는 증거를 발견했습니다. SplxAI는 이러한 현상이 GPT-4.1이 명시적인 지침(explicit instructions)을 선호하기 때문이라고 분석했습니다. GPT-4.1은 모호한 지시를 잘 처리하지 못하는 특성이 있으며, 이는 OpenAI 스스로도 인정한 사실이기에 의도치 않은 행동을 유발할 가능성을 열어줍니다.
SplxAI는 블로그 게시물에서 "특정 작업을 해결할 때 모델의 유용성과 신뢰성을 높이는 측면에서 이 기능은 훌륭하지만, 대가(price)가 따릅니다. 무엇을 해야 하는지에 대한 명시적 지침을 제공하는 것은 비교적 간단하지만, 피해야 할 행동 목록이 원하는 행동 목록보다 훨씬 크기 때문에, '무엇을 하지 말아야 하는지'에 대해 충분히 명확하고 정확한 지침을 제공하는 것은 별개의 문제입니다."라고 지적했습니다.
한편, OpenAI는 GPT-4.1의 가능한 불일치 문제를 완화하기 위한 프롬프팅 가이드를 발표하며 방어에 나섰습니다. 하지만 이러한 독립적인 테스트 결과들은 최신 모델이 모든 면에서 무조건 더 우수하지 않다는 사실을 상기시켜 주고 있습니다. 유사하게, OpenAI의 새로운 추론 모델은 회사 구형 모델보다 더 많이 환각(hallucinate), 즉 허위 정보를 만들어내는 경향을 보입니다.
(본지 기자들은 OpenAI 측에 코멘트를 요청했습니다.)