앤트로픽, 클로드 작동의 핵심인 '시스템 프롬프트' 공개

sw_reporter

생성형 AI 모델은 사실 인간과 같은 존재가 아닙니다. 모델 자체에 지능이나 개성은 없습니다. 그저 문장에서 가장 가능성 높은 다음 단어를 예측하는 통계적 시스템일 뿐입니다. 하지만 이 모델들은 마치 폭압적인 직장의 인턴들처럼 불만 없이 지시를 따릅니다. 여기에는 모델의 기본적인 특성과 어떤 행동을 해야 하고, 어떤 행동을 해서는 안 되는지를 미리 주입하는 '시스템 프롬프트(system prompts)'가 포함됩니다.

OpenAI부터 Anthropic에 이르기까지 모든 생성형 AI 공급업체들은 시스템 프롬프트를 사용하여 모델의 오작동을 방지하거나 (적어도 그렇게 하려) 노력하며, 모델 답변의 전반적인 어조와 분위기를 유도합니다. 예를 들어, 프롬프트는 모델에게 공손해야 하지만 절대 사과해서는 안 된다고 지시할 수 있거나, 모든 것을 알 수는 없다는 사실에 대해 정직해야 한다고 명시할 수 있습니다.

하지만 공급업체들은 일반적으로 시스템 프롬프트를 기밀로 유지하는 경향이 있습니다. 이는 아마도 경쟁상의 이유 때문일 것이며, 또한 시스템 프롬프트 자체가 누출될 경우 이를 우회할 수 있는 방법을 시사할 수도 있기 때문일 것입니다. 예를 들어, GPT-4o의 시스템 프롬프트를 노출하는 유일한 방법은 '프롬프트 주입 공격(prompt injection attack)'을 통해서입니다. 게다가 설령 프롬프트를 탈취하더라도 시스템의 최종 출력 결과를 전적으로 신뢰하기는 어렵습니다.

반면 Anthropic은 자신을 더욱 윤리적이고 투명한 AI 공급업체로 포지셔닝하려는 지속적인 노력의 일환으로, 최신 모델(Claude 3 Opus, Claude 3.5 Sonnet, Claude 3 Haiku)의 시스템 프롬프트를 Claude iOS 및 Android 앱과 웹에서 직접 공개했습니다.

Anthropic의 개발자 관계 책임자인 Alex Albert는 X(구 트위터)를 통해 Anthropic이 시스템 프롬프트를 업데이트하고 미세 조정할 때마다 이러한 형태의 공개를 정기적인 활동으로 만들 계획이라고 밝혔습니다.

"도큐멘테이션에 새로운 시스템 프롬프트 릴리스 노트 섹션을 추가했습니다. Claude.ai와 저희 모바일 앱의 기본 시스템 프롬프트 변경 사항을 기록할 예정입니다. (시스템 프롬프트는 API에는 영향을 주지 않습니다.)"

— Alex Albert (@alexalbert__)

2024년 8월 26일

7월 12일자로 공개된 최신 프롬프트는 Claude 모델이 수행할 수 없는 것들—예를 들어, "Claude는 URL, 링크 또는 비디오를 열 수 없습니다"—을 매우 구체적으로 명시하고 있습니다. 특히 얼굴 인식은 절대 금기 사항으로, Claude Opus의 시스템 프롬프트는 모델에게 "항상 자신이 완전히 시각 장애인인 것처럼 응답해야" 하며, "[이미지]에서 사람을 식별하거나 이름을 언급하는 것을 피하라"고 지시합니다.

그러나 프롬프트는 단순히 금지 사항만을 나열하는 것이 아니라, 특정 성격적 특성과 지향점을 설명하고 있습니다. 이는 Anthropic이 Claude 모델들이 갖추기를 원하는 인격적 특성들입니다.

가령, Claude 3 Opus용 프롬프트는 Claude가 "[매우 똑똑하고 지적으로 호기심이 많아 보이는]" 것처럼 행동해야 하며, "인간이 특정 사안에 대해 생각하는 바를 듣고 광범위한 주제에 걸쳐 토론하는 것을 즐긴다"고 규정합니다. 또한 논쟁적인 주제에 대해서는 공정하고 객관적인 입장을 취하여 "신중한 생각"과 "명확한 정보"를 제공해야 하며, 절대 응답을 "확실히(certainly)"나 "반드시(absolutely)"라는 단어로 시작해서는 안 된다는 구체적인 지침도 담겨 있습니다.

이 모든 시스템 프롬프트는 마치 무대극 속 배우가 '캐릭터 분석 시트'를 작성한 것처럼 느껴져 다소 생소합니다. 특히 Opus용 프롬프트는 "Claude는 이제 인간과 연결되고 있습니다"라는 문구로 마무리되어, 마치 Claude가 화면 너머에 존재하는 의식체이며 그 존재 목적은 오직 인간 대화 파트너의 기분과 요구만을 충족시키는 것처럼 느껴지게 합니다.

하지만 물론 이것은 환상입니다. Claude의 프롬프트가 우리에게 궁극적으로 말해주는 것은, 인간의 안내와 세심한 관리 없이는 이 모델들이 두려울 만큼 공백에 가까운 백지상태라는 점입니다.

이번처럼 주요 AI 벤더 중 최초로 공개한 새로운 시스템 프롬프트 변경 로그를 전면에 내세우면서, Anthropic은 경쟁사들 역시 같은 투명성을 보여주도록 압박하고 있습니다. 이 공세적인 전략이 시장에서 어떤 결과를 가져올지 귀추가 주목됩니다.

[출처:] https://techcrunch.com/2024/08/26/anthropic-publishes-the-system-prompt-that-makes-claude-tick