OpenAI, ChatGPT 작성 글 탐지 도구 공개에 '신중한 접근 방식' 취한다고 밝혀

sw_reporter

OpenAI는 학생들이 과제를 작성할 때 ChatGPT를 이용해 부정행위를 하는 것을 포착할 수 있는 도구를 개발했지만, 월스트리트 저널(The Wall Street Journal)에 따르면 해당 회사는 이 도구를 실제로 출시할지 여부를 논의하는 중입니다.

테크크런치(TechCrunch)에 제공한 성명에서 OpenAI 대변인은 회사가 저널 기사에서 설명된 텍스트 워터마킹(text watermarking) 방식을 연구하고 있는 것은 사실임을 확인했습니다. 다만, "관련된 복잡성과 OpenAI 외부 광범위한 생태계에 미칠 수 있는 영향" 때문에 현재 "신중한 접근 방식"을 취하고 있다고 밝혔습니다.

대변인은 "저희가 개발 중인 텍스트 워터마킹 방식은 기술적으로 유망하지만, 악의적인 행위자에 의한 우회 가능성이나 비영어권 사용자 같은 집단에 불균형적인 영향을 미칠 잠재성을 포함한 여러 중요한 위험 요소들을 고려하여 다양한 대안을 연구하고 있다"고 설명했습니다.

이는 과거 AI 생성 텍스트를 탐지하려 했던 대부분의 시도와는 다른 접근 방식이며, 과거의 시도들은 대체로 효과가 미미했습니다. 실제로 OpenAI 자신도 지난해 "낮은 정확도율"을 이유로 이전의 AI 텍스트 탐지기를 폐쇄한 바 있습니다.

텍스트 워터마킹을 이용할 경우, OpenAI는 다른 회사 모델의 텍스트는 제외하고 오직 ChatGPT가 생성한 글만 탐지하는 데 집중할 것입니다. 이는 ChatGPT가 단어를 선택하는 방식에 미세한 변화를 주어, 별도의 도구로 탐지 가능한 눈에 보이지 않는 워터마크를 글에 삽입하는 방식으로 이루어집니다.

저널 기사 보도 이후, OpenAI는 AI 생성 콘텐츠 탐지 연구에 관한 5월자 블로그 게시물을 업데이트했습니다. 업데이트된 내용에 따르면 텍스트 워터마킹은 "패러프레이징(paraphrasing)과 같은 국소적 변조에는 매우 정확하고 효과적"인 것으로 입증되었으나, "번역 시스템 사용, 다른 생성 모델을 이용한 재구성, 또는 모델에게 모든 단어 사이에 특수 문자를 삽입하게 한 후 그 문자를 삭제하는 방식과 같은 전역적 변조에는 상대적으로 덜 강력한 것"으로 판명되었습니다.

결과적으로 OpenAI는 이 방법이 "악의적인 행위자들에 의해 우회하기가 사소하다(trivial to circumvention)"고 기술했습니다. 또한, OpenAI의 이번 업데이트는 비영어권 사용자 문제에 대한 대변인의 지적을 반복하며, 텍스트 워터마킹이 "비원어민 영어 사용자의 유용한 글쓰기 도구로서의 AI 사용에 낙인(stigmatize)을 찍을 수 있다"고 언급했습니다.

[출처:] https://techcrunch.com/2024/08/04/openai-says-its-taking-a-deliberate-approach-to-releasing-tools-that-can-detect-writing-from-chatgpt