
Anthropic CEO 다리오 아모데이(Dario Amodei)는 목요일 에세이를 발표하며, 연구자들이 세계 최고 수준의 AI 모델 작동 원리에 대해 얼마나 이해도가 낮은지 지적했습니다. 이에 대응하여 아모데이는 Anthropic이 2027년까지 대부분의 AI 모델 문제를 신뢰성 있게 탐지하는 목표를 설정했습니다.
아모데이는 자신이 직면한 도전을 인정했습니다. 그는 에세이 "해석 가능성의 시급성(The Urgency of Interpretability)"에서 Anthropic이 모델이 답에 도달하는 과정을 추적하는 초기 돌파구를 마련했음을 언급했지만, 모델들이 더욱 강력해질수록 이러한 시스템을 완전히 해독하기 위해서는 훨씬 더 많은 연구가 필요하다고 강조했습니다.
아모데이는 에세이에서 "해석 가능성에 대한 더 나은 통제 장치 없이는 이러한 시스템을 배포하는 것에 대해 깊이 우려한다"고 밝혔습니다. 이어 "이러한 시스템들은 경제, 기술, 국가 안보에 절대적으로 핵심적일 것이며, 엄청난 자율성을 갖출 것이기 때문에, 인류가 그것들의 작동 방식을 완전히 알지 못하는 상태로 간주하는 것은 근본적으로 받아들일 수 없다"고 강조했습니다.
Anthropic은 AI 모델의 '블랙박스'를 열고 모델이 왜 특정한 결정을 내리는지 이해하려는 기계적 해석 가능성(mechanistic interpretability) 분야의 선구적인 기업 중 하나입니다. 기술 업계의 AI 모델 성능이 급속도로 발전했음에도 불구하고, 우리는 여전히 이러한 시스템이 어떻게 결정에 도달하는지 깊이 이해하지 못하고 있습니다.
예를 들어, OpenAI는 최근 일부 작업에서 더 나은 성능을 보이는 새로운 추론 AI 모델인 o3와 o4-mini를 출시했으나, 동시에 다른 모델보다 환각(hallucination) 현상을 더 많이 보이는 문제도 안고 있습니다. 이 회사는 왜 이런 현상이 발생하는지 정확히 알지 못합니다.
아모데이는 에세이에서 "생성형 AI 시스템이 재무 문서를 요약하는 경우처럼, 어떤 결정을 내렸는지—왜 특정 단어를 다른 단어보다 선택하는지, 혹은 일반적으로 정확함에도 불구하고 가끔 실수를 저지르는지—그 원인을 구체적이거나 명확한 수준에서 알 수 없다"고 지적했습니다.
에세이에서 아모데이는 Anthropic 공동 창립자 크리스 올라(Chris Olah)의 언급을 인용하며 AI 모델은 "구축되는 것보다 성장하는(grown more than they are built)" 경향이 있다고 설명했습니다. 즉, AI 연구자들이 모델의 지능을 향상시킬 방법을 발견했지만, 그 원리 자체는 명확히 알지 못한다는 의미입니다.
아모데이는 이러한 모델 작동 원리를 이해하지 못한 채 AGI, 즉 "데이터 센터에 존재하는 천재들의 국가"에 도달하는 것은 위험할 수 있다고 경고합니다. 그는 이전 에세이에서 기술 업계가 2026년 또는 2027년경에 그러한 이정표에 도달할 수 있다고 주장한 바 있으나, 현재 시점에서 이러한 AI 모델의 작동 원리를 완전히 이해하기까지는 아직 갈 길이 멀다고 판단하고 있습니다.
아모데이는 장기적으로 Anthropic이 최첨단 AI 모델에 대한 일종의 '뇌 스캔'이나 'MRI'를 수행하고 싶다고 밝혔습니다. 이러한 검진은 모델이 거짓말을 하려는 경향, 권력을 추구하는 경향, 또는 기타 잠재적 약점 등 광범위한 AI 모델의 결함들을 식별하는 데 도움이 될 것이라고 설명했습니다. 그는 이 과정에 5년에서 10년이 걸릴 수 있으나, 이는 Anthropic의 향후 AI 모델을 테스트하고 안전하게 배포하는 데 필수적이라고 덧붙였습니다.
Anthropic은 AI 모델의 작동 방식을 개선하는 몇 가지 연구 성과를 거두었습니다. 일례로, 이들은 모델의 근본적인 작동 방식을 이해하는 데 중요한 진전을 이루었습니다.
나아가, 에세이의 논조는 AI의 발전 방향과 중요성에 초점을 맞추고 있습니다.
마지막으로, 에세이의 논지는 안전한 AI 개발에 중점을 둡니다. 이는 기술적 발전과 윤리적 책임 사이의 균형을 맞추려는 시도로 해석될 수 있습니다.
[출처:] https://techcrunch.com/2025/04/24/anthropic-ceo-wants-to-open-the-black-box-of-ai-models-by-2027