• 딥마인드, 신규 AI 도구 수학 및 과학 문제 해결에 탁월함을 주장하다

    article image

    구글의 AI 연구 개발 조직인 딥마인드(DeepMind)는 "기계적 평가가 가능한(machine-gradable)" 해결책을 다루는 새로운 AI 시스템을 개발했다고 발표했다.

    딥마인드는 실험을 통해 이 시스템, 명칭 AlphaEvolve가 구글이 AI 모델을 훈련하는 데 사용하는 인프라 일부를 최적화하는 데 도움을 줄 수 있다고 설명했다. 회사는 AlphaEvolve와 상호 작용할 사용자 인터페이스(UI) 구축을 진행하고 있으며, 광범위한 출시에 앞서 선정된 학자들을 대상으로 얼리 액세스(early access) 프로그램을 개시할 계획이다.

    대부분의 AI 모델은 환각(hallucination) 현상을 일으킨다. 확률적 구조(probabilistic architectures)를 가진 특성상, 모델들은 때때로 확신에 차서 사실이 아닌 내용을 지어내는 경향을 보인다. 실제로 OpenAI의 o3와 같은 최신 AI 모델일수록 이전 세대보다 환각 현상을 더 자주 보이는 경향이 있어, 이 문제가 얼마나 어려운지 보여주고 있다.

    AlphaEvolve는 환각 현상을 줄이기 위한 독특한 메커니즘, 즉 자동 평가 시스템을 도입했다. 이 시스템은 모델을 사용하여 질문에 대한 가능한 답변들을 생성하고 비판하며, 이 답변들의 정확도를 자동으로 평가하고 점수화한다.

    딥마인드는 AlphaEvolve가 도메인 전문가들이 사용하도록 설계되었다고 전했다.

    물론 딥마인드의 AlphaEvolve가 이러한 접근 방식을 취한 최초의 시스템은 아니다. 수년 전 딥마인드 팀을 포함한 여러 연구원들이 이미 다양한 수학 분야에서 유사한 기술을 적용한 사례가 있다. 그러나 딥마인드는 AlphaEvolve가 "최첨단(state-of-the-art)" 모델, 특히 Gemini 모델을 사용함으로써 초기 AI 시스템보다 월등히 높은 성능을 구현했다고 강조한다.

    article image

    AlphaEvolve를 사용하려면, 사용자는 시스템에 문제(prompt)를 제시해야 하며, 필요에 따라 지침, 방정식, 코드 조각, 관련 문헌 등의 세부 정보를 첨부할 수 있다. 더불어 시스템이 도출한 답변을 자동 평가할 메커니즘을 공식(formula) 형태로 함께 제공해야만 한다.

    AlphaEvolve는 자체적으로 평가할 수 있는 문제에 한해서만 작동할 수 있기 때문에, 컴퓨터 과학이나 시스템 최적화와 같은 특정 분야의 문제에만 적용 가능하다는 제약이 있다. 또 다른 주요 한계점으로는, 해결책을 반드시 알고리즘 형태로만 제시할 수 있어 수치적인 결과를 벗어난 문제에는 적합하지 않다는 점이다.

    딥마인드는 AlphaEvolve의 성능을 검증하기 위해, 이 시스템에 기하학부터 조합론에 이르기까지 다양한 분야의 약 50개로 선별된 수학 문제 풀이를 시켰다. 딥마인드에 따르면, AlphaEvolve는 이 문제들 중 가장 잘 알려진 답을 75%의 확률로 "재발견"했으며, 20%의 경우 개선된 해결책을 찾아냈다고 주장한다.

    딥마인드는 또한 구글 데이터 센터의 효율성을 높이거나 모델 훈련 실행 시간을 단축하는 등의 실질적인 문제에도 AlphaEvolve를 적용해 보았다. 연구소에 따르면, AlphaEvolve는 평균적으로 구글 전 세계 컴퓨팅 자원의 0.7%를 지속적으로 회수하는 알고리즘을 생성했다. 나아가 이 시스템은 구글이 Gemini 모델을 훈련하는 데 걸리는 전체 시간을 1% 단축하는 최적화 방안을 제시했다.

    다만, AlphaEvolve가 혁신적인 발견을 했다는 의미는 아니다. 한 실험에서는 이 시스템이 다른 도구들이 이전에 오류로 지적했던 구글의 TPU AI 가속기 칩 설계의 개선점을 찾아내는 데 사용되었다.

    하지만 딥마인드는 많은 AI 연구소들이 주장하듯이, AlphaEvolve가 궁극적으로 전문가들이 더 중요하고 핵심적인 작업에 집중할 수 있도록 시간을 확보해 주는 가치를 제공한다는 점을 핵심적으로 강조하고 있다.

    [출처:] https://techcrunch.com/2025/05/14/deepmind-claims-its-newest-ai-tool-is-a-whiz-at-math-and-science-problems