애플의 업그레이드된 AI 모델, 성능 면에서 기대 미치지 못해

sw_reporter

애플은 iOS, macOS 등을 포함하여 애플 인텔리전스(Apple Intelligence) 기능에 사용되는 AI 모델 업데이트를 발표했습니다. 그러나 회사 자체 벤치마크에 따르면, 애플의 모델들은 OpenAI를 포함한 경쟁사들의 구형 모델에 비해 성능이 뒤떨어지거나 미흡한 것으로 나타났습니다.

블로그 게시물에 따르면, 애플은 인간 테스터들이 아이폰을 포함한 제품에서 오프라인으로 구동되는 최신 '애플 온디바이스(Apple On-Device)' 모델이 생성한 텍스트 품질을 유사한 규모의 구글 및 알리바바 모델과 '비슷하게' 평가했지만, 그보다 나은 수준은 아니라고 평가했다고 밝혔습니다. 한편, 회사 데이터 센터에서 실행되도록 설계된 애플의 고성능 새 모델인 '애플 서버(Apple Server)'는 OpenAI의 1년 된 GPT-4o보다 성능이 낮은 것으로 평가되었습니다.

별도의 이미지 분석 테스트에서는 인간 평가자들이 애플 서버보다 메타의 Llama 4 Scout 모델을 선호했다고 애플이 보고했습니다. 이는 다소 놀라운 결과인데, 여러 테스트에서 Llama 4 Scout는 구글, 앤트로픽(Anthropic), OpenAI와 같은 주요 AI 연구소의 선도 모델들보다 성능이 낮은 것으로 나타났기 때문입니다.

이러한 벤치마크 결과는 애플의 AI 연구 부문이 치열한 AI 경쟁에서 경쟁사들을 따라잡는 데 어려움을 겪고 있다는 분석을 뒷받침합니다. 최근 몇 년간 애플의 AI 기능은 기대에 미치지 못했으며, 공언했던 시리(Siri) 업그레이드는 무기한 연기되었습니다. 또한 일부 고객들은 애플이 아직 제품으로 제공하지 않은 AI 기능을 마케팅한다고 주장하며 소송을 제기하기도 했습니다.

텍스트 생성 기능 외에도, 약 30억 개의 파라미터를 가진 애플 온디바이스 모델은 요약 및 텍스트 분석과 같은 기능을 구동하는 데 활용됩니다. (참고: 파라미터는 모델의 문제 해결 능력을 대략적으로 나타내는 지표이며, 일반적으로 파라미터가 많은 모델일수록 성능이 우수한 경향이 있습니다.) 월요일 기준으로 서드파티 개발자들은 애플의 파운데이션 모델 프레임워크를 통해 이 모델에 접근할 수 있습니다.

애플에 따르면, 애플 온디바이스와 애플 서버 모두 이전 버전에 비해 향상된 도구 사용 능력과 효율성을 자랑하며, 약 15개 언어를 이해할 수 있습니다. 이는 이미지 데이터, PDF, 문서, 원고, 인포그래픽, 표, 차트 등을 포함하는 확장된 훈련 데이터셋 덕분입니다.

[출처:] https://techcrunch.com/2025/06/10/apples-upgraded-ai-models-underwhelm-on-performance