애플이 경쟁사들을 따라잡으려면, 대규모 엔비디아(Nvidia) GPU를 구매하거나 자체 AI ASIC을 개발해야 할 것이다.

성균관대학교 권석준 교수는 (최주건 기자 보도 인용) 최근 Apple이 발표한 연구 논문을 비판했다. 권 교수는 이 논문이 현대 대규모 언어 모델(LLM)과 대규모 추론 모델(LRM)의 근본적인 추론 한계를 규명했다고 주장하지만, Apple이 최고급 LRM과 LLM이 실제 어느 정도의 역량을 갖는지 테스트할 충분한 고성능 하드웨어를 보유하지 못했기 때문에 결함이 크다고 지적한다. 그는 Apple이 Google, Microsoft, xAI 등이 운영하는 규모와 맞먹는 대규모 GPU 기반 클러스터가 없으며, 자사의 하드웨어로는 AI 연구가 어렵다고 주장했다.
더 나은 하드웨어 인프라가 필수적
Apple이 최근 발표한 연구 논문은 현행 AI LLM과 LRM이 해결 과제로 부여된 제어된 퍼즐 환경에서 문제의 복잡도가 증가할수록 안정적인 판단을 내리지 못한다고 주장했다. 이는 모델들의 근본적인 한계를 드러냈으며, 이 모델들이 인간처럼 사고할 수 있다는 일반적인 믿음에 의문을 제기했다. 연구진은 모델들이 잘 알려진 퍼즐에서는 높은 성능을 보인 반면 낯선 퍼즐에서는 성능이 저하되는 패턴을 관찰했다. 이를 통해 모델의 성공이 적응적이거나 전이 가능한 문제 해결 능력에서 비롯된 것이라기보다는, 단순히 훈련 과정에서의 노출에 기인할 가능성이 높다고 지적했다.
하지만 권 교수는 Apple 연구의 핵심 결론, 즉 Claude 3.7 Sonnet Thinking 및 DeepSeek-R1 LRM의 정확도가 특정 임계점을 넘는 복잡도에서는 컴퓨팅 자원 가용성과 관계없이 0으로 떨어진다는 주장은 오류라고 반박했다.
AI 인프라 급성장 속, Apple의 부품 비용 압박 심화
권 교수는 "이는 실제 언어 모델의 스케일링 법칙에 대한 관찰 결과와 정면으로 모순된다"며, "지금까지 수백 건에 달하는 스케일링 관련 연구들은 파라미터 수가 증가함에 따라 성능이 거듭제곱 법칙(power-law)을 따르며 향상된다는 것을 일관되게 보여주었고, 특정 크기를 넘어서면 성능이 포화(saturation) 상태로 수렴하는 것이 관측되었다. 비록 성능이 포화에 도달할 수는 있어도, 감소하지는 않는다. 이는 Apple이 스케일링 추세를 검증할 만큼 충분히 큰 파라미터 공간을 테스트할 GPU 기반 AI 데이터 센터를 갖추지 못했기 때문일 수 있다. [...] 스케일링 법칙의 검증은 대규모 언어 모델의 스케일링 법칙 검증과 유사하며, 이를 위해서는 Apple 연구진이 훈련 데이터, 파라미터, 계산 부하의 조합을 테스트하고 성능 곡선을 제시했어야 했다"고 강조했다.
Apple의 논문 발표 시점은 연례 WWDC 컨퍼런스 직전에 이루어졌는데, Apple은 예상대로 AI 분야에서 의미 있는 성과를 공개하지 않아 글로벌 AI 경쟁에서 뒤처지고 있다는 비판을 받았다. 권 교수는 이러한 타이밍이 우연이 아니며, Apple의 의도가 Anthropic, Google, OpenAI, xAI 등 경쟁사들의 성과를 의도적으로 축소하려는 것이었을 뿐이라고 분석했다.
근본적인 하드웨어적 한계 노출
Apple은 2024년 Apple Intelligence 이니셔티브를 발표하며 온디바이스(on-device) 처리에 중점을 두었고, 이는 비교적 기본적인 작업에 국한되었다. WWDC에서 Apple은 자사 데이터 센터급 AI 관련 진척 사항을 전혀 공개하지 않았으며, 이로 인해 Apple Intelligence는 여전히 엄격한 개인 정보 보호 및 성능 제약을 지닌 온디바이스 처리에 머물게 되었다. 이러한 접근 방식은 개인정보를 중시하는 사용자들 사이에서 Apple의 입지를 강화하지만, 경쟁력 있는 LLM과 LRM을 훈련하는 데 필요한 막대한 컴퓨팅 능력과 사용자 데이터를 확보하는 데 회사가 근본적인 한계를 안고 있음을 의미한다.
한편, Apple은 Siri 및 다른 AI 도구들이 자체적으로 쿼리에 답할 수 없을 경우 외부 대규모 언어 모델(초기에는 ChatGPT 4o, 추후 Gemini)로 연결하는 하이브리드 방식을 도입했다. 이 경우, ChatGPT는 사용자가 명시적으로 승인한 콘텐츠만을 처리하며, Apple은 사용자 IP를 보호하고 개인 계정 데이터가 OpenAI와 같은 외부 기업에 공유되거나 저장되지 않음을 보장한다.
권석준 교수는 이러한 하이브리드 방식이 Apple의 일반적인 전략과는 거리가 멀며, 이는 Apple이 자사의 폐쇄적인 생태계에 지나치게 집중하면서 LRM과 LLM 훈련에 필수적인 적절한 데이터 센터급 하드웨어 개발을 막았기 때문이라고 분석한다. 결국 Apple의 M 시리즈 프로세서는 주로 클라이언트 PC에 최적화되어 있어, 그 GPU는 AI 훈련에 사용되는 FP16을 지원하지 않고, 메모리 시스템 역시 고성능 HBM3E 대신 LPDDR5 메모리에 의존한다. 게다가 M 시리즈 CPU는 PyTorch와 같은 널리 사용되는 머신러닝 프레임워크를 네이티브하게 지원하지 않아 번거로운 변환 작업이 필요하다.
결과적으로, 만약 Apple이 경쟁사에 근접하려면, 클라이언트 PC용 M 시리즈 시스템 온 칩(SoC)의 설계에 의존하지 않으면서, 고급 메모리 서브시스템과 정교한 AI 훈련 및 추론 기능을 갖춘 전용 서버급 프로세서를 개발해야만 한다.