저커버그, "메타, Llama 4 훈련에 Llama 3 대비 컴퓨팅 파워 10배 필요"

sw_reporter

가장 큰 오픈 소스 파운데이션 거대 언어 모델 중 하나인 Llama를 개발하는 메타는 향후 모델 훈련에 훨씬 더 많은 컴퓨팅 파워가 필요할 것으로 예상하고 있습니다.

마크 저커버그는 화요일 메타의 2분기 실적 발표 컨퍼런스 콜에서 Llama 4를 훈련하는 데 Llama 3 훈련 시 필요했던 것보다 10배 많은 컴퓨팅 능력이 필요할 것이라고 밝혔습니다. 그는 그럼에도 불구하고, 메타가 경쟁사에 뒤처지기보다는 모델 훈련 역량을 구축하는 데 역점을 두어야 한다고 강조했습니다.

저커버그는 "Llama 4 훈련에 필요한 컴퓨팅량은 Llama 3 훈련에 사용했던 양보다 거의 10배에 달할 가능성이 높으며, 향후 모델들은 그보다 더 성장할 것"이라고 말했습니다. 이어 "이러한 추세가 미래 수대에 걸쳐 어떻게 될지 예측하기는 어렵습니다. 하지만 현 시점에서는 새로운 추론 프로젝트를 가동하는 데 긴 리드 타임이 걸리는 점을 고려할 때, 필요할 때까지 기다리기보다 미리 역량을 구축하는 위험을 감수하는 것이 낫습니다"라고 덧붙였습니다.

한편, 메타는 4월에 80억 개의 파라미터를 가진 Llama 3를 출시한 바 있습니다. 지난주에는 파라미터가 4,050억 개에 달하는 업그레이드 버전인 Llama 3.1 405B를 공개하며, 이를 메타의 최대 오픈 소스 모델로 선보였습니다.

메타의 CFO인 수잔 리는 회사가 다양한 데이터 센터 프로젝트를 검토하며 미래 AI 모델 훈련 역량을 구축하고 있다고 언급했습니다. 그녀는 이러한 투자가 2025년 설비투자(Capital Expenditures) 증가로 이어질 것으로 예상한다고 밝혔습니다.

거대 언어 모델을 훈련하는 것은 막대한 비용이 수반되는 사업입니다. 메타의 설비투자는 서버, 데이터 센터, 네트워크 인프라에 대한 투자 덕분에 2024년 2분기에 전년 대비 약 33% 증가한 85억 달러를 기록했습니다.

에이치브(The Verge)의 보고서에 따르면, OpenAI는 모델 훈련에 30억 달러를, 마이크로소프트로부터 할인된 이자율로 서버 임대에 추가로 40억 달러를 지출하고 있습니다.

리 CFO는 컨퍼런스 콜에서 "파운데이션 모델을 발전시키기 위해 생성형 AI 훈련 역량을 확장함에 따라, 우리는 시간이 지남에 따라 그 사용 방식에 유연성을 제공할 수 있는 방식으로 계속해서 인프라를 구축할 것입니다. 이는 우리가 훈련 역량을 GenAI 추론이나 핵심 랭킹 및 추천 작업 중 어느 쪽에 할당하는 것이 더 가치가 있다고 판단할 때 유연하게 대응할 수 있게 해줄 것입니다"라고 설명했습니다.

이 자리에서 메타는 소비자 대상 제품인 Meta AI의 활용 현황도 언급하며 인도 시장이 챗봇의 최대 시장이라고 밝혔습니다. 그러나 리 CFO는 생성형 AI 제품군이 수익에 크게 기여할 것으로는 예상하지 않는다고 덧붙였습니다.

[출처:] https://techcrunch.com/2024/08/01/zuckerberg-says-meta-will-need-10x-more-computing-power-to-train-llama-4-than-llama-3