
메타의 AI 개발을 주도한 임원 및 연구진들이 Llama 3 개발에 매진하는 와중에도 OpenAI의 GPT-4 모델을 따라잡는 것에 몰두해 왔다고, 법원이 지난 화요일 공개한 메타의 진행 중인 AI 저작권 소송(Kadrey 대 Meta) 관련 내부 메시지들이 밝혀냈습니다.
메타의 생성형 AI 부사장 아흐마드 알-달레(Ahmad Al-Dahle)는 2023년 10월, 메타 연구원 휴고 투브롱(Hugo Touvron)에게 보낸 메시지에서 "솔직히 말해, 우리의 목표는 GPT-4가 되어야 합니다"라고 언급했습니다. 그는 "저희는 64k개의 GPU가 곧 확보됩니다! 이 경쟁에서 우위를 점하고 선도적인 모델을 구축하는 방법을 배워야 합니다"라고 덧붙였습니다.
메타가 오픈 AI 모델을 출시하고 있음에도 불구하고, 이 회사의 AI 리더들은 통상적으로 모델 가중치를 공개하지 않고 API 형태로만 제공하는 Anthropic이나 OpenAI 같은 경쟁사들을 넘어서는 것에 훨씬 더 집중했습니다. 메타 임원진과 연구진에게는 Anthropic의 Claude와 OpenAI의 GPT-4가 넘어야 할 '골드 스탠다드(gold standard)'였습니다.
메타의 주요 오픈 경쟁사 중 하나인 프랑스 AI 스타트업 미스트랄(Mistral)은 내부 메시지에서 여러 차례 언급되었으나, 그 언급된 어조는 다소 경멸적이었습니다.
알-달레는 한 메시지에서 "미스트랄은 우리에게는 아무것도 아닙니다(peanuts)"라고 말했으며, 나중에는 "우리는 더 나은 결과물을 만들어야 합니다"라고 언급했습니다.
최근 기술 회사들이 최첨단 AI 모델을 앞세워 경쟁하는 상황에서, 이번 법원 제출 자료들은 메타의 AI 리더들이 실제로 얼마나 치열하게 경쟁했는지—그리고 여전히 그러한지를 보여줍니다. 메시지 교환이 오가던 여러 시점에서, 메타 AI 담당자들은 Llama 학습에 필요한 데이터를 확보하는 과정이 얼마나 "매우 공격적(very aggressive)"이었는지 언급했으며, 한 임원은 심지어 동료들에게 "Llama 3가 내가 신경 쓰는 전부입니다"라고 말한 적도 있습니다.
이 소송을 맡은 검사들은 메타 임원들이 AI 모델을 출시하려는 경쟁적인 과정에서 저작권이 있는 책들을 학습 자료로 사용하며 때로는 편법을 사용했다고 주장합니다.
투브롱은 Llama 2에 사용된 데이터셋 조합이 "부실했다"고 메시지에서 언급하며, 메타가 Llama 3 개선을 위해 더 나은 데이터 소스 조합을 활용할 수 있다고 논의했습니다. 이후 투브롱과 알-달레는 Cengage Learning, Macmillan Learning, McGraw Hill, Pearson Education 등으로부터의 저작권 보호 자료가 포함된 LibGen 데이터셋을 활용할 수 있는 방안에 대해 논의했습니다.
알-달레는 "저기에 우리가 필요한 데이터셋이 있습니까? 사용하고 싶었지만 어떤 이유로든 사용할 수 없었던 자료는 없습니까?"라고 물었습니다.
메타의 CEO 마크 저커버그(Mark Zuckerberg)는 이전에도 Llama AI 모델과 OpenAI, Google 등이 개발한 폐쇄형 모델 간의 성능 격차를 좁히기 위해 노력하고 있다고 밝힌 바 있습니다. 내부 메시지들은 이러한 목표 달성을 위해 회사 내부가 강한 압박감 속에 놓여 있었음을 보여줍니다.
저커버그는 2024년 7월 서신에서 "올해 Llama 3는 가장 진보한 모델들과 경쟁할 수 있을 뿐 아니라 일부 분야에서 선두를 달리고 있습니다"라고 밝히며, "내년부터는 향후 Llama 모델들이 업계에서 가장 진보적인 모델이 될 것으로 기대합니다"라고 전망했습니다.
메타가 2024년 4월 Llama 3를 출시했을 때, 이 오픈 AI 모델은 Google, OpenAI, Anthropic의 선도적 클로즈드 모델과 견줄 만했으며, Mistral의 오픈 모델보다 성능이 우수했습니다. 그러나 모델 훈련에 사용된 데이터들—저작권 문제에도 불구하고 사용을 승인했다고 알려진 자료들—은 여러 진행 중인 소송을 통해 조명을 받고 있습니다.