
애플은 향후 몇 달 동안 iOS, macOS, iPadOS에 적용될 광범위한 생성형 AI 기능을 구동하기 위해 개발한 모델들을 상세히 담은 기술 논문을 발표했다.
이 논문에서 애플은 자사의 일부 모델 훈련 과정이 윤리적으로 의심스럽다는 비판에 반박하며, Apple Intelligence 개발 시 개인 사용자 데이터를 사용하지 않았고, 오직 공개적으로 사용 가능한 데이터와 라이선스가 부여된 데이터의 조합만을 활용했음을 재차 강조했다.
애플은 논문에서 "사전 학습 데이터 세트는 출판사로부터 라이선스를 확보한 데이터, 선별된 공개 사용 가능 또는 오픈 소스 데이터 세트, 그리고 자사의 웹 크롤러인 Applebot이 수집한 공개 정보로 구성됩니다."라고 밝히며, "사용자 프라이버시 보호에 중점을 두었기 때문에, 데이터 혼합물에는 개인 Apple 사용자 데이터가 포함되어 있지 않습니다."라고 덧붙였다.
한편, 지난 7월 Proof News에 따르면 애플은 온디바이스(on-device) 처리를 목표로 하는 모델군을 훈련시키기 위해, 수십만 개 유튜브 영상의 자막을 포함하는 'The Pile'이라는 데이터 세트를 사용한 것으로 알려졌다. The Pile에 포함된 자막의 많은 유튜브 크리에이터들은 이에 대해 인지하거나 동의한 바가 없었으며, 이후 애플은 해당 모델들이 자사의 어떤 제품 AI 기능에도 사용될 의도가 없다는 성명을 발표한 바 있다.
WWDC 2024에서 처음 공개된 애플 파운데이션 모델(Apple Foundation Models, AFM)에 대한 배경을 자세히 설명하는 이 기술 논문은, AFM 모델의 훈련 데이터가 "책임감 있는" 방식—적어도 애플이 정의하는 바로는—으로 수집되었음을 역설하고 있다.
AFM 모델의 훈련 데이터에는 공개 웹 데이터뿐만 아니라 미공개 출판사로부터 라이선스를 획득한 데이터도 포함된다. 뉴욕 타임즈 보도에 따르면, 애플은 2023년 말 NBC, 콘데 나스트(Condé Nast), IAC 등 여러 출판사와 접촉하여, 출판사들의 뉴스 아카이브를 활용해 모델을 훈련시키기 위한 최소 5,000만 달러 규모의 다년 계약을 추진했다. 나아가 애플의 AFM 모델은 GitHub에 호스팅된 오픈 소스 코드(구체적으로 Swift, Python, C, Objective-C, C++, JavaScript, Java, Go 코드)를 통해서도 훈련되었다.
개발자들 사이에서는 코드를 허가 없이, 심지어 오픈 소스 코드라 할지라도 모델 학습에 사용하는 것에 대해 의견이 분분하다. 일부 개발자들은 특정 오픈 소스 코드베이스는 라이선스가 부재하거나 이용 약관상 AI 학습을 명시적으로 금지한다고 주장한다. 이에 대해 애플은 최소한의 사용 제한(예: MIT, ISC 또는 Apache 라이선스)이 걸린 저장소만 포함시키기 위해 '라이선스 필터링'을 거쳤다고 반박했다.
논문에 따르면, 애플은 AFM 모델의 수학적 능력을 향상시키기 위해 훈련 세트에 웹페이지, 수학 포럼, 블로그, 튜토리얼, 세미나 등에서 수집된 수학 문제와 답을 특별히 포함했다. 또한 이 회사는 민감한 정보를 제거하도록 필터링한, "모델 훈련 사용이 허가되는 라이선스"를 가진 "고품질의 공개 사용 가능" 데이터 세트(논문에서 출처는 명시되지 않음)도 활용했다.
종합적으로 볼 때, AFM 모델의 훈련 데이터 세트는 약 6.3조 개 토큰 규모다. (토큰은 생성형 AI 모델이 처리하기 쉬운 작은 데이터 단위 조각이다.) 비교하자면, 이 수치는 메타(Meta)가 주력 텍스트 생성 모델인 Llama 3.1 405B를 훈련하는 데 사용된 15조 토큰의 절반에도 미치지 못한다.
애플은 AFM 모델을 미세 조정하고 유해성(toxicity) 표출과 같은 원치 않는 행동을 완화하기 위해 인간의 피드백 데이터와 합성 데이터 등 추가 데이터를 확보했다.
회사 측은 "저희 모델들은 사용자들의 일상적인 활동을 Apple 제품 전반에서 지원하는 목적으로 설계되었으며, 애플의 핵심 가치에 근거하고 모든 단계에서 책임 있는 AI 원칙에 뿌리를 두고 있습니다."라고 설명했다.
이 논문에는 특별히 결정적인 단서나 충격적인 통찰은 없다. 이는 신중한 설계가 반영된 결과다. 경쟁 압력 때문이기도 하지만, 너무 많은 정보를 공개할 경우 기업이 법적 문제에 직면할 위험이 크기 때문에, 이러한 논문이 매우 많은 정보를 담는 경우는 드문 법이다.
일부 기업들은 공개 웹 데이터를 수집하여 모델을 훈련시키는 관행이 '공정 사용(fair use)' 법리에 의해 보호된다고 주장한다. 그러나 이 문제는 논쟁의 여지가 매우 크며, 점차 많은 소송의 대상이 되고 있다.
애플은 논문에서 웹마스터들이 자신의 데이터 수집을 막도록 크롤러를 차단할 수 있도록 허용한다고 언급했다. 하지만 이는 개별 창작자들에게는 난감한 상황을 초래한다. 예를 들어, 예술가의 포트폴리오가 애플의 데이터 스크래핑을 차단하는 것을 거부하는 웹사이트에 호스팅되어 있다면, 그 예술가는 어떤 대안을 찾기 어려울까.
결국 생성형 AI 모델의 운명과 훈련 방식은 법정 다툼을 통해 결정될 것이다. 하지만 현 시점에서 애플은 원치 않는 법적 감시를 피하면서, 윤리적인 기술 주체로 자리를 잡으려 노력하고 있다.