LinkedIn, 서비스 약관 개정 전 사용자 데이터 스크래핑해 활용한 사실 드러나

sw_reporter

링크드인은 사용자 데이터로 AI 모델을 학습시키면서 이용 약관을 업데이트하지 않았을 수 있다는 의혹이 제기됐다.

현재 미국 사용자들은 (유럽연합, 유럽경제지역, 스위스 거주자는 현지 데이터 개인정보 보호 규정 등의 이유로 해당되지 않을 가능성이 높지만) 링크드인 설정 화면에서 개인 데이터가 "콘텐츠 생성 AI 모델"을 훈련하는 데 사용되는지 여부를 설정할 수 있는 옵트아웃(opt-out) 토글을 가지고 있다. 이 토글 자체가 새로운 것은 아니다. 하지만 404 Media의 보도에 따르면, 링크드인은 처음에 이러한 데이터 사용을 반영하여 개인정보 보호 정책을 갱신하지 않았다.

서비스 약관은 이제 업데이트되었지만, 통상적으로 기업이 사용자 데이터를 이처럼 새로운 목적으로 사용한다는 큰 변화를 가져올 때는 그보다 훨씬 이전에 약관이 개정되는 것이 일반적이다. 이는 사용자들에게 계정 변경을 하거나 변화에 동의하지 않을 경우 플랫폼을 떠날 선택권을 주기 위함이다. 하지만 이번에는 그렇지 않은 것으로 보인다.

그렇다면 링크드인은 어떤 모델을 훈련시키고 있는가? 회사는 질의응답(Q&A)에서 글쓰기 제안 및 게시물 추천을 위한 모델 등 자체 모델을 보유하고 있다고 밝혔다. 다만, 링크드인은 플랫폼 내 생성형 AI 모델이 모기업인 마이크로소프트(Microsoft)와 같은 "다른 제공업체"에 의해서도 훈련될 수 있다고 덧붙였다.

해당 Q&A에 따르면, "링크드인의 대부분의 기능과 마찬가지로, 사용자가 플랫폼을 이용하는 과정에서 사용자 이용 데이터(개인 데이터 포함)를 수집하고 사용(또는 처리)합니다. 여기에는 생성형 AI(콘텐츠 제작에 사용되는 AI 모델) 이용이나 기타 AI 기능 사용 기록, 게시물 및 기사, 링크드인 이용 빈도, 언어 선호도, 그리고 저희 팀에 제공한 모든 피드백이 포함될 수 있습니다. 당사는 이 데이터를 개인정보 보호정책에 따라 링크드인 서비스를 개선하거나 발전시키는 데 활용합니다."라고 명시되어 있다.

한편, 링크드인은 과거 테크크런치(TechCrunch)에 "생성형 AI 훈련에 사용되는 데이터 세트에 포함된 개인 정보를 제한하기 위해 마스킹 및 제거(redacting and removing)를 포함한 '개인정보 보호 강화 기술'을 사용한다"고 밝힌 바 있다.

링크드인의 데이터 스크래핑에 옵트아웃하려면, 데스크톱의 링크드인 설정 메뉴에서 "데이터 개인정보 보호(Data Privacy)" 섹션으로 이동하여 "생성형 AI 개선을 위한 데이터(Data for Generative AI improvement)"를 클릭한 다음, "콘텐츠 생성 AI 모델 훈련에 내 데이터 사용(Use my data for training content creation AI models)" 옵션을 끄면 된다. 더 포괄적으로 옵트아웃을 시도할 수 있는 양식도 있지만, 링크드인은 모든 옵트아웃 조치는 이미 진행된 훈련 과정에는 영향을 미치지 않는다고 명시했다.

비영리 단체 오픈 라이츠 그룹(Open Rights Group, ORG)은 영국 데이터 보호 권리 독립 규제 기관인 정보국(ICO)에 링크드인 및 다른 소셜 네트워크들이 기본 설정으로 사용자 데이터를 훈련시키는 행위를 조사해 줄 것을 촉구했다. 이 주 초, 메타(Meta)는 ICO와 협력하여 옵트아웃 절차를 단순화한 후 AI 훈련을 위해 사용자 데이터를 다시 스크래핑할 계획을 재개한다고 발표한 바 있다.

ORG의 법률 및 정책 담당자인 마리아노 델리 산티는 성명에서 "링크드인은 동의를 구하지 않고 당사의 데이터를 처리한 것으로 밝혀진 최신 소셜 미디어 기업"이라며, "개인의 데이터가 이러한 방식으로 사용되는 것은 부적절하다"고 지적했다.

한편, 데이터 보호 기관은 이와 관련하여 사용자에게 강력한 권한을 부여할 것을 촉구했다.

한편, 텀블러(Tumblr)와 같은 플랫폼은 사용자에게 데이터에 대한 보다 강력한 통제권을 부여하는 것이 시급하다는 지적이다.

오랫동안 데이터 프라이버시가 중요하게 다뤄져 왔음에도 불구하고, 사용자 데이터에 대한 기업의 접근 방식은 여전히 문제점을 안고 있다.

요약: 데이터 프라이버시 문제와 관련하여, 대형 플랫폼 기업들이 사용자의 데이터를 AI 학습에 활용하는 것에 대한 윤리적, 법적 논란이 커지고 있다. 사용자는 자신의 데이터 활용 여부를 명확히 통제할 수 있는 권리가 요구되며, 관련 기관들은 플랫폼에 대한 보다 엄격한 데이터 거버넌스 및 투명성 확보를 촉구하고 있다.

[출처:] https://techcrunch.com/2024/09/18/linkedin-scraped-user-data-for-training-before-updating-its-terms-of-service