저커버그, 젠슨 황 엔비디아 CEO와 함께 메타의 최신 비디오 비전 AI 홍보하다 (혹은 공개하다)

sw_reporter

메타는 작년에 이미지 속 거의 모든 것을 빠르고 신뢰성 있게 식별하고 윤곽을 추출할 수 있는 머신러닝 모델인 [모델명]을 통해 큰 성공을 거두었다. 이에 대한 후속작을 CEO 마크 저커버그가 월요일 SIGGRAPH 무대에서 공개했는데, 이 모델은 해당 모델을 비디오 도메인으로 확장함으로써 분야의 빠른 발전 속도를 보여주고 있다.

세그멘테이션(Segmentation)은 비전 모델이 사진을 분석하며 특정 영역을 분리해내는 기술적인 과정이다. 즉, "이것은 개이고, 이것은 개 뒤에 있는 나무다"와 같이 원하는 부분을 정확히 분리하는 것을 의미하며, "이것은 개에서 자라고 있는 나무다"와 같은 혼란스러운 분류를 하는 것이 아니다. 이 기술은 수십 년간 진행되어 왔지만, 최근 성능과 속도가 비약적으로 향상되었으며, Segment Anything이 그 큰 진전의 계기가 되었다.

Segment Anything 2 (SA2)는 기존 모델이 정지 이미지에 주로 적용되는 한계를 넘어, 비디오에 네이티브하게 적용된다는 점에서 자연스러운 후속작이다. 물론 최초의 모델을 비디오의 모든 프레임에 개별적으로 실행할 수는 있지만, 이는 가장 효율적인 워크플로우는 아니다.

저커버그는 엔비디아 CEO 젠슨 황과의 대화에서 "과학자들은 이 자료를 산호초나 자연 서식지 같은 곳을 연구하는 데 사용합니다. 하지만 비디오를 대상으로도, 제로 샷(zero-shot) 방식으로 원하는 객체를 지정하여 분석할 수 있게 되었다는 것은 매우 흥미로운 일입니다"라고 말했다.

물론 비디오를 처리하는 것은 훨씬 더 높은 계산 능력을 요구한다. SA2가 데이터센터 과부하 없이 작동할 수 있다는 점은 산업 전반의 효율성 향상을 입증하는 증거다. 이 모델 역시 여전히 매우 큰 규모의 모델이라 원활한 작동을 위해서는 강력한 하드웨어 자원이 필요하지만, 빠르고 유연한 세그멘테이션 작업은 불과 1년 전만 해도 사실상 불가능에 가까웠다.

이 모델 역시 첫 모델과 마찬가지로 개방적이며 무료로 사용할 수 있을 예정이며, 일부 AI 기업들이 제공하는 호스팅 버전(hosted version)에 대한 언급은 없었다.

다만, 무료 데모는 제공된다.

이러한 모델은 방대한 양의 데이터로 학습해야 하므로, 메타는 이 목적을 위해 자체적으로 생성한 5만 개의 비디오가 담긴 대규모 주석(annotation) 데이터베이스도 공개하고 있다. SA2를 설명하는 논문에는 10만 개가 넘는 '내부적으로 이용 가능한' 비디오가 추가 학습에 사용되었는데, 이 데이터는 현재 공개되지 않았다. (저는 메타 측에 이 데이터가 무엇이며 공개되지 않는 이유에 대한 추가 정보를 요청했다. (이는 공개된 인스타그램 및 페이스북 프로필에서 출처를 얻었을 것으로 추정한다.))

메타는 지난 몇 년간 '개방형' AI 분야의 선두 주자 역할을 해왔지만, 사실 (저커버그가 대화에서 언급했듯) PyTorch와 같은 도구를 통해 오랫동안 그러해왔다. 하지만 최근 LLaMa, Segment Anything, 그리고 그들이 자유롭게 공개한 몇몇 모델들은 해당 분야에서 비교적 접근성이 높은 AI 성능 기준을 제시했지만, 이들 모델의 '개방성' 자체는 여전히 논쟁거리다.

저커버그는 이러한 개방성이 메타가 순전히 선의로 진행되는 것은 아니라고 했지만, 이것이 그들의 의도가 순수하다는 뜻은 아니다.

"이것은 단순히 구축할 수 있는 소프트웨어 조각이 아닙니다. 이 주변에는 생태계가 필요합니다. 만약 우리가 오픈 소스로 공개하지 않는다면 제대로 작동하기 어려울 것입니다. 우리가 이 일을 하는 것이 순전히 선의의 목적만은 아닙니다. 저희는..." (중략)

[이후 본문 내용이 이어짐]

[출처:] https://techcrunch.com/2024/07/29/zuckerberg-touts-metas-latest-video-vision-ai-with-nvidia-ceo-jensen-huang