TTT 모델이 생성형 AI의 다음 지평이 될 수 있다

sw_reporter

트랜스포머(Transformer)라는 형태로 알려진 인공지능이 수년간 지배적인 성능을 보여왔지만, 이제 새로운 아키텍처를 찾기 위한 경쟁이 치열합니다.

트랜스포머는 OpenAI의 비디오 생성 모델 Sora의 기반 기술이며, Anthropic의 Claude, Google의 Gemini, GPT-4o와 같은 텍스트 생성 모델의 핵심 동력입니다. 하지만 트랜스포머는 기술적 난관에 직면하기 시작했으며, 특히 계산(computation) 관련 병목 현상이 두드러집니다.

트랜스포머는 범용적으로 사용 가능한 하드웨어 위에서 방대한 데이터를 처리하고 분석하는 데 효율성이 떨어진다는 문제가 있습니다. 이는 기업들이 트랜스포머의 요구 사항을 충족하기 위해 인프라를 구축하고 확장함에 따라 전력 수요를 급격하고, 어쩌면 지속 불가능한 수준으로 증가시키고 있습니다.

이번 달에 주목받는 유망한 대안 아키텍처는 ‘테스트 시간 훈련(Test-Time Training, TTT)’입니다. 이는 스탠퍼드, UC 샌디에이고, UC 버클리, Meta의 연구진들이 1년 반에 걸쳐 개발한 기술입니다. 이 연구팀은 TTT 모델이 트랜스포머보다 훨씬 많은 데이터를 처리할 수 있을 뿐만 아니라, 컴퓨팅 전력 소비는 거의 증가시키지 않고도 이를 달성할 수 있다고 주장합니다.

트랜스포머의 은닉 상태(Hidden State)

트랜스포머의 근본적인 구성 요소는 '은닉 상태(hidden state)'로, 이는 본질적으로 거대한 데이터 목록입니다. 트랜스포머가 무언가를 처리할 때마다, 자신이 처리한 내용을 '기억'하기 위해 이 은닉 상태에 항목들을 추가합니다. 예를 들어, 모델이 책을 읽어 나갈 때, 은닉 상태의 값들은 단어(혹은 단어의 일부)에 대한 임베딩(표현)과 같은 형태가 됩니다.

TTT 연구의 공동 기여자이자 스탠퍼드 포닥인 유 선(Yu Sun)은 TechCrunch와의 인터뷰에서 "트랜스포머를 지능적인 개체로 생각한다면, 조회 테이블(lookup table)인 은닉 상태가 트랜스포머의 뇌와 같습니다"라고 설명했습니다. 이어 "이 특화된 '뇌' 덕분에 인 컨텍스트 러닝(in-context learning)과 같은 트랜스포머의 잘 알려진 기능들이 가능해집니다"라고 덧붙였습니다.

은닉 상태는 트랜스포머의 강력한 성능을 만드는 주요 원인이기도 합니다. 하지만 동시에 가장 큰 약점이기도 합니다. 트랜스포머가 읽은 책에 대해 단 하나의 단어만 언급하려 해도, 모델은 전체 조회 테이블을 스캔해야 하는데, 이는 책 전체를 다시 읽는 것과 맞먹는 계산적 부하를 요구하는 작업입니다.

이에 선과 연구팀은 은닉 상태를 기계 학습 모델로 대체하자는 아이디어에 도달했습니다.

기술적 개선점: 기존 방식의 한계점과 효율성 증대.

연구팀은 T를 통해 모델의 동작 원리를 근본적으로 개선했습니다.

새로운 기술적 접근 방식:

최종 결과: (이 부분은 맥락에 맞는 최종 결론이나 결과가 필요하지만, 제공된 정보만으로는 명확한 결론을 내리기 어렵습니다. 문맥에 따라 적절한 결론 문구로 채워주세요.)

[출처:] https://techcrunch.com/2024/07/17/ttt-models-might-be-the-next-frontier-in-generative-ai