
마이크로소프트 연구진은 역대 최대 규모의 1비트 AI 모델인 '비트넷(BitNet)'을 개발했다고 발표했습니다. 이 모델의 이름은 BitNet b1.58 2B4T이며, MIT 라이선스를 통해 공개적으로 사용 가능하고 Apple M2를 포함한 CPU 환경에서도 구동할 수 있습니다.
비트넷은 근본적으로 경량 하드웨어 환경에서 구동되도록 설계된 압축 모델입니다. 일반적인 모델에서는 모델의 내부 구조를 정의하는 값인 '가중치(weights)'를 종종 양자화(quantized)하여 다양한 기기에서 높은 성능을 보이도록 합니다. 가중치 양자화란, 가중치를 표현하는 데 필요한 비트(컴퓨터가 처리할 수 있는 최소 단위)의 수를 줄이는 과정으로, 이를 통해 메모리가 적은 칩에서도 모델을 더 빠르고 효율적으로 구동할 수 있게 합니다.
비트넷은 가중치를 오직 -1, 0, 1의 세 가지 값으로만 양자화합니다. 이론적으로 볼 때, 이는 현존하는 대부분의 모델보다 월등히 높은 메모리 및 컴퓨팅 효율성을 의미합니다.
연구진에 따르면, BitNet b1.58 2B4T는 파라미터(parameters, 가중치와 거의 동의어)가 20억 개에 달하는 최초의 비트넷입니다. 해당 모델은 약 3,300만 권의 책 분량에 해당하는 4조 토큰 데이터셋으로 훈련되었으며, 연구진은 BitNet b1.58 2B4T가 유사 규모의 기존 모델들보다 뛰어난 성능을 보인다고 주장합니다.
다만, BitNet b1.58 2B4T가 경쟁하는 20억 파라미터급 모델들을 압도한다는 의미는 아닙니다. 하지만 연구진 테스트 결과에 따르면, 이 모델은 GSM8K(초등학교 수준 수학 문제 모음) 및 PIQA(물리적 상식 추론 능력 테스트)를 포함한 벤치마크에서 Meta의 Llama 3.2 1B, Google의 Gemma 3 1B, Alibaba의 Qwen 2.5 1.5B 모델들을 능가했습니다.
더욱 인상적인 점은, BitNet b1.58 2B4T가 비슷한 크기의 다른 모델보다 메모리 사용량은 적으면서도, 일부 경우에는 최대 두 배에 달하는 속도를 자랑한다는 것입니다.
그러나 치명적인 전제가 있습니다.
이러한 성능을 달성하기 위해서는 마이크로소프트의 전용 프레임워크인 bitnet.cpp를 반드시 사용해야 하며, 현재는 특정 하드웨어에서만 작동합니다. 특히 AI 인프라 환경의 근간을 이루는 GPU는 지원되는 칩 목록에서 제외되어 있다는 점이 문제입니다.
결론적으로, 비트넷은 리소스가 제한된 기기에는 큰 가능성을 제시하지만, 핵심적인 호환성 문제가 여전히 가장 큰 난관으로 남아있습니다.