OpenAI, 단 16GB 메모리 장치에서 구동되도록 최적화된, 일반 소비자용 GPU에서 작동 가능한 오픈 가중치 언어 모델 두 개 공개

hw_reporter

gpt-oss-120b와 20b는 GPT-3 이후 가장 먼저 출시된 오픈 모델 LM입니다.

OpenAI가 소비자용 GPU에 최적화된 새로운 오픈 가중치(open-weight) 언어 모델 두 가지를 개발했습니다. OpenAI는 블로그 게시물을 통해 "gpt-oss-120b"와 "gpt-oss-20b"를 발표했습니다. 전자는 단일 80GB GPU에서 구동하도록 설계되었으며, 후자는 메모리가 16GB에 불과한 엣지 디바이스에서 실행하도록 최적화되었습니다.

두 모델 모두 DeepSeek R1 등을 통해 대중화된 Mixture-of-Experts (MoE) 구조의 트랜스포머(Transformer) 모델을 활용합니다. gpt-oss-120b와 20b는 소비자용 GPU에 초점을 맞췄음에도 불구하고, 로컬 추론(local inference)에서 지원 가능한 최대 컨텍스트 길이인 131,072를 지원합니다. gpt-oss-120b는 토큰당 51억 개의 파라미터를 활성화하며, gpt-oss-20b는 토큰당 36억 개의 파라미터를 활성화합니다. 두 모델 모두 밀집형(dense) 및 로컬 대역 희소 어텐션 패턴이 번갈아 배치되는 구조를 사용하며, 그룹 크기 8을 가진 그룹화된 다중 쿼리 어텐션(grouped multi-query attention) 방식을 채택했습니다.

두 모델은 추론(reasoning), 효율성, 실제 사용성(real-world usability)에 대한 복합적인 초점을 가진 Chain-of-Thought 추론 아키텍처를 활용합니다. 이 두 gpt-oss 모델은 GPT-2 이후 출시된 최초의 오픈 가중치 언어 모델이라는 점에서 의미가 큽니다. OpenAI 모델은 개발자들에게 높은 접근성을 제공하는 오픈소스 소프트웨어와 유사합니다. OpenAI는 자체 독점 모델을 도입하기 어려운 신흥 시장 및 기타 분야에서 시장 채택을 촉진하기 위해 이 두 최신 모델을 오픈소스로 공개하기로 결정했습니다.

gpt-oss-120b 모델은 핵심 추론 벤치마크에서 OpenAI의 기존 o4-mini 언어 모델과 거의 동일한 성능을 보인다고 알려져 있으나, 이를 단일 80GB GPU 환경에서 구현할 수 있습니다. gpt-oss-20b는 OpenAI의 기존 o3-mini 언어 모델과 유사한 성능을 제공하며, 메모리 16GB 장치에서도 구동이 가능합니다.

OpenAI가 자체적으로 수행한 평가에 따르면, gpt-oss-120b는 경쟁 코딩, 일반 문제 해결, 도구 호출 부문에서 o3-mini를 능가하고 o4-mini와 동등하거나 그 이상의 성능을 보였습니다. 특히 120b는 건강 관련 질의응답 및 경쟁 수학 분야에서도 o4-mini를 능가하는 모습을 보였습니다. gpt-oss-20b는 o3-mini에 대해 정확하게 동일한 수준의 벤치마킹 성능을 보여주었습니다.

새로운 두 OpenAI 모델은 현재 Apache 2.0 오픈소스 라이선스 하에 사용 가능합니다. OpenAI는 ONNX Runtime, Azure, AWS, Ollama를 포함한 다양한 플랫폼에서 최신 모델들을 지원하기 위해 다수의 기업들과 파트너십을 구축했습니다.

[출처:] https://www.tomshardware.com/tech-industry/artificial-intelligence/openai-intros-two-lightweight-open-model-language-models-that-can-run-on-consumer-gpus-optimized-to-run-on-devices-with-just-16gb-of-memory