로컬 LLM 돌릴 때 사양 가이드라인 궁금해요

neonbada

요즘 로컬 LLM 돌려보는 거 재미있어서 이것저것 만져보고 있는데, 막상 돌려보니까 체감이 좀 안 오네요.
튜토리얼만 보면 '이 정도 사양이면 최고' 이런 식이라, 실제 사용자 관점에서 좀 더 현실적인 가이드라인이 궁금합니다.

특히 VRAM이랑 CPU 조합이 어느 정도 돼야 '이건 써볼 만하다' 싶은 최소한의 체감 성능이 나올지 알고 싶어요.
어느 정도면 '실패'하고, 어느 정도면 '이건 좀 쓸만하다' 싶은 지점 같은 거요.

물론 최적의 사양은 아닐 거고, 일단 '시작점'이라 생각하고요.
너무 빡세게 잡을 필요는 없으니까, 실질적으로 어느 정도의 타협점 같은 게 있을까요?

slowember

와, 저도 비슷한 경험으로 처음 시작할 때 정말 막막했어요.
튜토리얼이나 블로그 글 보면 마치 '이걸 쓰면 무조건 최고야!' 같은 느낌으로 사양을 적어놓으니까, 내 컴퓨터가 그 사양에 못 미치면 괜히 내가 뭘 잘못하고 있나 싶더라고요.
솔직히 저도 처음엔 그랬고, 직접 여러 모델이랑 환경을 돌려보면서 감을 잡았어요.
그래서 '최적의 사양'보다는 '이 정도면 뭘 기대할 수 있는지'의 관점에서 좀 현실적인 가이드라인을 정리해 봤는데, 이게 질문자님께 도움이 되었으면 좋겠네요.
일단 LLM 구동의 핵심은 '모델 크기'와 '추론 속도'예요.
이 두 가지가 VRAM이랑 CPU에 걸쳐서 영향을 주기 때문에, 이 관점에서 접근하는 게 제일 좋아요.
--- ### VRAM (그래픽카드 메모리)이 가장 중요합니다.
(★가장 중요) LLM을 돌릴 때 가장 병목이 되고, 가장 체감이 크게 오는 부분이 바로 VRAM이에요.
결국 모델의 가중치(Weights)를 GPU 메모리에 올리느냐 마느냐의 싸움이라 할 수 있어요.
1.
최소한의 '체감'을 위한 기준 (가볍게 맛보기): * VRAM: 최소 8GB 이상을 추천합니다.

체감: 이 정도면 7B (70억 개 매개변수) 급의 모델(예: Llama 3 8B, Mistral 7B)을 4비트 양자화(Quantization)해서 돌려볼 수 있어요.
경험: 7B 모델을 돌릴 때, 맥락 길이(Context Length)를 너무 길게 잡지 않으면 (예: 2048 토큰 이내), '어, 이게 LLM이구나' 싶은 수준의 답변은 나옵니다.
주의점: 8GB라도, 운영체제나 다른 프로그램들이 메모리를 잡아먹기 때문에, 할당 가능한 순수 VRAM이 6~7GB 정도 확보되는 것이 안정적입니다.
2.
'좀 쓸만하다' 싶은 기준 (적당한 사용): * VRAM: 12GB ~ 16GB 사이가 가장 이상적인 타협점 같아요.
체감: 여기부터는 7B 모델을 좀 더 넉넉하게, 그리고 13B급 모델(예: Llama 2 13B)도 4비트 양자화해서 돌려볼 수 있는 여유가 생겨요.
추가 가능성: 16GB 정도면 가끔 30B급 모델을 '한 번 맛보는' 정도는 가능합니다.
물론 속도는 기대 낮추셔야 해요.
팁: 만약 이 정도 사양이라면, GGUF 포맷을 사용하고 llama.cpp 같은 최적화된 백엔드를 쓰는 게 필수입니다.
3.
'실패'와 '아예 못 굴리는' 경계: * VRAM: 6GB 이하일 경우, 7B 모델을 돌리려고 하면 메모리 부족(OOM) 에러가 뜨거나, 아예 GPU 메모리가 꽉 차서 CPU로만 연산하게 되는데, 이 경우 속도가 극도로 느려져서 '돌리고 있다'는 느낌조차 못 받을 수 있습니다.
경험: 4GB 급에서는 정말 짧은 프롬프트에만 제한적으로 테스트하는 것이 현실적입니다.
--- ### 🧠 CPU와 RAM의 역할 (VRAM이 부족할 때의 백업 플랜) VRAM이 부족하거나, 아예 외장 GPU가 없는 경우(예: 노트북이나 저사양 데스크탑)에는 시스템 RAM과 CPU가 백업 역할을 하게 됩니다.
시스템 RAM: 모델 전체를 메모리에 올릴 수 있는 여유 공간을 확보하는 데 중요해요.
VRAM이 부족하면, 모델의 일부 레이어를 시스템 RAM으로 오프로드(Offload)하게 되는데, 이때 시스템 RAM 용량이 부족하면 아예 프로세스가 멈추거나 느려집니다.
권장 사양: 최소 32GB를 권장합니다.
16GB로 시작하더라도, 나중에 모델 크기를 늘리거나 맥락 길이를 늘리려고 할 때 32GB가심리적으로나 실제적으로나 안정감이 높아요.
CPU: LLM 연산 자체는 병렬 처리가 중요해서, 코어 개수보다는 **IPC(클럭당 명령어 처리 횟수)**와 싱글 코어 성능이 어느 정도 뒷받침되어야 합니다.
최신 세대의 i5나 라이젠 5 정도면 '시작점'으로는 무리가 없습니다.
하지만 이게 병목이 될 때가 많으니, VRAM이 주력이 되는 게 좋습니다.
--- ### 종합적인 '시작점' 추천 시나리오 (질문자님께 드리는 최종 가이드) 질문자님이 '최소한의 체감'을 원하신다면, 아래의 조합을 목표로 하시는 게 가장 스트레스가 적을 겁니다.
[Best Starter Kit] (가장 추천) * GPU: VRAM 12GB 이상 (예: RTX 3060 12GB, RTX 4070 등) * RAM: 32GB * CPU: 최신 세대 i5 또는 라이젠 5 이상 * 기대 성능: 7B~13B 모델을 적절한 속도(초당 5~15 토큰 정도)로 돌리며, 다양한 프롬프트 실험이 가능합니다.
[Budget Starter Kit] (가성비 위주) * GPU: VRAM 8GB ~ 10GB (최소치) * RAM: 16GB (최소) * CPU: 최근 3~4년 이내의 적절한 i5/R5 급 * 기대 성능: 7B 모델에 한정적으로 테스트 가능.
맥락 길이가 길어지면 속도가 급격히 떨어지거나 아예 안 될 수 있습니다.
'맛보기' 수준으로 만족해야 합니다.
--- ### 실질적인 사용 팁 및 주의사항 (이거 진짜 중요해요) 1.
양자화(Quantization)는 필수: * 절대 순수 FP16이나 BF16으로 돌리려고 시도하지 마세요.
처음부터 GGUF 포맷을 사용하고, Q4_K_M (4비트) 같은 최적화된 양자화 버전을 다운로드해서 쓰세요.
이게 체감 성능의 80%를 좌우합니다.

백엔드 선택: * llama.cpp나 이를 기반으로 만든 UI(예: LM Studio, Jan 등)를 사용하세요.
PyTorch만으로 돌리는 것보다 훨씬 메모리 관리가 잘 되어 있습니다.
3.
Context Length 조절: * 처음부터 '최대 컨텍스트 32k' 같은 걸 설정하지 마세요.
모델이 받아들일 수 있는 최대치를 설정하고, 실제 프롬프트 길이를 짧게 유지하는 게 속도와 안정성 면에서 훨씬 좋습니다.

길게 할수록 VRAM 소모가 기하급수적으로 늘어납니다.

GPU 메모리 모니터링 습관: * 실제 돌릴 때는 nvidia-smi 같은 명령어나 프로그램의 리소스 모니터링 기능을 켜서, VRAM 사용량이 얼마나 되는지를 눈으로 확인하는 습관을 들이는 게 최고입니다.

만약 VRAM이 꽉 차는 지점이 보이면, 일단 모델을 다운그레이드하거나, 양자화 레벨을 더 낮추는(예: Q3) 식으로 트레이드오프를 해보세요.
결론적으로, 처음 시작할 때는 'VRAM 12GB 이상'을 목표로 하되, 당장 어렵다면 '7B 모델의 Q4_K_M'으로만 돌려보면서 체감하는 것부터 시작하시고, 여기서 만족 못 하면 업그레이드한다는 계획이 가장 현실적입니다.
이거가 제가 직접 겪어보고 느낀 점들 위주로 정리해 본 거니, 너무 참고만 하시고 궁금한 거 있으면 또 물어보세요!