집에 있는 PC로 로컬 LLM 돌리기, 사양 어느 정도면 될까요?

cashmere_io

요즘 AI 관련해서 관심이 많아져서, 집 컴퓨터 사양으로 로컬 LLM 돌려보고 싶어졌거든요.

근데 이게 막 뭘 준비해야 할지 감이 안 와서요.
특히 VRAM이나 RAM 같은 거 보고 뭘 사야 할지 막막하고요.

어느 정도 사양이 돼야 쾌적하게 돌릴 수 있을지, 혹시 경험 있으신 분들 계시면 현실적인 기준 같은 거 좀 알려주시면 감사하겠습니다.

너무 과하면 돈 낭비니까, '이 정도면 어느 정도까지는 돌려볼 만하다' 싶은 가이드라인 위주로 알고 싶어요.

qa_operator

일단 AI에 관심을 갖기 시작하셨다니 정말 흥미로운 분야에 발을 들이신 거 축하드립니다.
로컬 LLM을 돌리는 게 처음에는 정말 막막하죠.
전문 용어들이 너무 많고, 'VRAM 몇 GB가 필요하다' 같은 말만 들으면 뭘 사야 할지 감이 안 올 거예요.
저도 처음 이쪽 접했을 때, '이걸 돌리려면 최소 RTX 4090은 되어야 한다'는 식의 과장된 정보들 때문에 뭘 사야 할지 멘붕 왔었거든요.
그래서 제가 경험을 바탕으로, '이 정도면 어느 정도 돌려볼 만하다' 싶은 현실적인 가이드라인 위주로 최대한 자세하게 정리해 드릴게요.
결론부터 말씀드리자면, '무조건 최고 사양'을 목표로 하실 필요는 전혀 없습니다.
사용 목적과 기대하는 모델의 크기(파라미터 수)에 따라 필요한 사양이 천차만별이에요.
일단 LLM 구동에서 가장 중요한 핵심 개념 몇 가지부터 잡으셔야 합니다.
이걸 모르고 사양만 보면 돈 낭비하기 딱 좋아요.
1.
VRAM이 왕이다 (GPU 메모리) LLM을 돌릴 때 가장 중요한 건 전용 메모리, 즉 VRAM입니다.
모델 자체의 가중치(Weights)를 이 VRAM에 올려서 연산을 하기 때문이에요.
VRAM이 부족하면 모델을 아예 못 돌리거나, 아예 돌리더라도 속도가 극도로 느려집니다.
2.
RAM과 CPU의 역할 (보조 역할) RAM은 모델을 로드하거나 운영체제가 돌아가는 데 필요한 작업 메모리입니다.
CPU는 연산의 보조적인 역할을 하거나, VRAM이 부족할 때 RAM에 올려서 연산하는 백업 역할을 합니다.
하지만 속도 면에서는 GPU(VRAM)에 비할 바가 못 되기 때문에, VRAM 용량 확보가 최우선 목표라고 보시면 됩니다.
3.
양자화(Quantization)의 이해 (생존 키워드) 이걸 모르면 절대 안 됩니다.
LLM은 기본적으로 16비트(FP16) 같은 큰 정밀도로 저장되어 있어요.
이걸 그냥 돌리려면 엄청난 VRAM이 필요해서 일반 가정 PC로는 불가능에 가깝습니다.
그래서 커뮤니티에서 주로 사용하는 방식이 '양자화'입니다.
쉽게 말해, 모델을 '압축'하는 거라고 생각하시면 돼요.
예를 들어, 16비트짜리 모델을 4비트(Q4_K_M 등)로 양자화하면, 모델 크기 자체가 1/4 수준으로 줄어듭니다.
이 압축률이 높을수록 낮은 사양에서도 큰 모델을 돌릴 수 있게 해주는 핵심 기술이에요.
--- 목적별 현실적인 사양 가이드라인 질문자님께서 어떤 수준의 경험을 원하시는지에 따라 세 가지 단계로 나눠서 설명드리겠습니다.
[Level 1: 맛보기 / 학습용 (가볍게 체험만 해보고 싶을 때)] * 목표: 7B (70억 개 파라미터)급 모델을 Q4 수준으로 돌려보고, '로컬 LLM이 실제로 어떤 느낌인지' 체험하는 수준입니다.

필요 사양: * VRAM: 최소 8GB 이상 (최근 중급 게이밍 카드 정도면 커버 가능합니다.) * RAM: 16GB면 충분합니다.
GPU: RTX 3060 12GB 같은 모델도 VRAM 용량만 보면 괜찮은 선택지가 될 수 있습니다.
(모델에 따라 VRAM이 넉넉하면 좋으니까요.) * 주의점: 13B급 모델이나 그 이상의 모델은 아예 돌리기 어렵거나, 속도가 매우 느릴 수 있습니다.
실제 체감: '오, 이게 이렇게 돌아가는구나' 정도의 느낌을 받기에 좋아요.
[Level 2: 적당한 재미 / 일상 활용 (가장 추천하는 구간)] * 목표: 13B~20B급 모델을 주로 사용하며, 채팅, 요약, 간단한 코딩 보조 등 일반적인 AI 활용을 원할 때입니다.
필요 사양: * VRAM: 12GB ~ 16GB 구간을 목표로 하시는 게 가장 쾌적합니다.
(예: RTX 3060 12GB, RTX 4070 Ti 급 등) * RAM: 32GB로 맞추시는 것을 강력하게 추천드립니다.
GPU: VRAM 용량이 16GB 근처로 올라갈수록 선택지가 넓어지고 쾌적함이 체감됩니다.
주의점: 이 단계가 가장 범용성이 높아서, 추후 모델이 커지거나 더 좋은 성능의 모델이 나와도 어느 정도 대응이 가능합니다.
실제 체감: 적당한 속도로 쾌적하게 대화나 테스트가 가능합니다.
[Level 3: 고성능 / 개발 및 연구용 (최대 성능을 원할 때)] * 목표: 34B 이상 또는 70B급 모델을 충분히 돌리거나, 여러 모델을 동시에 테스트하며 개발적인 목적으로 사용하고 싶을 때입니다.
필요 사양: * VRAM: 24GB 이상 (RTX 3090, 4090 등의 플래그십 제품군) * RAM: 64GB 이상 (넉넉할수록 좋습니다.) * GPU: VRAM 용량을 최우선으로 보세요.
주의점: 이 단계는 비용이 상당히 많이 들고, 일반적인 '취미' 수준을 넘어서는 영역입니다.
--- 실무 팁 및 흔히 하는 실수 방지법 1.
운영 환경 구축에 집중하세요 (하드웨어보다 소프트웨어가 중요) 솔직히 말해서, 사양이 어느 정도 갖춰지면 하드웨어 스펙을 따지기보다, 어떤 소프트웨어 환경을 구축하느냐가 성능 체감이 훨씬 큽니다.
요즘은 Ollama 같은 툴을 사용하시는 것을 가장 추천드립니다.
Ollama는 설치부터 모델 다운로드, 실행까지의 복잡한 과정을 엄청나게 단순화시켜 줍니다.
명령어 몇 개만 치면 알아서 최적의 환경으로 구동시켜주기 때문에, 초보자에게는 가장 친절한 친구입니다.
2.
'속도'와 '모델 크기'의 관계 이해하기 모델이 크다(예: 70B) $\rightarrow$ VRAM 요구량이 크다 $\rightarrow$ 속도가 느려지거나 아예 못 돌림.
모델이 작다(예: 3B~7B) $\rightarrow$ VRAM 요구량이 적다 $\rightarrow$ 속도가 빠르고 쾌적하다.
그러니까, '가장 좋은 모델'보다는 '내 사양에서 가장 쾌적하게 돌아가는 크기의 모델'을 찾는 게 현명합니다.
3.
CPU만 믿으면 안 돼요 (CPU 오프로딩의 한계) VRAM이 부족해서 모델을 RAM으로 넘기는 'CPU 오프로딩'이라는 기술이 존재합니다.
이건 **'돌아가게 만드는 비상구'**이지, **'쾌적하게 돌리는 방법'**은 아닙니다.
속도가 눈에 띄게 느려지기 때문에, 만약 속도가 중요하다면 무조건 VRAM 용량을 늘리는 방향으로 가셔야 합니다.
4.
램 용량은 넉넉할수록 무조건 이득입니다. VRAM이 부족해서 아예 구동이 안 될 때는 VRAM 증설이 우선이지만, VRAM이 충분할 때도 RAM이 부족하면 시스템 전반이 버벅일 수 있어요.
따라서 예산이 허락한다면, VRAM 다음으로 32GB RAM을 확보해 두시는 것이 전반적인 사용 경험에 매우 긍정적입니다.
요약 정리하자면, 지금 당장 최고 사양을 맞추는 것보다, VRAM 12GB ~ 16GB를 가진 그래픽카드를 중심으로 예산을 짜시고, Ollama 같은 간편한 툴로 시작해보시는 것을 가장 추천드립니다.
이렇게 시작하시면서 '아, 이 모델을 더 크게 돌리고 싶다'라는 니즈가 생기면, 그때 다음 업그레이드 계획을 세우시는 게 돈 낭비 없이 목표에 도달하는 가장 확실한 방법일 겁니다.
너무 어려운 기술 용어에 겁먹지 마시고, 일단 작은 모델부터 여러 번 돌려보시면서 감을 잡으시는 게 최고입니다.
궁금한 점 또 생기시면 언제든지 다시 질문 주세요.