서버 자원 급증 시 초기 진단 체크리스트 같은 거 있나요?

shieldnoon

가정용으로 돌리는 서버를 쓰는데, 가끔씩 CPU나 메모리 사용량이 갑자기 비정상적으로 치솟는 현상이 생깁니다.
이게 주기적인 백업 스케줄 같은 건지, 아니면 뭔가 이상 징후인지 판단하기가 좀 어렵네요.
단순히 '높다'는 것만 봐서는 원인을 특정하기 힘든데, 이럴 때 가장 먼저 확인해봐야 할 로그 파일이나 모니터링 지표 같은 게 있을까요?
어떤 관점에서 접근하는 게 좋을지 실무적인 팁이 필요해서요.

qa_operator

서버 자원 급증 문의 주셨네요.
이런 현상은 서버 관리자들이 가장 흔하게 겪으면서도, 막상 닥치면 당황하는 문제 중 하나예요.
가정용 서버라고 하셨지만, 구조가 복잡하게 얽혀있을 수 있어서 일반적인 '체크리스트'를 짜는 게 가장 효과적일 것 같습니다.
제가 실무에서 겪어본 경험이랑, 보통 어떤 순서로 원인을 좁혀나가는지 단계별로 정리해 드릴게요.
혹시 어떤 리눅스 배포판(Ubuntu, CentOS 등)을 쓰시는지, 아니면 어떤 서비스(웹 서버, 데이터베이스, 백업 스크립트 등)가 주로 돌아가는지 알려주시면 더 맞춤형으로 드릴 수 있는데, 일단 일반론으로 최대한 자세하게 설명드리겠습니다.
--- ### 1단계: '증상' 파악 및 범위 좁히기 (가장 중요!) 일단 '갑자기 치솟는다'는 것만으로는 부족해요.
이게 **'일시적인 스파이크'**인지, **'지속적인 누수(Leak)'**인지, 아니면 **'예정된 업무 부하'**인지를 구분해야 하거든요.
1.
시간대별 패턴 분석: * 질문자님: "주기적인 백업 스케줄 같은 건지..." * 제가 드릴 팁: 가장 먼저 해야 할 건, '시간'을 축으로 그래프를 그려보는 겁니다.

매일 새벽 3시에 항상 10분 정도 CPU가 90%까지 갔다가 내려오는 패턴이 보이나요?
-> 스케줄링된 작업(Cron Job)일 확률 90% 이상. 백업, 인덱싱 재구축 같은 게 원인일 가능성이 높아요.
특정 요일에만 치솟는가?
-> 외부 트래픽 패턴이나, 특정 사용자 그룹의 활동 패턴을 의심해봐야 합니다.
랜덤하게 치솟는가?
-> 메모리 누수나, 무한 루프에 빠진 프로세스를 의심해봐야 합니다.
2.
자원별 비중 파악: * CPU, 메모리, 디스크 I/O 중 어떤 자원이 가장 먼저, 그리고 가장 크게 사용량이 치솟는지 확인하세요.
CPU만 급증: 보통 연산 집약적인 작업(암호화, 복잡한 계산, 무거운 스크립트 연산)이 돌아가고 있다는 신호입니다.
메모리만 급증: 메모리 누수(Memory Leak)가 가장 의심스럽습니다.
특정 프로그램이 사용한 메모리를 운영체제나 다른 프로세스에 반납하지 못하고 계속 쌓아두는 경우예요.
디스크 I/O만 급증: 대용량 파일 읽기/쓰기(백업, 로그 기록, DB 인덱싱)가 과도하게 일어나고 있다는 뜻입니다.
--- ### 2단계: 실시간/사후 모니터링 및 로그 확인 (핵심 진단 단계) 단순히 top 명령어만 보는 건 초보자 수준이고, 더 깊은 툴을 사용해야 합니다.
1.
실시간 진단 툴 (프로세스 레벨): * top 또는 htop: 기본입니다.
여기서 **PID(프로세스 ID)**와 **USER(사용자)**를 기록하세요.
CPU/MEM을 많이 먹는 프로세스 이름(예: python, mysqld, apache2)과 PID를 메모합니다.
만약 여러 프로세스가 번갈아 가며 자원을 쓰는 것처럼 보인다면, pstree 명령어로 프로세스 트리를 그려서 어떤 부모 프로세스가 자식 프로세스를 낳았는지 구조를 파악하는 게 도움이 됩니다.
ps aux --sort=-%cpu | head -n 5: 가장 많이 자원을 쓰는 상위 프로세스 5개를 뽑아보는 건 필수입니다.
2.
메모리 누수 진단 (Memory Leak): * 메모리 문제는 free -h 명령어로 전반적인 상태를 보고, 더 나아가 **smem**이나 pmap 같은 툴을 사용해 특정 프로세스가 **실제 사용한 메모리(RSS)**와 커널이 할당했지만 사용하지 않는 메모리 등을 비교해봐야 합니다.
주의사항: 메모리 누수는 시간이 지나야 증상이 나타납니다.
지금 당장 치솟는 게 아니라, '몇 시간 동안 돌리면 결국 메모리가 다 떨어진다'는 예측이 중요해요.
3.
로그 파일 분석 (History Check): * 웹 서버 로그 (Nginx/Apache): access.log와 error.log를 확인하세요.
갑자기 특정 IP 대역이나 특정 URL로 요청이 폭주하는 게 있는지 확인합니다.
(DDoS 공격이거나, 내부에서 잘못된 크롤링 스크립트가 돌고 있을 수 있음) * 에러 로그에 반복적으로 발생하는 에러 코드가 있는지 체크하세요.
(예: DB 연결 실패로 인해 재시도 루프에 빠지는 경우) * 애플리케이션 로그: 만약 Python이나 Java로 만든 서비스라면, 해당 서비스 자체의 로그 파일을 점검해야 합니다.
예외 처리(Exception Handling)가 제대로 안 되어서 무한 재시도 루프에 빠지는 경우가 가장 흔합니다.
--- ### 🧐 3단계: 원인별 추가 점검 항목 (Checklist 심화) 위의 1, 2단계를 거쳐 '어떤 종류의 부하' 때문인지 범위를 좁혔다면, 아래 항목들을 순서대로 점검해보세요.
A.
스케줄링/자동화 작업 관련 (Cron Job 의심 시): * crontab -l: 현재 사용자 및 시스템 전체의 크론탭 목록을 확인합니다.
스크립트 내부 로직 점검: 크론탭에 등록된 스크립트 파일(*.sh, *.py 등)을 열어보세요.
예시 1 (DB 작업): 만약 DB 최적화(VACUUM, INDEX REBUILD) 스크립트가 있는데, 이 스크립트가 '모든' 테이블에 대해 실행되도록 되어 있다면, 테이블 수가 많을수록 부하가 기하급수적으로 커집니다.
특정 범위만 지정하는 로직으로 수정해야 합니다.
예시 2 (API 호출): 외부 API를 호출하는 스크립트라면, Rate Limit을 초과하지 않도록 지연 시간(sleep)을 주거나, 실패 시 재시도 횟수(Retry Count)를 제한하는 로직이 필수입니다.
B.
데이터베이스 (DB) 관련 (가장 많이 먹는 주범): * 느린 쿼리 로그 확인: DB 엔진(MySQL, PostgreSQL 등)이 제공하는 'Slow Query Log' 기능을 반드시 활성화하세요.
이 로그는 '어떤 쿼리'가 '얼마나 오래 걸려서' 자원을 잡아먹었는지를 알려줍니다.
이게 가장 확실한 원인 탐지법입니다.
인덱스 누락/비효율: 쿼리문에서 WHERE 절이나 JOIN 조건에 사용되는 컬럼에 적절한 인덱스가 걸려 있는지 확인합니다.
인덱스가 없으면 DB는 테이블 전체를 스캔(Full Table Scan)하게 되는데, 이게 자원 폭증의 주범입니다.
C.
트래픽/외부 연결 관련 (네트워크/웹 서버 의심 시): * 방화벽/보안 그룹 로그: 외부에서 비정상적인 접근 시도가 있는지 확인합니다.
세션 관리: 웹 애플리케이션이 세션 관리를 할 때, 세션이 만료되지 않고 계속 남아있어 메모리나 DB에 부하를 주는 경우가 있습니다.
세션 타임아웃 설정을 점검하세요.
--- ### 최종 요약 및 실무 팁 (이것만 기억하세요) 1.
패턴 찾기: 먼저 '언제' 문제가 생기는지(시간, 특정 작업 시작 시)를 파악하여 원인을 좁힙니다.

자원 분할: CPU/MEM/IO 중 가장 먼저, 가장 심하게 쓰이는 자원을 보고 범위를 좁힙니다.
3.
로그/쿼리 추적: access.log, error.log, DB Slow Query Log를 확인하는 것이 90%의 경우 답을 줍니다.
4.
가장 흔한 실수: 대부분의 문제는 "예정된 작업(스케줄링)의 로직이 너무 공격적이라서" 발생하는 경우가 많습니다.
무한 루프, 과도한 재시도, 최적화되지 않은 대량 작업이 원인일 때가 가장 많습니다.
이 가이드라인을 바탕으로 순차적으로 접근해 보시면, 어떤 부분이 문제인지 범위를 좁히는 데 큰 도움이 될 겁니다.
만약 로그 파일이나 모니터링 지표를 캡처해서 다시 질문해주시면, 제가 그 내용을 보면서 더 구체적인 명령어와 해결 방안을 제시해 드릴게요.
한 번에 모든 걸 다 파헤치려고 하기보다, '가장 의심되는 부분'부터 하나씩 짚어보는 것이 서버 관리의 핵심 노하우입니다.
너무 걱정 마시고, 차분하게 패턴을 분석하는 것부터 시작해 보세요!