개인적으로 가벼운 목적으로 돌리던 서버를 운영하고 있습니다.
최근에 예상치 못한 트래픽 급증을 경험할 가능성에 대비하려고 모니터링 설정을 점검하고 있습니다.
단순히 CPU나 메모리 사용률이 높아지는 것 외에, 실제 서비스 장애나 성능 저하의 근본적인 원인을 파악하고 싶습니다.
특히, 초기 대응 관점에서 볼 때, 가장 먼저 어떤 지표들(예: 네트워크 I/O, 특정 레이턴시 지표, 연결 세션 수 등)에 초점을 맞춰 모니터링해야 할지 궁금합니다.
어떤 지표들이 '트래픽 급증으로 인한 병목 현상'의 가장 선행적 혹은 핵심적인 신호가 될 수 있을지, 경험적으로 조언해주시면 감사하겠습니다.
1단계: 가장 먼저 '이상 신호'를 잡아야 할 지표 (초기 대응 관점) 트래픽 급증이 오기 시작할 때, 가장 먼저 '뭔가 평소와 다르다'는 느낌을 주는 지표들에 집중해야 합니다.
️ 2단계: 병목 현상의 '원인 추적' 지표 (깊은 분석 관점) 1단계에서 "뭔가 이상하다"는 신호가 잡혔다면, 이제 그 원인이 CPU인지, DB인지, 아니면 애플리케이션 코드 레벨인지 깊게 파고들어야 합니다.
3단계: 실무에서 흔히 놓치는 실수 및 주의사항 (체크리스트) 경험상 많은 분들이 이 부분을 놓치고 장애를 겪습니다.