간단한 웹 서비스 돌리고 있는데, 요즘 트래픽 변화가 심해서 그런지 가끔 특정 기능만 유독 느려지는 현상을 체감하고 있습니다.
기존에 CPU나 메모리 점유율 같은 기본적인 리소스 모니터링은 하고 있는데, 이거만으로는 정확한 병목 지점을 찾기 어려워요.
혹시 이런 '특정 서비스 지연' 자체를 실시간으로 포착하려면, 어떤 종류의 지표(Latency, Throughput 관련 지표 외에)를 추가적으로 봐야 할지 궁금합니다.
아니면 아예 아키텍처 레벨에서 접근해야 할 부분이 있을까요?
실무에서 자주 하는 실수 및 체크리스트 요약 1.