로그 분석 체계 잡는 현실적인 팁 있나요?

tekmoru

개인적으로 간단하게 돌리는 웹 서비스가 있는데, 시간이 지나면서 로그가 너무 방대해져서 관리가 안 될 지경입니다.
어떤 로그부터 건드려야 할지, 아니면 아예 체계를 잡아야 할지 막막하네요.

지금은 그냥 모든 걸 쌓아두고 나중에 필요할 때 뒤지는 방식인데, 이게 지속 가능하지 않은 게 느껴져요.
혹시 실제로 운영하시면서 '이 로그는 무조건 남기고, 저 로그는 필터링/샘플링 해야 한다' 같은 노하우가 있으신 분들 계신가요?

특히 애플리케이션 레벨 로그랑, 웹 서버 레벨 로그(Nginx 같은 거)가 섞여서 너무 복잡해요.
어떤 기준으로 필터링하고, 어떤 종류의 로그를 우선순위로 두고 보관하는 게 효율적일지 궁금합니다.
혹시 비용이나 리소스 측면에서 고려해볼 만한 팁 같은 거 있을까요?

qa_operator

로그 분석 체계 잡는 거, 정말 많은 분들이 공감하는 고민거리예요.
저도 처음 서비스를 키우면서 '이걸 다 남겨야 하나...' 싶다가 결국 저장 용량 폭탄 맞고 멘붕 왔던 경험이 있어서, 질문자님의 막막함이 뭔지 딱 와닿습니다.
'나중에 필요할 때 뒤지는' 방식은 초창기에는 최고지만, 서비스가 어느 정도 트래픽을 넘어서면 무조건 한계에 부딪히죠.
이건 단순히 로그를 쌓는 문제를 넘어, '무엇을 보고 문제를 예측하고 방어할 것인가?'라는 관점으로 접근해야 하는 영역이거든요.
제가 몇 년 동안 여러 프로젝트 로그를 다뤄봤고, 특히 트래픽이 늘어나면서 로그 관리 체계를 잡았던 경험을 바탕으로 몇 가지 현실적인 팁을 드리려고 합니다.
이게 '정답'은 아니니까, 질문자님의 서비스 특성에 맞게 믹스앤매치해서 보시고, '이건 우리 서비스에선 좀 과한가?' 싶은 부분은 과감히 건너뛰셔도 됩니다.
--- ### 1.
가장 먼저 해야 할 것: 로그의 '목적' 정의하기 (가장 중요) 지금 당장 '어떤 로그를 남길지'를 고민하기보다, **'이 로그를 보고 우리가 해결하고 싶은 문제'**를 먼저 정의하는 게 1순위입니다.
이게 모든 필터링의 기준점이 됩니다.
자문해볼 질문들: * 가장 치명적인 장애 시나리오: "사용자가 결제 버튼을 눌렀는데, 결제 성공 여부가 로그에서 확인 안 될 때, 뭘 확인해야 하는가?" $\rightarrow$ 이 시나리오를 커버할 로그가 최우선입니다.
(예: 결제 API 호출 성공/실패 코드, 사용자 세션 ID) * 가장 자주 발생하는 비즈니스 문제: "사용자가 회원가입은 했는데, 왜 다음 페이지로 넘어가지 못할까?" $\rightarrow$ 이 경우, 프론트엔드 에러 로그, 인증 모듈 로그가 중요해집니다.

성능 이슈의 근거: "특정 시간대에 응답 속도가 느려졌을 때, 어디서 병목이 생겼을까?" $\rightarrow$ 요청/응답 시간(Latency) 측정 로그가 핵심입니다.
현실적인 팁: 처음부터 모든 로그를 최고 등급으로 관리하려고 하지 마세요.
일단 **'Critical Path (핵심 사용자 여정)'**을 따라가는 로그만이라도, '이 로그가 없으면 운영팀이 30분 이상 헤맬 것 같다' 싶은 로그들만이라도 전 구간에 걸쳐 남기는 것부터 시작하세요.
--- ### 2.
로그 레벨별 필터링 전략 (App vs Web) 질문 주신 것처럼 앱 레벨 로그와 웹 서버 레벨 로그가 섞여서 복잡한 게 일반적입니다.
이 둘을 분리해서 생각하는 게 좋습니다.

A.

웹 서버 레벨 로그 (Nginx/Apache 등) - '트래픽의 통계' 파악용 여기는 **'무슨 요청이, 언제, 얼마나 들어왔는지'**를 파악하는 게 주 목적입니다.
디테일한 비즈니스 로직 오류까지 담을 필요는 없습니다.

무조건 남겨야 할 것 (Must-Have): * IP 주소 (지리적 분석이나 공격 패턴 감지 시 유용) * Timestamp (필수) * HTTP Method (GET, POST 등) * URI Path (어떤 페이지/API를 건드렸는지) * Status Code (2xx, 4xx, 5xx 등) $\rightarrow$ 이게 가장 중요합니다.
4xx(클라이언트 에러)와 5xx(서버 에러)만이라도 모니터링할 수 있게는 해야 합니다. * User Agent (사용된 브라우저/OS 파악) * 필터링/샘플링 고려 가능 영역: * Request Body 전체: 요청 본문(POST 데이터 등)은 너무 크고 민감 정보가 많습니다.
필수로 남길 필요는 없으면, 에러 발생 시에만 요청의 일부(예: 파라미터 이름만)를 기록하는 선에서 타협하는 게 좋습니다.
매 요청마다의 상세 헤더: 너무 많은 헤더 값은 로그 볼륨만 키웁니다.
필요한 핵심 헤더(예: 인증 토큰이 담기는 헤더 등)만 뽑아서 기록하세요.

B.

애플리케이션 레벨 로그 (백엔드 코드) - '왜 실패했는지' 파악용 여기는 비즈니스 로직의 깊은 곳에서 발생하는 문제를 추적하는 곳이라, 비교적 디테일해야 하지만, 그 디테일함이 바로 비용과 용량의 주범입니다.

필수적으로 남겨야 할 것 (Contextual Logging): * 트랜잭션 ID (Trace ID): 이게 제일 중요합니다.
사용자가 요청을 보내는 순간부터 DB를 조회하고, 외부 API를 호출하는 전 과정에 걸쳐 동일한 ID를 부여해서 모든 로그에 붙여주세요.
이걸 통해 Nginx 로그의 요청 $\rightarrow$ 백엔드 로직 $\rightarrow$ DB 호출까지의 흐름을 한눈에 추적할 수 있습니다.
사용자 ID 또는 세션 ID: 누가 이 로그를 발생시켰는지 알아야 합니다.
예외 발생 시점의 스택 트레이스 (Stack Trace): 오류가 발생했을 때, 어디서, 어떤 함수가 문제였는지 알아야 하므로 이건 거의 생략하면 안 됩니다.
필터링/샘플링 고려 가능 영역: * 성공 로그 (INFO 레벨): "사용자 A가 로그인 했습니다." 같은 성공 로그는 너무 많습니다.
이건 모니터링 툴 대시보드에서 '카운트'만 확인하고, 로그 자체는 남기지 않거나, 일정 시간당 1건만 샘플링하는 것을 고려해야 합니다.
디버그 레벨 (DEBUG): 개발 단계에서만 사용하고, 운영 환경에서는 강제로 비활성화하는 것이 가장 확실한 비용 절감책입니다.
--- ### 3.
비용 및 리소스 관리를 위한 구체적인 팁 (실무 노하우) 여기서부터는 실제로 로그를 수집/저장/분석하는 시스템(ELK 스택, Grafana Loki 등)을 사용한다고 가정하고 말씀드릴게요.
팁 1: 로깅 계층화 (Severity Level 활용 극대화) 로그를 단순히 '파일'로 생각하지 말고, 심각도(Severity)에 따라 분리해서 관리하세요.

DEBUG: 개발/테스트용.
운영 환경에서는 거의 무조건 끄세요. 2.
INFO: 정상 작동 로그.
(예: API 요청 수신, 특정 프로세스 완료) $\rightarrow$ 가장 필터링이 많이 필요. (카운트 위주로만 모니터링) 3.
WARN: 비정상적이지만 서비스에 치명적이지 않은 로그.
(예: 캐시 만료, 비활성 API 호출) $\rightarrow$ 적당한 수준으로 남기고 트렌드를 파악. 4.
ERROR: 예외 발생 로그.
(예: DB 연결 실패, 파라미터 검증 실패) $\rightarrow$ 이건 무조건 남겨야 합니다. (트레이싱 필요) 5.
FATAL: 시스템 다운급 오류.
(예: 메모리 부족, 핵심 프로세스 강제 종료) $\rightarrow$ 무조건 남겨야 합니다. 팁 2: 로테이션 및 보존 정책 (Retention Policy) 로그를 무한정 쌓는 것은 돈 낭비입니다.
반드시 '수명'을 정해야 합니다.

단기 (Hot Storage): 최근 7일 ~ 30일 정도는 가장 빠르고 접근성이 좋은 곳에 보관합니다.
(자주 조회할 부분) * 중기 (Warm Storage): 1개월 ~ 6개월 정도는 검색은 가능하지만, 접근 속도가 조금 느려도 되는 저렴한 스토리지에 옮깁니다.
(일반적인 이슈 추적용) * 장기 (Cold Storage): 1년 이상은 법적 의무 기록이나 심각한 감사 목적이 아니라면 아카이빙하거나 폐기합니다.
(S3 Glacier 같은 저가 옵션 고려) 팁 3: 구조화된 로깅 (Structured Logging) 이거 진짜 많이 간과하는 부분인데, 로그를 그냥 텍스트 덩어리로 남기지 마세요.
JSON 형식으로 남기는 게 끝판왕입니다.
나쁜 예 (Non-Structured): [2024-07-25 10:00:01] ERROR: 사용자 ID 1234가 결제에 실패했습니다. 원인: 카드사 응답 오류 코드 5000. 좋은 예 (Structured/JSON): json { "timestamp": "2024-07-25T10:00:01Z", "level": "ERROR", "service": "payment-api", "user_id": 1234, "error_code": "CARD_FAIL", "message": "결제에 실패했습니다.", "details": { "reason_code": 5000, "source": "card_gateway" } } JSON으로 구조화하면, 나중에 로그 분석 툴에서 user_id 필드를 기준으로 검색하거나, error_code 필드만 뽑아서 그래프를 그리는 등의 쿼리 성능 자체가 압도적으로 좋아집니다. 이게 체계화의 가장 큰 이득입니다.
--- ### 4.
자주 하는 실수 및 주의사항 * 실수 1: 너무 디테일한 요청 파라미터 기록: 사용자 입력 값(특히 비밀번호, API Key 등 민감 정보)은 절대로 로그에 남기지 마세요.
만약 남겨야 한다면, 반드시 마스킹(Masking) 처리(예: ****-****-1234)를 해야 합니다.
실수 2: 트랜잭션 ID 미사용: 이것만 안 써도 로그 분석 난이도가 수직 상승합니다.
요청 시작점부터 끝점까지 추적할 ID를 시스템 레벨에서 강제 삽입하는 로직을 짜는 게 좋습니다.
실수 3: 모니터링과 아카이빙 혼동: '모니터링을 위해 로그를 남긴다'와 '보관을 위해 로그를 남긴다'는 목적이 다릅니다.
모니터링 목적이라면 **메트릭(Metrics)**으로 변환하여 저장하고, 로그는 '이슈 발생 시점의 원인 분석'용으로만 남기는 것이 비용 효율적입니다.
(예: 요청 성공률 = 99.9% $\rightarrow$ 메트릭으로 저장, 상세 성공 로그는 폐기) 결론적으로, '필요할 때 뒤지는' 단계에서 '문제 발생 시 10분 안에 원인 파악' 수준으로 목표를 낮추고, 그 목표를 달성하는 데 필요한 최소한의 맥락 정보(Trace ID, Status Code, Error Stack)만 구조화해서 남기는 것을 목표로 하시면 훨씬 현실적으로 체계를 잡으실 수 있을 겁니다.
시간이 좀 걸리겠지만, 로그 체계 잡는 작업은 한 번 해두면 나중에 서비스가 커져도 가장 든든한 인프라가 되어줄 거예요.
파이팅하시고, 궁금한 점 있으면 또 질문 주세요!