서버 로그 레벨, 어느 정도가 적절할까요?

shieldnoon

애플리케이션 서버를 운영하다 보니 로깅 레벨 설정이 골치 아픕니다.
너무 상세하게 다 남기면 로그 크기만 감당 안 되고, 정작 문제가 생겼을 때 필요한 핵심 정보가 너무 많은 노이즈에 묻히는 느낌이라서요.
보안 관점에서 볼 때, 에러 발생 시 어느 수준까지 로그를 남기는 게 가장 '효율적'일지 궁금합니다.
단순히 에러 발생 시점만 기록하는 건 부족하고, 어떤 파라미터와 흐름을 어느 깊이까지 기록해야 나중에 감사 추적이나 원인 분석에 쓸만한 최소한의 정보가 남을지 조언 부탁드립니다.
특히 권한이나 민감 정보 유출 위험을 고려했을 때, 로그 정책을 어떻게 가져가는 게 좋을까요?

velvetchip

로그 레벨 설정 때문에 고민이 많으시군요.
정말 많은 운영자들이 공감하는 지점이라서, 어느 정도의 '골디락스 지점'을 찾는 게 정말 어려운 문제예요.
이거 정말 아키텍처 레벨에서 다뤄야 할 주제라, 딱 '이 레벨이 정답이다'라고 말씀드리기는 어렵습니다.
어떤 시스템을 운영하느냐, 서비스의 중요도(Criticality), 그리고 예상되는 장애 유형에 따라 최적의 조합이 달라지거든요.
그래도 제가 실무에서 경험했던 것들과 일반적인 가이드를 바탕으로, 몇 가지 기준과 접근법을 나눠서 말씀드릴게요.
참고해서 팀 내에서 논의해 보시면 좋을 것 같습니다.
--- ### 1.
로깅 레벨의 기본 이해와 목적 재정립 일단 로그 레벨 자체에 대한 이해를 다시 점검하는 게 필요해요.
대부분의 개발자들이 '디버깅이 필요할 때 다 남기자'는 생각부터 시작해서, 모든 요청에 대해 DEBUG 레벨로 두는 실수를 하거든요.
하지만 로그를 남기는 목적을 명확히 해야 합니다.
로깅의 주된 목적은 세 가지로 나뉩니다. 1.
운영 모니터링 (Monitoring): "지금 시스템이 정상적으로 작동하고 있는가?" (주로 INFO 레벨) 2.
문제 발생 원인 분석 (Debugging/Troubleshooting): "왜 이 기능이 실패했는가?" (주로 WARN, ERROR 레벨 및 필요시 DEBUG) 3.
감사 추적 및 보안 감사 (Auditing/Compliance): "누가, 언제, 무엇을 했는가?" (특정 비즈니스 로직에 대한 기록, INFO 또는 전용 감사 로그) 이 세 가지 목적에 따라 레벨을 다르게 가져가는 게 핵심이에요.
하나의 로그 레벨로 모든 걸 해결하려 하면 무조건 누수(정보 유출)나 과부하가 생깁니다.
--- ### 2.
레벨별 실질적인 운영 가이드라인 (Best Practice) 일반적으로 많이 사용되는 레벨들을 기준으로, 어떤 상황에 무엇을 기록해야 하는지 정리해 볼게요.

A.

TRACE / DEBUG (가장 상세) * 언제 사용: 개발 환경 또는 특정 이슈 재현 시에만 사용해야 합니다. 운영 환경에서 기본 레벨로 설정하는 건 절대 금물입니다.

기록 내용: 함수 호출 스택 전체, 변수 값의 흐름, HTTP 요청/응답의 모든 헤더 값 등.
주의점: 로그 양이 폭발적입니다.
디스크 I/O 병목을 일으키거나, 로그 수집 시스템(ELK, Splunk 등)의 비용만 증가시킵니다.
실무 팁: 특정 API 호출이나 비즈니스 흐름의 '경계' 지점에서만 임시로 DEBUG를 켜고, 문제가 해결되면 즉시 끕니다.
로그 레벨을 코드에 하드코딩하지 말고, 환경 변수나 설정 파일로 제어하는 게 필수입니다.

B.

INFO (정상 흐름 기록) * 언제 사용: 시스템의 **'주요 비즈니스 이벤트'**가 발생했을 때 기록합니다.

기록 내용: "사용자 A가 로그인에 성공했습니다.", "주문 번호 12345가 생성되어 결제 단계로 넘어갔습니다.", "배치 작업 X가 정상적으로 완료되었습니다." 등.
운영 시 역할: 시스템이 정상적으로 동작하고 있음을 운영자에게 알려주는 '건강 상태 보고서' 같은 역할입니다.
️ 흔한 실수: 모든 요청마다 INFO를 남기는 경우.
(예: 모든 API 요청마다 "요청 수신됨"만 남기는 것).
이렇게 하면 트래픽이 늘어날 때 로그 볼륨이 감당 불가능해집니다.
핵심 이벤트 발생 시에만 INFO를 남기세요. #### C.
WARN (경고/예외 처리 필요) * 언제 사용: **'문제는 아니지만, 주의해야 할 상황'**을 기록할 때 사용합니다.
기록 내용: "캐시 데이터가 만료되어 백엔드 DB를 조회했습니다.
(정상 동작이나 부하가 증가할 수 있음)", "사용자가 오래된 토큰을 사용했습니다.
재인증을 요청합니다." * 운영 시 역할: 운영자가 주기적으로 모니터링하며 '곧 문제가 될 것 같은' 지점을 알려줍니다.
이 레벨의 로그를 가장 많이 분석하는 경우가 많습니다.

D.

ERROR / FATAL (심각한 장애) * 언제 사용: 시스템이 기대한 대로 동작하지 않았을 때 (예: DB 연결 실패, 필수 파라미터 누락으로 비즈니스 로직 수행 불가 등).

기록 내용: 스택 트레이스 전체(필수), 어떤 파라미터를 가지고 어떤 로직에서 실패했는지.
운영 시 역할: 장애 발생 시 1차 분석의 기준점이 됩니다.
이 레벨의 로그가 가장 중요도가 높습니다.
--- ### 3.
보안 및 감사(Auditing) 관점에서의 접근 (가장 중요) 질문자님께서 보안과 감사 추적을 언급하셨는데, 이 부분이 가장 섬세한 밸런싱이 필요합니다.

A.

민감 정보 처리 (PII/PCI) 원칙: 로그에 절대로 평문 상태의 민감 정보(비밀번호, 주민등록번호, 신용카드 전체 번호 등)를 남기면 안 됩니다.
이건 보안 정책 위반을 넘어 법적 문제로 이어질 수 있습니다.
대안: 1.
암호화 또는 마스킹: 카드 번호의 경우 마지막 4자리만 남기고 나머지는 XXXX로 대체하는 것이 업계 표준입니다.
2.
아예 기록하지 않기: 만약 그 정보가 장애 원인 분석에 필수적이지 않다면, 아예 로깅 대상에서 제외해야 합니다.

B.

감사 로그 (Audit Log)의 분리 보안 감사 추적은 일반적인 트랜잭션 로그(INFO)와는 분리해서 관리하는 것이 가장 좋습니다.
1.
주요 트랜잭션 로그 (Application Log): 시스템의 상태 변화(성공/실패)에 집중합니다.
(레벨: INFO/ERROR) 2.
감사 로그 (Audit Log): '권한 변경', '개인 정보 열람', '관리자 기능 실행' 등 **'무엇을 했는지'**에 대한 행위 기록만 전용 테이블이나 로그 스트림에 별도로 기록합니다.
감사 로그에 반드시 포함되어야 할 최소 정보: * Actor ID: (누가) - 사용자 ID 또는 시스템 계정 ID * Action Type: (무엇을) - 'ViewProfile', 'ChangePassword', 'DeleteRecord' 등 구체적인 행위명 * Target Entity ID: (어떤 대상을) - 해당 행위가 발생한 레코드의 ID * Timestamp: (언제) 이 구조를 사용하면, 일반 로그는 노이즈를 줄이고, 감사 로그는 법규 준수나 보안 조사에 필요한 모든 것을 보존하면서도, 운영 로그의 크기 증가 문제를 해결할 수 있습니다.
--- ### 4.
실전 운영을 위한 추천 정책 (요약 및 단계별 접근) 만약 지금 당장 정책을 세워야 한다면, 아래의 3단계 필터링 전략을 추천드립니다.
Step 1: 기본값 설정 (Production Default) * 로깅 레벨: WARN 또는 ERROR로 설정합니다.

기록 내용: 오직 **심각한 장애(ERROR)**와 **운영자가 인지해야 할 예외 상황(WARN)**만 기록합니다.
목표: 로그 볼륨을 최소화하고, 시스템 장애 시점의 핵심 정보만 확보합니다.
Step 2: 중요 비즈니스 로직에 대한 계층적 로깅 추가 * 로그가 폭주하지 않는 선에서, 핵심 비즈니스 플로우의 시작점과 끝점에만 INFO 레벨의 로그를 추가합니다.
(예: 결제 요청 진입 시점, 주문 확정 시점) * 이때, 로그 구조화(JSON 포맷 권장)를 통해 correlation_id (요청을 추적할 고유 ID)를 반드시 포함시켜야 합니다.
Step 3: 분석/디버깅 모드 (Ad-hoc) * 실제 장애가 발생했거나, 특정 기능에 대해 깊은 분석이 필요할 때만, 운영 환경의 설정값을 임시적으로 DEBUG 레벨로 상향 조정합니다.
분석 완료 후에는 반드시 설정값을 원래 레벨로 되돌리는 프로세스를 거쳐야 합니다.
--- ### 요약 및 최종 조언 1.
로그 레벨은 '필요 최소한'으로 유지하세요. (Prod 기본값: WARN/ERROR) 2.
감사 기록은 별도의 '감사 로그'로 분리하여 관리하세요. (보안/규정 준수 목적) 3.
모든 로그는 JSON 포맷으로 구조화하고, correlation_id를 붙여서 요청 전체 흐름을 추적할 수 있도록 만드세요. (가장 실무적이고 효율적인 방법) 4.
민감 정보는 마스킹하거나 아예 기록하지 마세요. (법적/보안 리스크 회피) 이 정도 깊이로 고민하셨다면 이미 절반은 성공하신 겁니다.
로그는 결국 '정보의 무게'를 다루는 일이라, 무조건 많이 남기는 것보다 '어떤 정보를', '누구에게', '언제' 보여줄지 기준을 세우는 것이 가장 어렵고 중요한 작업입니다.
팀원들과 함께 위 기준들을 바탕으로 '우리 서비스에서 가장 치명적인 장애는 무엇인가?'를 정의하고, 그 장애를 재현/분석하는 데 필요한 최소한의 정보만 남기는 방향으로 가이드라인을 만들어 보시길 바랍니다.
궁금증이 좀 풀리셨으면 좋겠네요.
화이팅입니다!