로그 데이터 축적, 어디까지가 '필요'일까요

slowember

새로 만들고 있는 서비스가 사용자 활동을 기록하는 과정에서, 정말 모든 액션을 로그로 남기는 게 최선인지 생각하게 됐습니다.
어떤 것도 놓치기 싫어서 기록을 세밀하게 남기다 보니, 쌓이는 데이터 양 자체가 감당하기 어려운 수준에 이르렀어요.
저장 비용이나 관리 측면에서 부담이 커지니, 어느 지점에서 '필요한 정보'와 '단순한 기록'을 분리해야 할지 고민이 깊어지네요.

단순히 비용 절감 차원을 넘어서, 이 로그들을 보존하는 것이 과연 우리의 서비스 철학에 부합하는지에 대한 근본적인 질문이 생겼습니다.
사용자의 어떤 '행위의 맥락'을 파악하는 것이 정말 중요한지, 그 경계를 어떻게 설정하면 좋을까요?
어떤 데이터를 '가치'로 보고, 어떤 데이터를 '노이즈'로 처리할지, 효율적인 필터링 기준이나 구조적인 접근법이 있을지 궁금합니다.

mellowstack

진짜 많은 개발팀에서 한 번쯤 겪는, 굉장히 중요한 고민거리예요.
저도 예전에 비슷한 상황을 겪으면서, 로그 데이터 관리가 단순히 '저장 공간 문제'를 넘어 '비즈니스 인사이트의 근원'에 대한 고민이라는 걸 깨달았어요.
결론부터 말씀드리자면, '절대 모든 걸 남기지 말라'는 정답은 없지만, '모든 걸 남길 필요도 없다'는 게 핵심이에요.
지금 겪고 계신 고민은 전형적인 '과도한 로깅(Over-logging)' 함정에 빠지셨을 때 나오는 지극히 정상적이고 건강한 질문이라고 생각합니다.
제가 경험했던 것들과 아키텍처적으로 접근할 수 있는 몇 가지 기준들을 나눠서 말씀드릴게요.
--- ### 1.
로그 데이터의 '가치'를 정의하는 관점부터 접근하기 가장 먼저 해야 할 작업은 '이 로그를 왜 남기는가?'에 대한 명확한 정의예요.
단순히 "나중에 보면 좋을 것 같아서" 남기는 건 90% 이상이 노이즈가 될 확률이 높아요.
질문해 볼 핵심 질문 3가지: 1.
목적 중심 (Why): 이 로그를 분석해서 궁극적으로 어떤 '결정'을 내리고 싶나요?
(예: 사용자 이탈 원인 파악, 특정 기능의 병목 지점 찾기, A/B 테스트 결과 검증 등) * 팁: 만약 이 로그가 없다면, 어떤 질문에 답할 수 없을지 구체적인 시나리오를 그려보세요.
그 시나리오를 해결하는 데 필요한 정보만 남기세요.
2.
️‍️ 감사/규제 중심 (Must-Have): 법적으로나 비즈니스적으로 '반드시 기록해야 하는 것'이 있나요?
(예: 결제 과정의 모든 단계, 개인정보 변경 기록 등) * 팁: 이 경우는 '필수 기록' 영역으로 분리해서 관리해야 하고, 다른 분석용 로그와는 별개로 취급해야 합니다.
3.
개선 중심 (Improvement): 이 로그가 서비스 개선에 '직접적인 영향'을 줄 수 있나요?
(예: 사용자가 특정 버튼을 눌렀는데 아무 반응이 없는 경우, API 호출 성공/실패 여부 등) 만약 위 세 가지 범주 중 어디에도 속하지 않는 로그라면, 일단은 '수준 낮은 로깅'으로 간주하고 필터링을 고려하는 게 좋습니다.
--- ### 2.
'맥락(Context)' 파악에 초점을 맞추는 실질적 필터링 기법 사용자의 '행위의 맥락'을 파악하는 것이 중요하다고 하셨잖아요?
맥락은 '무슨 일이 일어났는지'보다 '왜, 어떤 상황에서' 일어났는지를 아는 거예요.
이걸 로그 구조로 녹여내는 몇 가지 방법이 있어요.
A.
이벤트 기반 로깅 (Event-Driven Logging)으로 전환: * 나쁜 예 (상태 기반): 사용자가 로그인해서, 프로필을 보고, 글을 쓰고, 로그아웃했다.
(단순한 순서 나열) * 좋은 예 (이벤트 기반): * event_name: '프로필_수정_시도' * timestamp: 2024-05-20T10:30:00Z * user_id: 123 * context: { source_page: '/profile/edit', field_changed: '닉네임', old_value: 'old_nick', new_value: 'new_nick' } * result: 'SUCCESS' 또는 'FAILURE' 이렇게 구조화하면, 단순히 '닉네임 변경'이라는 액션만 남기는 게 아니라, 어떤 페이지에서, 어떤 값으로, 어떤 결과가 나왔는지라는 맥락적 깊이가 생깁니다.
B.
로그 레벨(Logging Level)을 적극 활용: 모든 것을 INFO 레벨로 남기지 마세요.
로깅 시스템에는 보통 DEBUG, INFO, WARN, ERROR, FATAL 같은 레벨이 있습니다.

DEBUG 레벨: 개발/테스트 단계에서만 필요해요.
"API 요청 파라미터 값들"처럼 매우 세부적인 내용이 여기에 속합니다.
운영 환경에서는 기본적으로 비활성화하는 것을 강력히 권장합니다.
INFO 레벨: 주요 비즈니스 액션이 성공적으로 완료되었을 때 기록합니다.
(예: 회원가입 성공, 결제 완료 등) * WARN 레벨: 뭔가 이상하지만 치명적이지 않은 경고 상황.
(예: 특정 API 호출 시 권장하지 않는 방식으로 호출됨) * ERROR 레벨: 실패한 경우.
(가장 중요) 실무 팁: 개발팀과 논의해서, 운영 환경에서는 최소한 INFO와 ERROR 레벨만 활성화하고, DEBUG는 필요할 때만 수동으로 올리는 '컨트롤 타워'를 만드는 게 좋습니다.
--- ### 3.
데이터 구조적 접근: '저장'과 '분석'의 분리 (가장 중요) 데이터가 쌓이는 양 자체를 줄이려면, '무조건 저장'하는 것과 '분석할 정보만 추출'하는 것을 분리해야 합니다.
이걸 아키텍처적으로 접근하면, 크게 세 가지 스트림으로 분리하는 것을 추천합니다.
① 트랜잭션 DB (Transactional DB - PostgreSQL, MySQL 등): * 목적: '최종 상태'와 '핵심 비즈니스 결과'를 저장합니다.
저장 내용: 사용자가 최종적으로 변경한 값, 결제 기록, 사용자 프로필 등 **'신뢰해야 하는 사실(Source of Truth)'**만 저장합니다.
로그 기록 여부: 최소화해야 합니다.
(예: 결제 성공 시, 트랜잭션 레코드에 '결제 성공' 기록만 남기고, 결제 요청 과정의 10단계 디버그 로그는 남기지 않음) ② 로그 데이터베이스 (Logging Store - Elasticsearch, Loki 등): * 목적: '시간 흐름에 따른 상세한 동작 흐름'을 분석합니다.
저장 내용: API 호출 성공/실패, 에러 스택 트레이스, 사용자 인터랙션 시퀀스 등 **'진행 과정'**을 기록합니다.
처리 방법: 필터링 필수. 앞서 언급한 레벨 분리, 그리고 **'핵심 필드만 추출'**하는 과정이 반드시 필요합니다.
모든 파라미터를 다 넣지 마세요.
(예: 비밀번호나 민감한 토큰 값 등은 무조건 마스킹 처리하거나 아예 로깅하지 않아야 합니다.) ③ 분석용 데이터 웨어하우스 (Analytics DW - BigQuery, Snowflake 등): * 목적: 장기적인 추세 분석, 대규모 통계 분석.
저장 내용: 로그 데이터나 트랜잭션 DB에서 **'가공하여 추출한 지표(Metrics)'**만 저장합니다.
처리 방법: 로그가 쌓일 때마다 '이 로그에서 필요한 지표 A, B, C만 계산해서' 주기적으로 이 DW에 적재(Batch/Stream ETL)하는 방식을 사용합니다.
효과: 로그 DB에 엄청난 양의 원본 데이터를 계속 보관할 필요가 없어지고, 분석 속도도 빨라집니다.
--- ### 4.
흔한 실수와 주의점 (Do's & Don'ts) 절대 하지 말아야 할 것 (DON'T): 1.
민감 정보 무제한 로깅: 사용자 비밀번호, 주민번호, 결제 카드 전체 번호 등은 절대 로그에 남기지 마세요.
(보안 사고 시 치명적입니다.) 2.
'나중에 필요할지도 몰라서' 로깅: 이 문장으로 시작하는 모든 로깅은 일단 주석 처리하고, 정말 필요한 이유가 생겼을 때 다시 논의하세요.

스키마리스(Schema-less)의 함정: 필드에 일관성이 없으면(어떤 로그는 user_id인데 어떤 건 uid인 경우), 나중에 쿼리할 때마다 코드를 수정해야 해서 관리가 불가능해집니다.
스키마를 최대한 일관성 있게 유지하세요.
이렇게 해보세요 (DO'S): 1.
샘플링 (Sampling): 아주 세밀한 로그(예: API 요청 파라미터 전체)는 무조건 100% 남기지 말고, 1% 또는 10%만 무작위로 샘플링해서 남기세요.
충분한 통계적 유의미성을 확보하는 선에서 비용을 대폭 절감할 수 있습니다.
2.
데이터 보존 정책 명확화: "이 로그는 90일 동안만 보관하고, 그 이후에는 자동 파기한다"는 정책을 시스템 레벨로 구현해야 합니다.
3.
로그 검토 회의 정례화: 한 달에 한 번, "지난달 로그를 분석해서 발견한 가장 큰 문제 3가지"를 팀원들과 공유하는 시간을 가지세요.
이 과정에서 '쓸데없는 로그'가 자연스럽게 필터링됩니다.
요약하자면, 로그 데이터 관리는 '저장소' 관리가 아니라 '정보의 흐름'을 설계하는 작업이라고 생각하시면 됩니다.
핵심은 'What happened (무슨 일이 일어났는가)' 보다 'Why it happened (왜 그런 일이 일어났는가)' 와 'What should we do next (다음 액션은 무엇인가)' 에 초점을 맞추는 겁니다.
이 설명이 고민하시는 경계 설정에 조금이나마 도움이 되었으면 좋겠네요.
다음에 또 궁금한 거 있으면 편하게 물어보세요!