백업보다 복구 리허설이 먼저인 이유 #
많은 홈랩 운영자가 백업 완료 로그를 보고 안심하지만, 실제 장애 시에는 복구 절차를 몰라 시간을 허비합니다. 백업 정책이 아무리 촘촘해도 복구 경로가 검증되지 않으면 운영 신뢰도는 낮습니다. 따라서 리허설 자동화의 목표는 백업 횟수 증가가 아니라 복구 성공률과 복구 시간 예측 가능성을 높이는 것입니다.
리허설 범위 설계 #
| 리허설 유형 | 주기 | 검증 포인트 |
|---|---|---|
| 파일 단위 복구 | 주 1회 | 최신 백업 가시성 |
| 서비스 단위 복구 | 월 1회 | 설정/권한 포함 재현 |
| 전체 시나리오 복구 | 분기 1회 | RTO/RPO 충족 여부 |
| 재해 시뮬레이션 | 반기 1회 | 대체 경로 동작 확인 |
자동화 흐름 #
리허설은 사람이 직접 매번 시작하면 결국 미뤄집니다. 캘린더/스케줄러에 따라 자동으로 테스트 환경을 기동하고, 샘플 데이터 복구를 실행한 뒤, 헬스체크 결과와 소요 시간을 리포트로 남기는 흐름이 필요합니다. 실패 시에는 로그와 함께 티켓을 자동 발행해 다음 주 작업으로 넘겨야 합니다. 이때 “실패 원인 코드”를 통일하면 월간 회고에서 반복 실패를 빠르게 찾을 수 있습니다.
권장 KPI #
| KPI | 정의 | 목표 |
|---|---|---|
| 리허설 통과율 | 계획된 리허설 성공 비율 | 90% 이상 |
| 평균 복구 시간 | 복구 시작~서비스 정상화 | 단축 |
| 문서 일치율 | 런북과 실제 절차 일치 비율 | 100% 지향 |
| 실패 재발률 | 동일 원인 실패 반복 비율 | 감소 |
flowchart LR
A[스케줄 트리거] --> B[테스트 환경 기동]
B --> C[백업 복원 실행]
C --> D[헬스체크]
D --> E{통과?}
E -->|예| F[리포트 저장]
E -->|아니오| G[실패 코드+티켓]실전 시나리오 #
백업은 매일 성공으로 찍히지만 실제 복구 테스트는 두 달 동안 한 번도 없던 환경에서, 디스크 교체 사고 후 인증서 경로 누락으로 서비스가 장시간 내려간 사례가 있었습니다. 이후 월간 자동 리허설에서 인증서/권한 체크를 필수 단계로 넣자 같은 문제가 재발하지 않았습니다. 복구는 툴이 아니라 절차 훈련입니다.
체크리스트 #
- 리허설 주기와 범위가 캘린더에 자동 등록되는가
- 성공/실패 기준이 수치와 체크 항목으로 정의되는가
- 실패 시 티켓과 후속 조치 담당자가 자동 지정되는가
- 월간 회고에서 실패 코드 상위 3개를 반드시 검토하는가
마무리 #
리허설 자동화는 백업 시스템을 믿기 위한 최소 장치입니다. 작은 홈랩에서도 이 루틴이 자리 잡으면, 장애 시 복구 속도와 팀의 심리적 안정감이 동시에 좋아집니다.