에이전트 복구 런북 실험 75차 — 신규 버전 품질 저하 대응
이번 실험의 핵심 주제는 에이전트 배포 롤백 런북입니다. 실무 운영 현장에서 직접 마주친 시나리오를 기반으로 설계했으며, 각 단계의 결과와 교훈을 솔직하게 기록합니다.
장애 시나리오 개요 #
장애 유형: 에이전트 신규 버전 품질 저하 영향 범위: 프로덕션 에이전트 작업 품질 심각도: P2
에이전트 업데이트(프롬프트 수정, 모델 변경, 도구 추가) 후 품질 지표가 하락하는 경우입니다. 빠른 롤백 절차로 사용자 영향을 최소화합니다.
품질 하락 감지 기준 #
|
|
롤백 실행 절차 #
|
|
블루-그린 배포로 롤백 시간 단축 #
블루-그린 배포를 사용하면 이전 버전이 항상 대기 중이므로 트래픽 전환만으로 5초 이내 롤백이 가능합니다:
- 블루 (현재 활성): 신규 버전
- 그린 (대기): 이전 검증 버전
품질 하락 감지 즉시 트래픽을 그린으로 전환, 원인 분석 후 재배포
롤백 판단 기준 #
롤백이 필요한지 확신이 없을 때 활용하는 의사결정 트리:
- 에러율 > 10%? → 즉각 롤백
- 성공률 < 75%? → 즉각 롤백
- 성공률 75-85%, 트렌드 하락 중? → 30분 관찰
- 성공률 85%+, 비용만 증가? → 원인 분석 우선
마치며 #
이번 75차 실험에서 얻은 가장 큰 교훈은 신규 버전 품질 저하 대응의 중요성입니다. 다음 실험에서는 이번 결과를 바탕으로 한 단계 더 발전된 접근법을 적용할 예정입니다. 실험 결과나 질문이 있으시면 댓글로 공유해 주세요.