본문으로 건너뛰기

에이전트 복구 런북 실험 75차

·284 단어수·2 분
작성자
Engineer

에이전트 복구 런북 실험 75차

에이전트 복구 런북 실험 75차 — 신규 버전 품질 저하 대응

이번 실험의 핵심 주제는 에이전트 배포 롤백 런북입니다. 실무 운영 현장에서 직접 마주친 시나리오를 기반으로 설계했으며, 각 단계의 결과와 교훈을 솔직하게 기록합니다.

장애 시나리오 개요
#

장애 유형: 에이전트 신규 버전 품질 저하 영향 범위: 프로덕션 에이전트 작업 품질 심각도: P2

에이전트 업데이트(프롬프트 수정, 모델 변경, 도구 추가) 후 품질 지표가 하락하는 경우입니다. 빠른 롤백 절차로 사용자 영향을 최소화합니다.

품질 하락 감지 기준
#

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
rollback_triggers:
  # 즉각 롤백
  critical:
    - task_success_rate: '< 0.75'
    - error_rate: '> 0.10'
    - avg_turns_to_complete: '> 8'
  
  # 30분 관찰 후 롤백
  warning:
    - task_success_rate: '< 0.85'
    - user_satisfaction: '< 0.70'
    - cost_per_task: '> previous * 1.3'

롤백 실행 절차
#

1
2
3
4
5
6
7
8
9
# 에이전트 버전 확인
agent-cli version list --env prod

# 이전 버전으로 롤백
agent-cli rollback --version v2.3.1 --env prod

# 롤백 후 상태 확인
agent-cli status --env prod
agent-cli run-smoke-test --env prod

블루-그린 배포로 롤백 시간 단축
#

블루-그린 배포를 사용하면 이전 버전이 항상 대기 중이므로 트래픽 전환만으로 5초 이내 롤백이 가능합니다:

  • 블루 (현재 활성): 신규 버전
  • 그린 (대기): 이전 검증 버전

품질 하락 감지 즉시 트래픽을 그린으로 전환, 원인 분석 후 재배포

롤백 판단 기준
#

롤백이 필요한지 확신이 없을 때 활용하는 의사결정 트리:

  1. 에러율 > 10%? → 즉각 롤백
  2. 성공률 < 75%? → 즉각 롤백
  3. 성공률 75-85%, 트렌드 하락 중? → 30분 관찰
  4. 성공률 85%+, 비용만 증가? → 원인 분석 우선

마치며
#

이번 75차 실험에서 얻은 가장 큰 교훈은 신규 버전 품질 저하 대응의 중요성입니다. 다음 실험에서는 이번 결과를 바탕으로 한 단계 더 발전된 접근법을 적용할 예정입니다. 실험 결과나 질문이 있으시면 댓글로 공유해 주세요.