AI 에이전트 프로젝트가 중간에 흔들리는 이유는 모델 성능보다 평가 프레임 부재인 경우가 많습니다. “잘 된다"와 “운영 가능하다” 사이에는 큰 간격이 있습니다. 그 간격을 메우는 도구가 평가 템플릿입니다.
평가 템플릿 기본 구조 #
- 작업 성공률(정답/실패/부분 성공)
- 평균 및 P95 응답시간
- 요청당 비용
- 오류 유형 분류(툴 호출 실패, 포맷 실패, 환각)
- 재시도 시 성공률
주간 리포트 예시 #
| 항목 | 이번 주 | 기준선 | 판정 |
|---|---|---|---|
| 작업 성공률 | 84.1% | >= 82% | Pass |
| P95 응답시간 | 1.9s | <= 2.2s | Pass |
| 요청당 비용 | $0.023 | <= $0.025 | Pass |
| 환각률 | 3.4% | <= 3.0% | Fail |
실패 항목이 있으면 바로 개선 액션을 붙입니다. 보고서는 숫자 나열이 아니라 실행 계획이어야 합니다.
운영 단계 체크리스트 #
- 실패 케이스 샘플 20건을 매주 수동 검토하는가
- 툴 실패와 모델 실패를 분리해 기록하는가
- 프롬프트/모델/툴 버전이 로그에 남는가
- 회귀 테스트 세트가 고정되어 있는가
결론 #
에이전트 품질은 데모 성공률이 아니라 주간 운영 데이터로 결정됩니다.
평가 템플릿을 고정하면 개선 사이클이 빨라지고, 팀 커뮤니케이션 비용이 줄어듭니다.
자동화의 핵심은 모델 선택보다 운영 기준의 일관성입니다.