이 글은 AI 성능 지표 보고서 시리즈 전체를 빠르게 탐색하기 위한 인덱스입니다.
실무에서는 품질, 속도, 비용, 안정성을 분리해서 보다가 의사결정이 늦어지는 경우가 많습니다. 이 시리즈는 그 문제를 해결하기 위해 “하나의 운영 프레임"으로 연결되도록 구성했습니다.
시리즈 구성 #
| 편 | 주제 | 바로가기 |
|---|---|---|
| 1편 | 성능 지표 프레임 설계 | AI 성능 지표 보고서 시리즈 1편 |
| 2편 | 품질 지표 해석(MMLU 한계 포함) | AI 성능 지표 보고서 시리즈 2편 |
| 3편 | TTFT/TPS/P95 추론 성능 운영화 | AI 성능 지표 보고서 시리즈 3편 |
| 4편 | 비용·안정성·품질 통합 KPI | AI 성능 지표 보고서 시리즈 4편 |
어떤 순서로 읽으면 좋은가 #
빠르게 전체 감 잡기(30분) #
- 1편의 프레임 먼저 읽기
- 3편에서 운영 지표(TTFT/TPS/P95) 확인
- 4편에서 KPI 대시보드 구조 확인
실제 운영 체계 만들기(반나절) #
- 1편 기준으로 팀 지표 체계 정의
- 2편 기준으로 도메인 품질 평가셋 설계
- 3편 기준으로 지연시간 계측 파이프라인 구축
- 4편 기준으로 주간 운영 리포트 템플릿 고정
필자의 경험상 이 순서를 따르면 “모델 점수 중심 보고"에서 “운영 의사결정 중심 보고"로 전환하는 시간이 크게 줄어듭니다.
시리즈 핵심 메시지 4줄 요약 #
- 단일 벤치마크 점수로는 운영 성능을 설명할 수 없습니다.
- 품질 지표는 공개 벤치마크와 도메인 평가를 함께 써야 합니다.
- 사용자 체감은 평균이 아니라 P95/P99 지표에서 결정됩니다.
- 최종적으로는 품질, 속도, 비용, 안정성을 통합 KPI로 관리해야 합니다.
바로 적용할 운영 체크리스트 #
- 주간 리포트에 P95/P99가 포함되어 있는가
- 품질 리포트에 실패 유형 분류가 있는가
- 모델 변경 시 비용 영향이 같이 보고되는가
- 오류율/재시도율 알람 기준이 정의되어 있는가
- 액션 아이템이 지표 변화와 1:1로 연결되는가
이 체크리스트가 모두 충족되면, AI 성능 리뷰는 보고용 문서가 아니라 실제 운영 제어판으로 작동합니다.
마무리 #
이 인덱스 글은 시리즈를 업데이트할 때 계속 기준 문서로 사용할 예정입니다.
새로운 지표(예: 도메인 특화 안전 지표, 비용 예측 지표)가 추가되면 이 페이지를 먼저 갱신하고 각 편으로 연결하겠습니다.