프롬프트 릴리즈 품질 실험실 69차

프롬프트 릴리즈 품질 실험실 69차 — 모델별 기준 분리

이번 실험의 핵심 주제는 다중 모델 환경 품질 게이트 일관성입니다. 실무 운영 현장에서 직접 마주친 시나리오를 기반으로 설계했으며, 각 단계의 결과와 교훈을 솔직하게 기록합니다.

실험 배경
#

프로덕션 환경에서는 단일 모델이 아닌 여러 LLM을 라우팅하는 경우가 많습니다. 동일한 프롬프트가 모델에 따라 품질 편차가 크게 발생하며, 단일 품질 게이트 기준으로는 과도한 차단이나 과도한 통과가 발생합니다.

목표: 모델별 맞춤 품질 기준선 수립 대상 모델: GPT-4o, Claude Sonnet, Gemini Pro

모델별 베이스라인 측정
#

모델	평균 점수	표준편차	P10	P90
GPT-4o	0.81	0.09	0.68	0.93
Claude Sonnet	0.79	0.07	0.70	0.91
Gemini Pro	0.76	0.12	0.59	0.91

모델마다 점수 분포가 다르기 때문에 절대 기준치를 적용하면 Gemini Pro만 과도하게 차단됩니다.

모델별 상대 기준 적용
#

 1
 2
 3
 4
 5
 6
 7
 8
 9
10


MODEL_BASELINES = {
    'gpt-4o':    {'mean': 0.81, 'std': 0.09},
    'claude':    {'mean': 0.79, 'std': 0.07},
    'gemini':    {'mean': 0.76, 'std': 0.12},
}

def is_quality_pass(model, score, threshold_z=-1.0):
    bl = MODEL_BASELINES[model]
    z_score = (score - bl['mean']) / bl['std']
    return z_score >= threshold_z  # 평균 1표준편차 이하 차단

상대 기준 적용 후 거짓 양성률이 22%에서 7%로 감소했습니다.

실험 결론
#

모델별 개별 기준선을 유지하는 것이 필수적입니다. 특히 스코어 분산이 큰 모델(Gemini Pro)에서는 z-score 기반 판정이 절대 점수 기준보다 훨씬 안정적이었습니다.

다음 실험으로
#

70차에서는 긴 프롬프트 체인(Chain-of-Thought)에서의 품질 평가 방법을 탐구합니다.

마치며
#

이번 69차 실험에서 얻은 가장 큰 교훈은 모델별 기준 분리의 중요성입니다. 다음 실험에서는 이번 결과를 바탕으로 한 단계 더 발전된 접근법을 적용할 예정입니다. 실험 결과나 질문이 있으시면 댓글로 공유해 주세요.

실험 배경 #

모델별 베이스라인 측정 #

모델별 상대 기준 적용 #

실험 결론 #

다음 실험으로 #

마치며 #