프롬프트 릴리즈 품질 실험실 71차 — 자동 승인 정확도 90% 목표
이번 실험의 핵심 주제는 LLM-as-Judge 승인 플로우 도입입니다. 실무 운영 현장에서 직접 마주친 시나리오를 기반으로 설계했으며, 각 단계의 결과와 교훈을 솔직하게 기록합니다.
실험 배경 #
품질 게이트의 최종 승인은 여전히 사람이 합니다. 하루 평균 23건의 프롬프트 수정이 발생하는 환경에서 수동 승인은 병목이 됩니다. LLM을 판사로 활용하여 명확한 케이스를 자동으로 처리하는 방법을 실험합니다.
Judge 프롬프트 설계 #
|
|
실험 결과 #
300건 테스트 기준:
- APPROVE 정확도: 94.2% (사람과 일치)
- REJECT 정확도: 88.7% (일부 보수적 차단)
- HUMAN_REVIEW 비율: 18.3% (불확실 케이스 위임)
- 전체 자동화율: 81.7%
목표였던 90% 정확도를 APPROVE 케이스에서 달성했습니다.
실패 패턴 분석 #
Judge가 가장 자주 실수하는 케이스:
- 도메인 전문 용어가 많은 프롬프트 → 지식 부족으로 보수적 판정
- 이모지/특수문자 포함 프롬프트 → 형식 오류로 오판
- 다국어 혼합 프롬프트 → 언어 전환 지점에서 품질 저하
다음 실험으로 #
72차에서는 실패 패턴을 기반으로 Judge 프롬프트를 개선하고, 도메인별 특화 Judge를 분리하는 실험을 진행합니다.
마치며 #
이번 71차 실험에서 얻은 가장 큰 교훈은 자동 승인 정확도 90% 목표의 중요성입니다. 다음 실험에서는 이번 결과를 바탕으로 한 단계 더 발전된 접근법을 적용할 예정입니다. 실험 결과나 질문이 있으시면 댓글로 공유해 주세요.