프롬프트 릴리즈 품질 실험실 72차 — 전문 도메인 정확도 향상
이번 실험의 핵심 주제는 도메인별 Judge 분리 실험입니다. 실무 운영 현장에서 직접 마주친 시나리오를 기반으로 설계했으며, 각 단계의 결과와 교훈을 솔직하게 기록합니다.
실험 배경 #
71차에서 도메인 전문 용어가 포함된 프롬프트에서 Judge 정확도가 낮았습니다. 단일 Judge 대신 도메인별로 특화된 Judge를 분리하면 정확도를 높일 수 있다는 가설을 검증합니다.
도메인 분류 구조 #
|
|
도메인별 정확도 비교 #
| 도메인 | 단일 Judge | 도메인 Judge | 개선폭 |
|---|---|---|---|
| 의료 | 71.3% | 91.8% | +20.5% |
| 법률 | 74.1% | 93.2% | +19.1% |
| 코드 | 83.4% | 92.7% | +9.3% |
| 일반 | 91.2% | 92.1% | +0.9% |
전문 도메인에서 개선폭이 두드러졌습니다.
비용 분석 #
도메인 Judge 분리로 토큰 비용이 평균 12% 증가했지만, 수동 검토 케이스가 18.3%에서 8.9%로 절반 감소하여 전체 운영 비용은 7% 절감되었습니다.
다음 실험으로 #
73차에서는 프롬프트 릴리즈 롤백 자동화를 실험합니다. 품질 하락 감지 후 이전 버전으로 자동 복원하는 파이프라인을 구축합니다.
마치며 #
이번 72차 실험에서 얻은 가장 큰 교훈은 전문 도메인 정확도 향상의 중요성입니다. 다음 실험에서는 이번 결과를 바탕으로 한 단계 더 발전된 접근법을 적용할 예정입니다. 실험 결과나 질문이 있으시면 댓글로 공유해 주세요.