RAG 평가란 무엇인가: 검색 품질과 답변 품질을 함께 보는 실무 가이드

RAG Evaluation 2026 - 이 글은 시리즈의 일부입니다.

부분 : 이 글

RAG 평가는 단순히 정답 문자열이 맞는지 보는 일이 아닙니다. 검색이 제대로 됐는지, 근거가 충분한지, 최종 답변이 그 근거를 잘 반영했는지를 함께 봐야 합니다.

이 글은 RAG 운영 관점에서 평가를 어떻게 나누고, 어떤 도구를 어디에 붙이며, 실험 결과를 어떻게 해석할지 정리합니다.

개요
#

RAG 평가는 보통 세 단계로 나눠서 봅니다.

이 셋이 분리되지 않으면 문제가 생겼을 때 원인을 찾기 어렵습니다.

RAG는 모델만 바꾼다고 품질이 일정하게 오르지 않습니다. 실제 품질은 문서 품질, chunking, embedding, retrieval, reranking, prompt, generation이 함께 결정합니다.

평가가 없으면 다음 문제가 반복됩니다.

RAG 평가는 최소한 아래 항목을 분리해서 봐야 합니다.

항목	예시 지표
Retrieval	Recall@K, Precision@K, MRR
Reranking	nDCG, top-k hit rate
Generation	groundedness, correctness, citation coverage
System	latency, cost, failure rate

Ragas는 retrieval과 generation을 함께 보는 데 유용하고, OpenAI Evals나 Agent Evals는 프롬프트와 에이전트 워크플로우 회귀 테스트에 좋습니다.

RAG 운영 자체를 다루는 글은 RAG Ops 실무 가이드를 같이 보면 좋습니다.

RAG 평가는 모델 점수 하나로 끝나지 않습니다. 검색, 재정렬, 생성, 운영 지표를 분리해서 봐야 원인을 찾을 수 있고, 개선 속도도 빨라집니다.

먼저 작은 평가셋을 만들고, 그 위에 회귀 테스트를 얹는 방식이 가장 현실적입니다.

RAG Evaluation 2026 - 이 글은 시리즈의 일부입니다.

부분 : 이 글