본문으로 건너뛰기

Retrieval Quality Metrics란 무엇인가: Precision, Recall, MRR로 RAG를 측정하는 방법

·292 단어수·2 분
작성자
Engineer
RAG Evaluation 2026 - 이 글은 시리즈의 일부입니다.
부분 : 이 글

검색 품질은 “그럴듯해 보이는 결과"가 아니라, 실제로 필요한 문서를 얼마나 빨리, 얼마나 정확하게 찾는지로 판단해야 합니다.

이 글은 RAG와 검색 시스템에서 가장 자주 쓰는 retrieval metrics를 정리하고, 어떤 지표를 어디에 써야 하는지 설명합니다.

Retrieval quality metrics workflow

개요
#

Retrieval quality metrics는 검색 시스템이 관련 문서를 얼마나 잘 찾아오는지 측정하는 지표입니다.

실무에서는 보통 아래 네 가지를 많이 봅니다.

  • Precision@K
  • Recall@K
  • MRR
  • nDCG

왜 중요한가
#

RAG 품질은 생성 모델보다 검색 단계에서 먼저 무너지는 경우가 많습니다.

  • 관련 문서가 검색되지 않으면 답변이 틀립니다.
  • 관련 문서는 찾았지만 순서가 나쁘면 상위 결과만 읽는 시스템에서 손해를 봅니다.
  • 검색 품질이 낮으면 reranking과 generation도 같이 흔들립니다.

평가 지표와 방법
#

지표 의미 실무에서 볼 때
Precision@K 상위 K개 중 관련 문서 비율 너무 많은 오탐을 잡는지 확인
Recall@K 관련 문서를 상위 K개 안에서 얼마나 찾는지 RAG에서 가장 중요하게 보는 축
MRR 첫 관련 문서가 얼마나 앞에 오는지 순위 품질 확인
nDCG 순위와 관련도를 함께 반영 랭킹 품질 비교

검색 구조를 설계할 때는 Hybrid Search 실무 가이드Reranking 실무 가이드를 같이 보는 게 좋습니다.

운영 팁
#

  • Recall과 Precision을 동시에 보십시오.
  • K를 하나로 고정하지 말고 5, 10, 20으로 나눠서 보십시오.
  • 질문 유형별로 지표를 분리하십시오.
  • reranking 전후를 반드시 비교하십시오.
  • 지표가 좋아져도 실제 답변 품질이 개선되는지 확인하십시오.

체크리스트
#

  • 평가용 질문셋이 실제 검색 패턴을 반영하는가
  • 관련 문서 라벨이 있는가
  • Recall@K와 MRR을 함께 보는가
  • reranking 전후 차이를 확인하는가
  • 하이브리드 검색과 단일 벡터 검색을 비교하는가

결론
#

Retrieval metrics는 RAG 품질의 바닥을 보는 도구입니다. 검색이 무너지면 생성도 의미가 없습니다.

먼저 Recall@K와 MRR부터 잡고, 이후에 nDCG와 reranking 비교를 붙이는 순서가 가장 실용적입니다.

함께 읽으면 좋은 글
#

RAG Evaluation 2026 - 이 글은 시리즈의 일부입니다.
부분 : 이 글