RAG 캐시 적중률은 캐시가 얼마나 자주 쓰였는지를 보여주는 지표입니다. 그런데 hit rate만 높다고 좋은 것은 아닙니다. 잘못된 캐시 재사용이 늘면 오히려 품질이 떨어질 수 있습니다.
이 글에서는 Semantic Cache, AI Cache Strategy, RAG Cost Optimization, RAG Monitoring, Context Compression과 연결해서, 어떤 지표를 같이 봐야 하는지 정리합니다.
개요 #
캐시 적중률은 보통 다음 질문에 답합니다.
- 전체 요청 중 몇 %가 캐시에서 처리되었는가
- exact hit과 semantic hit이 각각 얼마나 되는가
- hit가 발생했을 때 latency와 cost가 얼마나 줄었는가
실무에서는 hit rate 하나만 보지 말고, 정확도와 재사용 가치까지 함께 봐야 합니다.
왜 중요한가 #
RAG에서 캐시는 비용 절감의 핵심입니다. 하지만 적중률이 높아도 다음 문제가 있으면 실패입니다.
- 잘못된 semantic hit이 늘어난다
- 오래된 답변이 재사용된다
- 캐시 조회 비용이 검색 비용보다 커진다
- hit rate는 높은데 사용자 만족도가 떨어진다
그래서 적중률은 성능 지표가 아니라 운영 지표로 봐야 합니다. RAG Monitoring은 hit rate를 latency, answer quality, fallback ratio와 함께 봐야 의미가 있습니다.
측정 설계 #
적중률을 측정할 때는 캐시 종류를 나눠야 합니다.
- exact hit rate
- semantic hit rate
- retrieval hit rate
- response hit rate
그리고 반드시 아래도 같이 봐야 합니다.
- average latency
- token cost saved
- false hit rate
- invalidation count
- fallback ratio
AI Cache Strategy에서 계층을 나눴다면, 여기서는 각 계층의 효율을 따로 측정해야 합니다.
측정 선택 #
지표를 설계할 때는 다음을 고민합니다.
- 어떤 요청을 분모로 잡을 것인가
- semantic hit의 기준은 무엇인가
- 사용자별, 도메인별로 나눌 것인가
- 기간별 rolling window로 볼 것인가
- 품질 저하 시 어떤 알림을 울릴 것인가
캐시 적중률을 단순 누적으로만 보면 계절성이나 트래픽 패턴을 놓칠 수 있습니다. 주간, 일간, 도메인별로 잘라서 봐야 합니다.
아키텍처 도식 #
권장 흐름은 다음과 같습니다.
- 요청이 들어오면 캐시 계층별 결과를 기록합니다.
- exact, semantic, retrieval, response hit을 분리 집계합니다.
- 캐시 miss 요청은 RAG 경로로 태깅합니다.
- hit rate와 latency, cost, quality를 같은 대시보드에서 봅니다.
- 알림은 hit rate가 아니라 품질 저하와 함께 걸어둡니다.
이 구조는 RAG Cost Optimization과 직접 연결됩니다. 적중률이 올라가도 절감 효과가 작으면 비용 구조를 다시 봐야 합니다.
체크리스트 #
- exact hit과 semantic hit을 분리하는가
- false hit을 측정하는가
- hit rate와 answer quality를 같이 보는가
- 사용자별, 도메인별, 기간별로 쪼개서 보는가
- 캐시 조회 비용까지 포함해서 계산하는가
- 알림 조건이 단순 hit rate만으로 되어 있지 않은가
결론 #
RAG 캐시 적중률은 좋은 출발점이지만, 혼자 보면 부족합니다. hit rate, latency, cost, quality를 같이 보아야 캐시 전략이 진짜로 효과가 있는지 판단할 수 있습니다.