Context Compression은 긴 입력을 무작정 버리는 것이 아니라, 다음 판단에 필요한 정보만 남기도록 압축하는 설계입니다. 대화 기록, 문서, 에이전트 상태, 툴 결과가 길어질수록 압축 전략이 없으면 토큰 비용과 품질이 동시에 흔들립니다.
개요 #
압축 대상은 보통 네 가지입니다.
- 대화 히스토리
- 문서 검색 결과
- 툴 호출 로그
- 에이전트 메모리
Context Window Management와 Agent Memory는 이 주제와 바로 연결됩니다. 압축은 저장을 포기하는 것이 아니라, 다시 쓰기 쉬운 형태로 정보를 재구성하는 일입니다.
왜 중요한가 #
긴 컨텍스트는 품질을 올리는 것처럼 보이지만 실제로는 반대일 수 있습니다.
- 중요한 정보가 뒤로 밀립니다
- 중복 정보가 토큰을 잡아먹습니다
- 불필요한 토큰은 비용만 늘립니다
- 모델이 핵심을 놓치기 쉽습니다
그래서 Claude API Prompt Caching이나 Semantic Cache 같은 전략과 같이 봐야 합니다. 압축과 캐시는 서로 경쟁하는 기술이 아니라 함께 쓰는 기술입니다.
비용 구조 #
| 구간 | 비용/리스크 |
|---|---|
| Raw history | 토큰 폭증 |
| Summarization | 요약 품질 저하 가능 |
| Retrieval | 관련 정보 누락 가능 |
| Memory write | 잘못 저장하면 오염 |
| Replay | 과거 정보 재주입 비용 |
압축이 잘 되면 입력 토큰이 줄고, rerun과 retry도 줄어듭니다. 결국 비용과 지연이 같이 낮아집니다.
아키텍처 도식 #
압축은 한 번에 끝나는 기능이 아니라 흐름입니다.
- 원본 컨텍스트를 수집합니다
- 반복된 정보와 잡음을 제거합니다
- 오래된 정보는 요약합니다
- 중요한 사실은 memory layer로 분리합니다
- 다음 요청에 필요한 최소 단위로 다시 조립합니다
Agent Session Management, AI Cache Strategy, OpenAI Background Mode 글과 함께 보면 흐름이 이어집니다.
체크리스트 #
- 요약이 필요한 경계가 정해져 있는지 확인합니다
- 사실과 의견을 섞어 요약하지 않습니다
- memory write 규칙을 별도로 둡니다
- 재사용 가능한 사실은 구조화합니다
- 압축 전후 품질 차이를 측정합니다
- context budget 초과 시 fallback이 있는지 봅니다
결론 #
Context Compression은 긴 입력을 “작게” 만드는 기술이 아니라 “다음 단계에 필요한 만큼만 남기는” 기술입니다. 이 기준을 지켜야 토큰 비용과 품질을 동시에 관리할 수 있습니다.