Vision Regression Testing은 이미지 이해 경로가 바뀌었을 때 품질 저하를 초기에 잡는 방법입니다. OCR, 객체 인식, UI 스크린샷 이해, 문서 이미지 파싱은 작은 프롬프트 수정이나 모델 교체에도 민감합니다.
이 글은 Vision API, Image to Structured Data, Multimodal Document Understanding, Agent Regression Testing 관점에서 이미지 회귀를 어떻게 잡을지 설명합니다.
개요 #
이미지 회귀는 눈에 잘 안 보입니다. 텍스트 응답이 그럴듯해도 실제로는 bounding box, caption, OCR, extraction field가 틀릴 수 있습니다.
- 스크린샷 해석이 한 단계만 어긋나도 후속 tool call이 엇나갑니다.
- 문서 이미지의 필드 추출이 틀리면 downstream schema validation이 깨집니다.
- 이미지 프롬프트 변경은 텍스트 테스트로는 잘 잡히지 않습니다.
왜 중요한가 #
Vision 경로는 변경이 잦습니다. 모델 교체, prompt 수정, 전처리 변경, 이미지 크기 조정만으로도 결과가 흔들릴 수 있습니다.
- 회귀가 늦게 발견되면 운영 비용이 커집니다.
- 특정 유형의 이미지에서만 실패하면 재현이 어렵습니다.
- 정답이 텍스트로만 저장되면 시각적 품질 하락을 놓칩니다.
테스트 설계 #
좋은 Vision regression test는 입력 유형별로 나뉘어야 합니다.
- 단일 이미지 테스트
- 연속 이미지 테스트
- 문서 이미지 테스트
- UI 스크린샷 테스트
- 혼합 멀티모달 테스트
평가 항목은 다음을 같이 보는 편이 좋습니다.
- field-level accuracy
- OCR coverage
- visual grounding quality
- JSON schema validity
- latency and cost
아키텍처 도식 #
Vision regression pipeline은 보통 다음 구조가 안정적입니다.
- sample registry: 대표 이미지와 edge case를 보관합니다.
- prompt/model matrix: prompt와 model 버전을 조합합니다.
- grader layer: 텍스트, schema, visual match를 모두 채점합니다.
- diff layer: 이전 버전과의 차이를 시각적으로 표시합니다.
체크리스트 #
- 문서, UI, 사진 케이스를 분리했는가
- OCR 실패와 reasoning 실패를 분리했는가
- 결과를 텍스트와 구조화 출력 둘 다 저장하는가
- regression gate를 배포 전에 자동 실행하는가
- 실패한 이미지의 재현 버전을 보존하는가
- 시각적 diff를 사람이 확인할 수 있는가
결론 #
Vision regression은 “맞는 답"만 보면 부족합니다. 어떤 이미지에서, 어떤 전처리에서, 어떤 prompt 조합이 깨졌는지까지 남겨야 운영에서 다시 잡을 수 있습니다.