본문으로 건너뛰기

Token Usage Monitoring란 무엇인가: LLM 토큰 소비를 추적하는 실무 가이드

·263 단어수·2 분
작성자
Engineer
AI Cost Observability 2026 - 이 글은 시리즈의 일부입니다.
부분 : 이 글

Token Usage Monitoring은 LLM이 실제로 얼마나 많은 토큰을 쓰는지 추적하는 일입니다. 비용의 원인을 찾으려면 토큰을 먼저 봐야 합니다.

토큰 사용량은 비용뿐 아니라 성능과도 연결됩니다. 입력이 길어지면 latency가 늘고, 출력이 길어지면 비용이 늘고, 재시도가 많아지면 낭비가 커집니다.

왜 중요한가
#

토큰은 LLM 운영의 기본 단위입니다. 모델이 바뀌어도, gateway가 바뀌어도, 토큰 추적은 계속 필요합니다.

대부분의 운영 실패는 토큰 관측이 없어서 늦게 발견됩니다.

  1. 프롬프트가 커졌는데도 아무도 못 봅니다.
  2. 특정 사용자나 기능이 비용을 과하게 씁니다.
  3. routing이 실패해서 더 비싼 모델로 쏠립니다.
  4. batch 처리와 실시간 처리의 비용 차이를 구분하지 못합니다.

이 지점은 LLM Cost Optimization, Model Routing, AI Gateway Routing Strategy와 직접 연결됩니다.

Token Usage Monitoring Workflow

측정 항목
#

토큰 모니터링에서 최소한 아래 항목은 잡아야 합니다.

  • prompt tokens
  • completion tokens
  • total tokens
  • request count
  • average tokens per request
  • tokens by model
  • tokens by endpoint
  • tokens by user or team

OpenAI Batch API를 쓰면 batch 단위 총합과 개별 작업 단위를 함께 봐야 합니다. 그래야 bulk 작업이 비용을 얼마나 유발하는지 알 수 있습니다.

아키텍처 도식
#

Token Usage Monitoring Choice Flow

Token Usage Monitoring Architecture

실무에서는 다음처럼 구성하는 편이 안정적입니다.

  1. SDK 또는 proxy에서 token 정보를 수집합니다.
  2. raw event를 저장합니다.
  3. 집계 작업으로 시간대별, 사용자별, 모델별 지표를 만듭니다.
  4. dashboard와 alerting이 같은 집계 테이블을 봅니다.

Helicone과 Portkey 같은 도구를 쓰면 관측을 빠르게 시작할 수 있습니다. 하지만 장기적으로는 자체 집계 파이프라인이 있어야 팀 단위 분석이 쉬워집니다.

체크리스트
#

  • 토큰이 prompt와 completion으로 분리되는가
  • 모델별 토큰이 집계되는가
  • 사용자별 평균 토큰이 보이는가
  • 재시도 토큰이 별도로 계산되는가
  • batch와 realtime 토큰이 구분되는가
  • 이상치가 알림으로 이어지는가

결론
#

토큰 사용량을 보면 비용의 대부분이 설명됩니다. 먼저 토큰을 보이고, 그 다음에 라우팅과 캐싱을 최적화하는 순서가 맞습니다.

함께 읽으면 좋은 글
#

AI Cost Observability 2026 - 이 글은 시리즈의 일부입니다.
부분 : 이 글