음성 AI 플랫폼은 2026년에도 빠르게 늘고 있습니다. 하지만 이 시장은 제품이 모두 같은 범주처럼 보여도 실제로는 역할이 다릅니다. 어떤 제품은 TTS와 대화형 에이전트가 중심이고, 어떤 제품은 STT와 오디오 인텔리전스가 강하며, 어떤 제품은 전화 통화 운영이나 실시간 오케스트레이션에 더 맞습니다.
이 글은 ElevenLabs, Deepgram, Vapi, LiveKit Agents, Retell을 공식 문서의 제품 포지셔닝 기준으로 비교합니다. 기준은 단순 기능 수가 아니라 무엇을 주력으로 파는가, 어떤 워크플로우를 전제로 하는가, 어떤 팀에 맞는가입니다.
한눈에 보기 #
| 제품 | 주력 포지셔닝 | 잘 맞는 경우 |
|---|---|---|
| ElevenLabs | 대화형 음성 에이전트와 TTS 플랫폼 | 브랜드 음성, 에이전트 운영, CLI/대시보드 중심 팀 |
| Deepgram | STT, TTS, 오디오 인텔리전스 | 전사, 음성 분석, self-hosted 옵션이 중요한 팀 |
| Vapi | 전화 기반 voice agent 플랫폼 | inbound/outbound 콜, phone number, tool 기반 통화 자동화 |
| LiveKit Agents | 실시간 voice/video agent 프레임워크 | WebRTC, 멀티모달, 커스텀 코드 중심 팀 |
| Retell | AI phone agent 운영 플랫폼 | 전화 상담, 테스트, 모니터링, 통화 품질 관리 |
ElevenLabs는 어디에 강한가 #
ElevenLabs 공식 문서는 agents platform, visual workflow builder, dashboard, CLI, versioning, testing, analytics를 강조합니다. 즉 음성 합성만이 아니라, 음성 에이전트를 만들고 운영하는 제품입니다. 브랜딩된 voice experience, 에이전트 버전 관리, 운영 도구가 중요하면 강합니다.
Deepgram은 어디에 강한가 #
Deepgram 공식 문서는 Speech-to-Text, Text-to-Speech, Voice Agent, Intelligence를 분리해 보여줍니다. STT와 TTS, 실시간 전사, audio intelligence가 핵심이고, self-hosted 배포 옵션도 관심 포인트입니다. 음성 AI의 기반 계층을 구축할 때 강합니다.
Vapi는 어디에 강한가 #
Vapi 공식 문서는 전화 기반 voice agents, assistants, phone numbers, CLI, MCP integration을 강조합니다. outbound/inbound 콜, 전화번호 관리, tools, structured outputs, squads 같은 운영 단위가 중요하면 적합합니다. 전화 자동화 제품에 가장 직접적으로 맞습니다.
LiveKit Agents는 어디에 강한가 #
LiveKit Agents는 realtime framework for voice, video, and physical AI agents에 가깝습니다. WebRTC 기반 멀티모달 에이전트, LiveKit Cloud observability, Agent Builder, open-source SDK, custom backend integration이 핵심입니다. 음성만이 아니라 실시간 멀티모달 인터랙션과 코드 중심 구조를 원할 때 좋습니다.
Retell은 어디에 강한가 #
Retell은 build, test, deploy, and monitor AI phone agents를 전면에 둡니다. 전화번호, telephony integration, simulation testing, call analysis, webhook이 핵심입니다. 콜센터와 전화 상담 자동화처럼 운영 안정성이 중요한 경우에 가장 직접적입니다.
선택 기준 #
TTS와 브랜드 음성이 최우선이면ElevenLabs.STT와 음성 인텔리전스가 최우선이면Deepgram.전화번호와 통화 자동화가 최우선이면Vapi또는Retell.WebRTC와 멀티모달 실시간성이 중요하면LiveKit Agents.전화 운영 테스트와 모니터링이 중요하면Retell.
한 줄 결론 #
음성 에이전트 플랫폼은 기능보다 역할이 중요합니다. TTS 중심인지, STT 중심인지, 전화 운영 중심인지, 실시간 프레임워크 중심인지 먼저 정하고 그에 맞춰 고르는 게 맞습니다.
참고 자료 #
- ElevenLabs docs: https://elevenlabs.io/docs/
- Deepgram docs: https://developers.deepgram.com/docs/introduction
- Vapi docs: https://docs.vapi.ai/
- LiveKit Agents docs: https://docs.livekit.io/agents/v0/
- Retell docs: https://docs.retellai.com/