Arquitectura Técnica de un Sistema Voice AI Escalable
Diseño técnico completo de la arquitectura de un sistema de voice AI escalable para procesamiento de miles de llamadas simultáneas de cobranza en LATAM.
May 22, 2026 -10 min read
|
by ed-escobar Co-Founder & CEO
Arquitectura Técnica de un Sistema Voice AI Escalable
Construir un sistema de voice AI escalable que pueda procesar miles de llamadas de cobranza simultáneas en múltiples países de Latinoamérica es un desafío de ingeniería de alto nivel. No se trata solo de conectar una API de reconocimiento de voz con un chatbot: requiere arquitectura distribuida, orquestación compleja, baja latencia, alta disponibilidad y cumplimiento regulatorio estricto.
En este artículo técnico desglosamos la arquitectura completa de un sistema voice AI de producción, desde la capa de telefonía hasta los modelos de machine learning, con ejemplos de stack tecnológico, patrones de diseño y consideraciones de escalabilidad basados en sistemas reales que procesan millones de minutos mensuales como Kleva.
Requisitos de un sistema voice AI para cobranza a escala
Antes de diseñar la arquitectura, definamos los requisitos no funcionales críticos:
Escalabilidad
Llamadas concurrentes: debe soportar 1,000-10,000+ llamadas simultáneas con degradación graceful
Elasticidad: escalar automáticamente en horas pico (mañanas) y reducir capacidad en horas valle
Multi-región: despliegue en múltiples regiones de LATAM para cumplir requisitos de latencia y soberanía de datos
Latencia
End-to-end latency:
End-to-end latency:
ASR latency:
ASR latency:
NLU + Dialog latency:
NLU + Dialog latency:
TTS latency:
TTS latency:
Disponibilidad y resiliencia
Uptime SLA: 99.9% de disponibilidad (máximo 43 minutos de downtime mensual)
Failover automático: si una región falla, las llamadas se redirigen a otra
Circuit breakers: prevenir cascading failures cuando un servicio dependiente falla
Compliance y regulación
Grabación de llamadas: almacenamiento encriptado con retención configurable por país
Horarios de contacto: respetar regulaciones de cada país sobre cuándo se puede llamar
Do Not Call lists: integración con registros nacionales
GDPR/LGPD: cumplimiento con regulaciones de privacidad de datos
Arquitectura de alto nivel: componentes principales
Un sistema voice AI escalable se compone de múltiples capas independientes pero orquestadas:
Capa 1: Telefonía y gestión de sesiones
Esta capa maneja la conexión telefónica física y el routing de llamadas:
SIP Trunks: conectividad a redes telefónicas públicas (PSTN) en cada país
Media Server: maneja streams de audio RTP, codecs, DTMF, grabación
El cerebro del agente IA que entiende intenciones y decide respuestas:
NLU (Natural Language Understanding): extrae intenciones, entidades y sentimientos del texto
Dialog Manager: mantiene el estado de la conversación y decide la siguiente acción
Business Rules Engine: aplica reglas de negocio (ofertas, descuentos, escalaciones)
Context Store: almacena historial de conversación y contexto del usuario
Stack tecnológico: Rasa, Dialogflow, Lex, o motores custom con LLMs (GPT, Claude) para NLU. Redis/DynamoDB para context store.
Capa 4: Integración y datos
Conecta el voice AI con sistemas empresariales:
CRM Connector: consulta y actualiza información del deudor en tiempo real
Payment Gateway Integration: procesa pagos durante la llamada
Scoring Service: calcula probabilidad de pago y priorización
Campaign Manager: gestiona listas de llamadas, horarios, reintentos
Capa 5: Orquestación y observabilidad
Coordina todos los componentes y monitorea el sistema:
Call Orchestrator: coordina el flujo completo de cada llamada entre todos los servicios
Metrics Collector: recopila métricas en tiempo real (latencia, tasa de éxito, errores)
Logging y Auditoría: logs estructurados de cada interacción para compliance
Alerting: notificaciones automáticas cuando métricas críticas se degradan
Arquitectura detallada: flujo de una llamada
Veamos el flujo técnico completo de una llamada de cobranza desde inicio hasta fin:
1. Iniciación de llamada (0-2 segundos)
Campaign Manager selecciona el siguiente deudor a contactar basándose en scoring predictivo
Consulta Do Not Call registry y valida horario permitido para el país/región
Envía request al Load Balancer de telefonía con número destino y campaña
Load Balancer selecciona un Media Server con capacidad disponible
Media Server inicia llamada saliente a través de SIP Trunk del país correspondiente
Empieza grabación encriptada de la llamada para compliance
2. Detección de contestación (2-30 segundos)
AMD (Answering Machine Detection) analiza los primeros 2-4 segundos de audio
Clasifica si contestó: humano, buzón de voz, tono de ocupado, o no contesta
Si es buzón: deja mensaje pregrabado y termina llamada
Si es humano: activa VAD y espera que el usuario diga "Hola" o similar
Call Orchestrator carga contexto del deudor desde CRM y scoring
3. Conversación activa (loop continuo)
Por cada turno de conversación:
Usuario habla:
VAD detecta que el usuario empezó a hablar, pausa la salida del TTS (barge-in)
Media Server bufferiza el audio (típicamente frames de 20ms)
Audio se envía via WebSocket/gRPC al servicio de ASR
ASR transcribe en tiempo real (streaming) con resultados parciales cada 200-500ms
VAD detecta que el usuario terminó de hablar (pausa de 500-800ms)
ASR envía transcripción final al NLU Service
Agente IA procesa y responde:
NLU extrae intención, entidades y sentimiento (latencia: 100-200ms)
Dialog Manager decide la siguiente acción basándose en: - Intención del usuario - Estado actual de la conversación - Historial de interacciones previas - Business rules configuradas
Si se requiere información externa: consulta CRM/scoring en paralelo (150-300ms)
NLG (Natural Language Generation) genera el texto de respuesta personalizado
Texto se envía al TTS Service para síntesis (latencia: 200-400ms)
Audio sintetizado se streamea de vuelta al Media Server
Media Server reproduce el audio al usuario via RTP
Actualiza Context Store con el nuevo turno de conversación
Este loop se repite hasta que:
Se logra el objetivo (promesa de pago, pago inmediato, acuerdo de reestructuración)
El usuario pide hablar con un humano → transferencia a agente
El sistema detecta frustración alta → escalación automática
Se alcanza tiempo máximo de llamada (típicamente 5-8 minutos)
Actualiza estado en CRM con resultado de la llamada
Finaliza grabación y la almacena encriptada en storage compliance (S3, GCS)
Analytics Pipeline procesa la conversación para: - Métricas de performance (duración, resultado, sentimiento) - Datos de reentrenamiento de modelos de ML - Reportes de cumplimiento regulatorio
Libera recursos del Media Server para la siguiente llamada
Diseño para escalabilidad: patrones arquitectónicos
Microservicios stateless
Todos los servicios de procesamiento (ASR, NLU, Dialog, TTS) son stateless: no mantienen estado entre requests. Esto permite:
Escalar horizontalmente agregando más instancias
Reemplazar instancias sin pérdida de datos
Balanceo de carga sin session affinity
El estado de conversación se externaliza en Redis Cluster o DynamoDB con latencia de lectura
Event-driven architecture
Los componentes se comunican via eventos asíncronos:
Message Queue (Kafka, RabbitMQ, SQS) para eventos de llamadas
Permite retry automático de operaciones fallidas
Desacopla productores de consumidores
Facilita auditoría completa del flujo
Circuit breaker pattern
Si un servicio downstream (por ejemplo, CRM externo) empieza a fallar:
Circuit breaker detecta tasa de error alta
Abre el circuito: deja de enviar requests al servicio fallido
Usa fallback: cache de datos o respuesta degradada
Previene cascading failures que tirarían todo el sistema
Auto-scaling basado en métricas
El sistema escala automáticamente basándose en:
CPU/Memoria: métricas estándar de infraestructura
Queue depth: si hay llamadas esperando procesamiento
Latencia p95: si el percentil 95 de latencia supera threshold
Llamadas concurrentes: predicción basada en patrones históricos
ComponenteTrigger de ScalingMin InstancesMax Instances
Media ServerLlamadas concurrentes > 80%10200
ASR ServiceQueue depth > 100 o latency p95 > 500ms20500
NLU + DialogCPU > 70% o latency p95 > 300ms15300
TTS ServiceQueue depth > 5010200
Stack tecnológico recomendado por capa
Infraestructura y orquestación
Cloud Provider: AWS, GCP o Azure (multi-región en LATAM: São Paulo, Virginia, Oregon)
Container Orchestration: Kubernetes (GKE, EKS, AKS) para gestión de microservicios
Service Mesh: Istio o Linkerd para traffic management, observability, security
Load Balancing: AWS ALB/NLB, GCP Load Balancer con health checks inteligentes
Procesamiento de voz
ASR: Google Cloud Speech-to-Text con modelos fine-tuned para dialectos LATAM, o Whisper large v3
TTS: Google Cloud Text-to-Speech (WaveNet), Amazon Polly (Neural), o ElevenLabs para voces ultra-naturales
VAD: Silero VAD o WebRTC VAD para detección de actividad de voz
NLU y diálogo
NLU: Rasa NLU custom fine-tuned, o LLMs (GPT-4, Claude) con prompts especializados
Dialog Management: Rasa Core, o state machine custom con reglas de negocio complejas
Context Store: Redis Cluster (ElastiCache, Cloud Memorystore) para baja latencia
Datos y almacenamiento
Transactional DB: PostgreSQL (RDS, Cloud SQL) para datos de campaña y resultados
Time-series DB: InfluxDB o TimescaleDB para métricas de llamadas
Object Storage: S3, GCS para grabaciones encriptadas (con lifecycle policies)
Data Warehouse: BigQuery, Redshift, Snowflake para analytics
Observabilidad
Logging: ELK Stack (Elasticsearch, Logstash, Kibana) o Splunk
Metrics: Prometheus + Grafana o Datadog
Tracing: Jaeger o AWS X-Ray para distributed tracing
Alerting: PagerDuty o Opsgenie integrado con Prometheus Alertmanager
Consideraciones de costo y optimización
Operar un sistema voice AI a escala tiene costos significativos:
Costos de telefonía
Llamadas salientes: $0.01-$0.05 USD por minuto dependiendo del país
Números telefónicos: $1-$5 USD/mes por número (necesitas cientos para paralelizar)
SIP trunking: $0.005-$0.02 USD por minuto
Para 1 millón de minutos mensuales: $10,000-$50,000 USD solo en telefonía.
Costos de IA/ML
ASR: $0.006-$0.024 USD por minuto (Google, AWS)
TTS: $0.004-$0.016 USD por millón de caracteres
LLM API calls: $0.001-$0.03 USD por request para GPT-4 level models
Para 1 millón de minutos: $6,000-$24,000 USD en servicios de IA.
Costos de infraestructura
Compute: Kubernetes cluster con 50-200 nodes: $15,000-$60,000 USD/mes
Storage: almacenamiento de grabaciones: $0.023/GB/mes (puede crecer rápido)
Network: egress de audio/datos: $0.08-$0.12 per GB
Optimizaciones para reducir costos
Batch TTS: pre-sintetizar frases comunes y cachearlas
Compression: usar codecs eficientes (Opus) para reducir bandwidth
Spot instances: usar compute de bajo costo para cargas no críticas
Lifecycle policies: mover grabaciones antiguas a cold storage (Glacier, Coldline)
Regional optimization: deployar servicios de IA en regiones más baratas cuando sea posible
Build vs Buy: el caso de plataformas especializadas
Construir y operar esta arquitectura completa requiere:
Equipo de 20-30 ingenieros: DevOps, Backend, ML, Telefonía ($300k-$600k USD/mes en salarios LATAM)
12-18 meses de desarrollo hasta tener un sistema de producción
$50k-$150k USD/mes en infraestructura para volúmenes medios
Costo total año 1: $4M-$8M USD
Plataformas especializadas como Kleva ofrecen toda esta arquitectura como SaaS:
Implementación en 2-4 semanas vs 12-18 meses
Costo mensual: $10k-$30k USD vs $350k-$750k de build propio
Opera en 7 países de LATAM sin necesidad de infraestructura por país
Procesa 900,000+ minutos mensuales con 94% de resolución en primera llamada
70% de reducción de costos comparado con build interno
0 violaciones regulatorias gracias a compliance incorporado
Para el 95% de empresas, el ROI de comprar una plataforma especializada es 10-20x mejor que construir internamente.
Conclusión: la complejidad justifica la especialización
La arquitectura técnica de un sistema voice AI escalable es significativamente más compleja que la mayoría de sistemas empresariales. Requiere expertise profundo en telefonía, machine learning, sistemas distribuidos, procesamiento en tiempo real y cumplimiento regulatorio multi-país.
Para empresas cuyo core business no es la tecnología de voice AI, intentar construir esta arquitectura internamente representa un riesgo enorme de tiempo, costo y ejecución. Las plataformas especializadas han invertido años y millones en resolver estos problemas de forma productizable.
Kleva es un ejemplo de plataforma que maneja toda esta complejidad, permitiendo que empresas de cobranza, fintechs y bancos se enfoquen en su negocio mientras confían la infraestructura técnica a especialistas que procesan volúmenes que ninguna empresa individual podría igualar.
Talk to a human
No bots, no endless forms. Fill in your details and someone from our team will reach out.
Your information is secure and will only be used for scheduling purposes
from
·
Reach us out
Reach out directly to our team*
Email hi@kleva.co
WhatsApp+1 704-816-9059
OfficeMiami, Florida
Stop losing money oncollections
Every day you wait costs you thousands in lost recovery and wasted resources