Reach us out
Reach out directly to our team*
- Email hi@kleva.co
- WhatsApp +1 704-816-9059
- Office Miami, Florida
Guía completa de diseño e implementación de tests A/B para comparar estrategias de cobranza con IA versus control manual, incluyendo metodología estadística, métricas clave y casos reales.
May 27, 2026 12 min read
|El testing A/B riguroso es fundamental para validar el impacto real de voice agents de IA en cobranza versus estrategias tradicionales. Sin experimentación controlada, es imposible separar el efecto causal de la IA de factores confundidores (estacionalidad, cambios macroeconómicos, mejoras simultáneas en otros procesos). Un A/B test bien diseñado asigna aleatoriamente deudores a tratamiento (voice agent IA) versus control (cobranza manual), mide métricas clave, y determina si las diferencias son estadísticamente significativas.
En Kleva, hemos ejecutado más de 40 tests A/B en implementaciones de clientes en 7 países LATAM, procesando más de 900,000 minutos mensuales. Nuestros tests documentan mejoras consistentes: +12-22pp en recovery rate, -18 a -28 días en tiempo de recuperación, y +0.8 a +1.4 puntos en satisfacción del deudor (escala 1-5). Este artículo desglosa la metodología de testing A/B en cobranza, desde diseño experimental hasta análisis estadístico, con casos reales y lecciones aprendidas.
Un test A/B en cobranza compara dos estrategias aplicadas a poblaciones comparables. Grupo A (Tratamiento): deudores contactados por voice agent de IA. Grupo B (Control): deudores contactados por operadores humanos o sistema rule-based existente. La asignación debe ser aleatoria: cada deudor tiene igual probabilidad de caer en A o B, eliminando sesgo de selección. La métrica primaria típicamente es recovery rate: % de deuda recuperada en período definido (30/60/90 días).
Métricas secundarias incluyen: tiempo de recuperación (días desde asignación hasta pago), costo por $ recuperado, tasa de contacto efectivo, satisfacción del deudor (NPS o CSAT), y tasa de escalamiento a supervisor. El test debe correr suficiente tiempo (típicamente 4-12 semanas) para acumular significancia estadística: confianza >95% que la diferencia observada no es por azar.
ComponenteDiseño ÓptimoErrores ComunesImpacto de Error
RandomizaciónAleatorización verdadera a nivel deudor individualAsignar por regiones/productos (sesgo)Resultados no causales, confundidos
Tamaño de muestraN calculado con power analysis (típicamente 500-2000 por grupo)Muestra muy pequeña (No alcanza significancia estadística
Duración4-12 semanas (captura ciclo completo cobranza)Terminar tras 1 semana viendo resultados "buenos"Regresión a la media, resultados inflados
Métrica primariaUna métrica clara pre-definida (recovery rate 60 días)Múltiples métricas, elegir la "mejor" post-hocP-hacking, falsos positivos
AnálisisIntention-to-treat (analizar según asignación original)Per-protocol (solo deudores contactados)Sesgo de autoselección
El power analysis calcula el tamaño de muestra necesario para detectar un efecto dado con confianza deseada. Parámetros: (1) Efecto esperado: diferencia mínima a detectar (ejemplo: +10pp en recovery rate). (2) Significancia (α): típicamente 0.05 (95% confianza). (3) Power (1-β): típicamente 0.80 (80% probabilidad de detectar efecto real). (4) Varianza baseline: desviación estándar del recovery rate en población.
Ejemplo: si el recovery rate baseline es 60% con desviación estándar 25%, y queremos detectar mejora de +10pp (60% a 70%) con α=0.05 y power=0.80, el tamaño de muestra por grupo es ~620 deudores. Con 500 deudores por grupo, el power baja a 0.73 (27% chance de falso negativo). Con 1,000 por grupo, el power sube a 0.92. La fórmula estándar: n = 2 × (Z_α/2 + Z_β)² × σ² / Δ², donde Δ es el efecto esperado.
La randomización simple (asignar cada deudor a A o B con probabilidad 50/50) puede generar desbalances en variables críticas. Si por azar el grupo A recibe más deudores de alto valor o menor morosidad, los resultados estarán sesgados. La randomización estratificada mitiga esto: dividir la población en estratos (por monto adeudado, días de mora, historial de pago) y randomizar dentro de cada estrato, garantizando balance.
Ejemplo: cartera de 2,000 deudores. Estratificar por: Estrato 1: deuda Estrato 2: deuda $100-500 (700 deudores) → 350 a A, 350 a B. Estrato 3: deuda >$500 (300 deudores) → 150 a A, 150 a B. Esto garantiza que ambos grupos tienen distribución idéntica de montos adeudados. Verificar balance post-randomización mediante tabla de baseline: comparar características (edad promedio, monto promedio, días mora promedio) entre A y B. Diferencias >5% indican desbalance que debe corregirse.
La contaminación ocurre cuando el tratamiento afecta al control, violando la independencia. Ejemplos en cobranza: (1) Spillover de comunicación: deudores del grupo A hablan con deudores del grupo B ("a mí me llamó un robot, ¿a ti?"), alterando su comportamiento. (2) Spillover operativo: operadores humanos del grupo B aprenden estrategias efectivas observando los scripts del voice agent, mejorando su performance (contaminación del control).
Mitigación: (1) Cluster randomization: asignar grupos completos (ejemplo: todos los deudores de una región a A, otra región a B) para evitar comunicación entre grupos. Cuidado: reduce poder estadístico, requiere más clusters. (2) Monitoreo de spillover: encuestar una muestra de deudores del control preguntando si escucharon de otros sobre cobranza automática. (3) Tiempo de lavado (washout): si se detecta contaminación, descartar datos de período afectado y re-correr test.
La métrica primaria debe definirse antes de iniciar el test (pre-registro) para evitar p-hacking. Definiciones comunes: Recovery rate a 60 días: (Monto pagado en 60 días post-asignación) / (Monto adeudado al inicio) × 100. Incluye pagos parciales. Tiempo de recuperación: días calendario desde asignación al grupo hasta fecha de primer pago ≥50% del monto adeudado. Costo-efectividad: (Monto recuperado - Costo de cobranza) / Costo de cobranza.
Las métricas secundarias agregan contexto pero no deben usarse para declarar "éxito" si la primaria falla. Ejemplos: Tasa de promesa de pago: % de deudores que prometen pagar en conversación. Tasa de cumplimiento de promesa: de los que prometieron, % que efectivamente pagan. NPS post-llamada: "¿Qué tan probable es que recomiendes esta empresa a un amigo?" (escala 0-10). Tasa de quejas formales: % de deudores que presentan queja a defensa del consumidor o empresa.
MétricaDefinición OperacionalGrupo A (IA) EsperadoGrupo B (Control) TípicoDiferencia Objetivo
Recovery rate 60d% monto recuperado en 60 días70-78%58-65%+12-15pp
Tiempo recuperación (mediana)Días hasta pago ≥50% deuda14-20 días28-38 días-12 a -20 días
Costo por $ recuperado$ gastado en cobranza / $ recuperado$0.08-0.12$0.18-0.28-$0.08 a -0.15
First-call resolution% casos resueltos en primer contacto88-94%62-72%+20-28pp
NPS post-cobranza% promotores - % detractores+15 a +35-20 a +5+25 a +40 puntos
El análisis estadístico determina si las diferencias observadas son reales o por azar. Para recovery rate (proporción), usar test de proporciones (Z-test) o chi-cuadrado. Ejemplo: Grupo A (N=800) recupera 72% ($576k de $800k), Grupo B (N=800) recupera 61% ($488k de $800k). Diferencia: +11pp. ¿Es significativa? Z = (0.72 - 0.61) / √(p×(1-p)×(1/800+1/800)), donde p = (576+488)/1600 = 0.665. Z = 0.11 / 0.024 = 4.58. P-value Altamente significativo.
Para tiempo de recuperación (continua), usar t-test o Mann-Whitney U (si distribución no es normal). Para análisis de supervivencia (tiempo hasta evento), usar Kaplan-Meier curves y log-rank test. Esto es óptimo para cobranza pues maneja censura (deudores que no pagan durante el test pero podrían pagar después). La curva de Kaplan-Meier muestra % de deuda aún no recuperada en función del tiempo, permitiendo comparar visualmente A vs B.
La significancia estadística (peffect size cuantifica la magnitud del efecto. Para proporciones, usar Cohen's h o simplemente la diferencia absoluta en puntos porcentuales. Para medias, usar Cohen's d = (media_A - media_B) / desviación_estándar_pooled.
Interpretación de effect size en cobranza: Pequeño: +3-7pp recovery rate. Estadísticamente significativo pero ROI marginal. Mediano: +8-15pp recovery rate. Justifica inversión en mayoría de carteras. Grande: +16pp+ recovery rate. Transformacional, ROI masivo. En Kleva, nuestros tests A/B consistentemente muestran effect sizes grandes: promedio +15pp recovery rate, clasificado como efecto grande en literature de ciencias sociales.
Cliente de Kleva: operador telecom en Argentina con 180,000 suscriptores. Objetivo: validar impacto de voice agent versus cobranza manual en recovery rate a 60 días. Diseño: randomización estratificada de 3,200 deudores (mora 7-45 días, monto $30-400) en 3 estratos por monto. Grupo A (N=1,600): voice agent. Grupo B (N=1,600): operadores humanos (3 FTE). Duración: 8 semanas (febrero-marzo 2025).
Resultados: Recovery rate a 60 días: Grupo A 74.2% ($950k recuperados de $1.28M), Grupo B 61.8% ($790k de $1.28M). Diferencia: +12.4pp. Z-test: p
Análisis económico: el voice agent generó $160k adicionales en recovery (+12.4% sobre $1.28M) a costo incremental de $35k (plataforma + minutos de llamada), versus costo control $190k (3 FTE × 2 meses). Beneficio neto: $160k recovery incremental + $155k ahorro en operadores = $315k beneficio versus $35k costo incremental = ROI 9x en 8 semanas. El cliente decidió rollout completo a toda la base de morosidad.
El análisis de subgrupos identifica para qué segmentos el efecto es mayor. En el caso telecom, segmentar resultados por: Monto adeudado: $250 (+16pp). El voice agent es más efectivo en montos altos. Días de mora: 7-15 días (+18pp), 16-30 días (+12pp), 31-45 días (+8pp). Efectividad decrece con mora avanzada. Historial: primera mora (+20pp), mora recurrente (+9pp). Deudores nuevos responden mejor a automatización.
Este análisis sugiere estrategia de targeting: usar voice agent primariamente para mora temprana (0-30 días) y montos >$100, donde genera mayor impacto. Mora >60 días y montos
Cliente: fintech mexicana con cartera de $4.2M, préstamos de $150-800, mora 15-90 días. Objetivo: comparar voice agent versus SMS automatizado (control actual, no humanos) en recovery rate a 30 días. Diseño: 4,800 deudores randomizados: Grupo A (N=2,400) voice agent Kleva, Grupo B (N=2,400) SMS cada 3 días. Duración: 6 semanas (agosto-septiembre 2025).
Resultados: Recovery rate 30 días: Grupo A 68.4% ($685k de $1M), Grupo B 52.7% ($527k de $1M). Diferencia: +15.7pp, pROI 2.3x incremental.
Insight crítico: el SMS es más cost-effective por $ recuperado ($0.02 vs $0.09), pero el voice agent recupera volumen absoluto mucho mayor (+$158k vs baseline). La decisión óptima no es voz vs SMS binaria, sino estrategia secuencial: SMS primero (día 1-7 post-mora, costo bajo), voice agent para no-respondedores (día 8+, costo justificado por mayor recovery). Implementación de esta estrategia combinada post-test generó recovery rate de 76% (mejor que cualquiera solo) a costo optimizado.
Más allá de A/B simple (una variable), los tests multivariados optimizan múltiples variables simultáneamente. Ejemplo: probar combinaciones de (1) Frecuencia de contacto (cada 3 días vs cada 5 días), (2) Horario (mañana vs tarde vs noche), (3) Oferta (descuento 10% vs plan de pago). Esto genera 2×3×2 = 12 variantes. Un test multivariado asigna aleatoriamente deudores a cada combinación, identificando la óptima.
El desafío es tamaño de muestra: con 12 variantes, necesitas N suficiente en cada celda para detectar diferencias. Si necesitas 500 deudores por variante, el test requiere 6,000 deudores totales. Alternativa: bandits multi-armed (MAB) que adaptan dinámicamente la asignación: variantes que performan bien reciben más tráfico, variantes malas menos. Esto maximiza el valor durante el experimento (no solo post-experimento) pero requiere infraestructura sofisticada.
En Kleva, operamos testing always-on: siempre hay 10-20% del tráfico en experimentación de nuevas estrategias (variaciones de script, timing, ofertas), mientras 80-90% reciben la estrategia best-known-method. Los aprendizajes de experimentos se incorporan al método estándar mensualmente. Esto genera mejora continua: recovery rate promedio de clientes mejora 1-2pp cada trimestre sin cambios en costo.
El framework de testing continuo: Semana 1-4: test A/B de hipótesis nueva (ejemplo: ofrecer cambio de fecha de pago vs no ofrecer). Semana 5: análisis de resultados, decisión de adopción. Semana 6-8: rollout gradual de la estrategia ganadora (20% → 50% → 100%). Semana 9-12: monitoreo de métricas, inicio de siguiente test. Este ciclo perpetuo de experimentación es cómo logramos 73% de recovery rate y 94% de first-call resolution, constantemente optimizando basados en data.
Los errores comunes en testing A/B de cobranza: (1) Peeking: revisar resultados diariamente y terminar el test en cuanto se ve significancia. Esto infla tasa de falsos positivos. Solución: pre-definir duración del test (ej: 8 semanas) y analizar solo al final. Si necesitas monitoreo intermedio, usar sequential testing con ajustes de Bonferroni. (2) P-hacking: probar múltiples métricas y reportar solo la que muestra efecto. Solución: pre-registrar métrica primaria antes de iniciar.
(3) Muestra muy pequeña: correr test con 50 deudores por grupo, no alcanzar significancia, concluir "no hay efecto". Solución: hacer power analysis pre-test para determinar N necesario. (4) Ignorar stratificación: randomizar sin balancear variables clave, generar grupos desbalanceados. Solución: randomización estratificada o, post-randomización, verificar balance y ajustar con regresión. (5) Contaminación no detectada: operadores del control aprenden del tratamiento, diluyendo el efecto. Solución: cluster randomization o monitoreo de spillover.
Todo test A/B debe documentarse rigurosamente: (1) Pre-registro: documento antes de iniciar el test especificando hipótesis, métrica primaria, tamaño de muestra, duración. (2) Bitácora operativa: eventos durante el test (caída de sistema, cambios en proceso, anomalías). (3) Datos raw: dataset completo con asignación de grupo, outcomes, variables de control. (4) Script de análisis: código (R, Python) que genera los resultados reportados, permitiendo reproducción.
La documentación permite: auditoría interna (verificar que el test fue riguroso), aprendizaje organizacional (futuros equipos replican metodología), y compliance (demostrar a reguladores que decisiones están basadas en evidencia, no intuición). En Kleva, mantenemos repositorio de todos los A/B tests ejecutados con clientes, generando biblioteca de conocimiento que informa nuevas implementaciones.
Los resultados del A/B test deben traducirse a recomendaciones accionables. Template de reporte: Resumen ejecutivo: "El voice agent aumentó recovery rate en 15.7pp (68.4% vs 52.7%, pAnálisis de subgrupos: "Efecto mayor en mora temprana (0-30 días: +18pp) versus tardía (60-90 días: +9pp). Priorizar voice agent para mora temprana".
Sensibilidad económica: "Si el recovery incremental es solo +10pp (escenario conservador) versus +15.7pp observado, el ROI sigue siendo positivo (4.2x)". Riesgos y mitigaciones: "Riesgo de contaminación si operadores humanos aprenden del voice agent. Mitigación: capacitar operadores en estrategias del voice agent para elevar baseline". Roadmap de implementación: "Semana 1-2: rollout a 50% de mora 0-30 días. Semana 3-4: expansión a 100%. Semana 5-8: expansión a mora 31-60 días. Monitoreo continuo de métricas".
El testing no termina con el rollout. Implementar monitoreo continuo de las métricas key: ¿el recovery rate se mantiene en 68% o degrada con el tiempo? La degradación puede indicar: (1) Novedad wear-off: deudores se acostumbran al voice agent, responden menos. (2) Shift en composición: los deudores "fáciles" ya pagaron, quedan solo los difíciles. (3) Cambios externos: crisis económica reduce capacidad de pago general.
Si se detecta degradación, iterar: test nuevas estrategias (diferentes scripts, ofertas más agresivas, timing distinto) versus el nuevo baseline. En Kleva, esto es parte de nuestro servicio: monitoreo mensual de métricas de clientes, identificación de degradaciones, y ejecución de tests de optimización. Un cliente de utilities en Chile vio recovery rate caer de 72% (mes 3 post-rollout) a 68% (mes 9). Test A/B de nuevo script más empático recuperó performance a 71%, demostrando valor de optimización continua.
No bots, no endless forms. Fill in your details and someone from our team will reach out.
Reach out directly to our team*
No bots, no endless forms.