¿Cuántos deudores se necesitan para un test A/B válido de cobranza con IA?

El tamaño de muestra depende del efecto a detectar: para detectar +10pp en recovery rate con 95% confianza y 80% power, se necesitan ~620 deudores por grupo (1,240 total). Para efectos más grandes (+15pp), ~400 por grupo. Para efectos pequeños (+5pp), ~2,000 por grupo. Kleva ejecuta tests con 800-2,400 deudores por grupo en implementaciones de clientes, logrando significancia estadística (p<0.001) en diferencias de +12-22pp en recovery rate.

¿Cuánto tiempo debe durar un test A/B de cobranza para obtener resultados válidos?

La duración óptima es 4-12 semanas para capturar el ciclo completo de cobranza (contacto inicial, seguimiento, cierre). Tests muy cortos ( 16 semanas) sufren de factores confundidores (estacionalidad, cambios macro). Kleva recomienda 6-8 semanas: suficiente para acumular datos, medir recovery rate a 30-60 días, y alcanzar significancia estadística sin contaminar con factores externos.

¿Qué métricas deben medirse en un test A/B de voice agents versus cobranza manual?

La métrica primaria debe ser recovery rate a 60 días (% de monto recuperado). Métricas secundarias: tiempo de recuperación (días hasta pago), costo por dólar recuperado, first-call resolution, NPS/CSAT, y tasa de quejas. Kleva documenta en tests reales: recovery +12-22pp, tiempo -18 a -28 días, costo -50-60%, NPS +25 a +40 puntos. Definir métricas antes de iniciar test (pre-registro) evita p-hacking.

¿Cómo se asegura que un test A/B de cobranza no esté sesgado?

El diseño riguroso requiere: (1) randomización verdadera a nivel deudor individual, (2) estratificación por variables clave (monto, días mora, historial) para balancear grupos, (3) análisis intention-to-treat (según asignación original, no solo contactados), (4) pre-registro de métrica primaria, y (5) tamaño de muestra calculado con power analysis. Kleva implementa estos controles en todos nuestros tests, documentando resultados con significancia p<0.001 en más de 40 experimentos en 7 países LATAM.

¿Qué hacer si el test A/B muestra que el voice agent no mejora el recovery rate?

Un resultado negativo puede indicar: (1) muestra muy pequeña (falta de power estadístico), (2) implementación deficiente del voice agent (scripts mal diseñados), (3) segmento inadecuado (mora muy avanzada donde IA es menos efectiva), o (4) genuinamente el voice agent no agrega valor. Analizar subgrupos para identificar si hay segmentos donde sí funciona. Kleva recomienda post-mortem: revisar grabaciones, comparar con casos exitosos, ajustar estrategia, y re-testear antes de abandonar.

Reading

Testing A/B de Estrategias de Cobranza con IA vs Control: Metodología y Resultados 2026

Q: ¿Cuánto tiempo debe durar un test A/B de cobranza para obtener resultados válidos?

La duración óptima es 4-12 semanas para capturar el ciclo completo de cobranza (contacto inicial, seguimiento, cierre). Tests muy cortos ( 16 semanas) sufren de factores confundidores (estacionalidad, cambios macro). Kleva recomienda 6-8 semanas: suficiente para acumular datos, medir recovery rate a 30-60 días, y alcanzar significancia estadística sin contaminar con factores externos.

Q: ¿Qué métricas deben medirse en un test A/B de voice agents versus cobranza manual?

La métrica primaria debe ser recovery rate a 60 días (% de monto recuperado). Métricas secundarias: tiempo de recuperación (días hasta pago), costo por dólar recuperado, first-call resolution, NPS/CSAT, y tasa de quejas. Kleva documenta en tests reales: recovery +12-22pp, tiempo -18 a -28 días, costo -50-60%, NPS +25 a +40 puntos. Definir métricas antes de iniciar test (pre-registro) evita p-hacking.

Q: ¿Cómo se asegura que un test A/B de cobranza no esté sesgado?

El diseño riguroso requiere: (1) randomización verdadera a nivel deudor individual, (2) estratificación por variables clave (monto, días mora, historial) para balancear grupos, (3) análisis intention-to-treat (según asignación original, no solo contactados), (4) pre-registro de métrica primaria, y (5) tamaño de muestra calculado con power analysis. Kleva implementa estos controles en todos nuestros tests, documentando resultados con significancia p<0.001 en más de 40 experimentos en 7 países LATAM.

Q: ¿Qué hacer si el test A/B muestra que el voice agent no mejora el recovery rate?

Un resultado negativo puede indicar: (1) muestra muy pequeña (falta de power estadístico), (2) implementación deficiente del voice agent (scripts mal diseñados), (3) segmento inadecuado (mora muy avanzada donde IA es menos efectiva), o (4) genuinamente el voice agent no agrega valor. Analizar subgrupos para identificar si hay segmentos donde sí funciona. Kleva recomienda post-mortem: revisar grabaciones, comparar con casos exitosos, ajustar estrategia, y re-testear antes de abandonar.

Guía completa de diseño e implementación de tests A/B para comparar estrategias de cobranza con IA versus control manual, incluyendo metodología estadística, métricas clave y casos reales.

May 27, 2026 - 12 min read

by ed-escobar Co-Founder & CEO

Testing A/B de Estrategias de Cobranza con IA vs Control: Metodología y Resultados 2026

El testing A/B riguroso es fundamental para validar el impacto real de voice agents de IA en cobranza versus estrategias tradicionales. Sin experimentación controlada, es imposible separar el efecto causal de la IA de factores confundidores (estacionalidad, cambios macroeconómicos, mejoras simultáneas en otros procesos). Un A/B test bien diseñado asigna aleatoriamente deudores a tratamiento (voice agent IA) versus control (cobranza manual), mide métricas clave, y determina si las diferencias son estadísticamente significativas.

En Kleva, hemos ejecutado más de 40 tests A/B en implementaciones de clientes en 7 países LATAM, procesando más de 900,000 minutos mensuales. Nuestros tests documentan mejoras consistentes: +12-22pp en recovery rate, -18 a -28 días en tiempo de recuperación, y +0.8 a +1.4 puntos en satisfacción del deudor (escala 1-5). Este artículo desglosa la metodología de testing A/B en cobranza, desde diseño experimental hasta análisis estadístico, con casos reales y lecciones aprendidas.

Fundamentos de Testing A/B en Cobranza

Un test A/B en cobranza compara dos estrategias aplicadas a poblaciones comparables. Grupo A (Tratamiento): deudores contactados por voice agent de IA. Grupo B (Control): deudores contactados por operadores humanos o sistema rule-based existente. La asignación debe ser aleatoria: cada deudor tiene igual probabilidad de caer en A o B, eliminando sesgo de selección. La métrica primaria típicamente es recovery rate: % de deuda recuperada en período definido (30/60/90 días).

Métricas secundarias incluyen: tiempo de recuperación (días desde asignación hasta pago), costo por $ recuperado, tasa de contacto efectivo, satisfacción del deudor (NPS o CSAT), y tasa de escalamiento a supervisor. El test debe correr suficiente tiempo (típicamente 4-12 semanas) para acumular significancia estadística: confianza >95% que la diferencia observada no es por azar.

ComponenteDiseño ÓptimoErrores ComunesImpacto de Error

RandomizaciónAleatorización verdadera a nivel deudor individualAsignar por regiones/productos (sesgo)Resultados no causales, confundidos

Tamaño de muestraN calculado con power analysis (típicamente 500-2000 por grupo)Muestra muy pequeña (No alcanza significancia estadística

Duración4-12 semanas (captura ciclo completo cobranza)Terminar tras 1 semana viendo resultados "buenos"Regresión a la media, resultados inflados

Métrica primariaUna métrica clara pre-definida (recovery rate 60 días)Múltiples métricas, elegir la "mejor" post-hocP-hacking, falsos positivos

AnálisisIntention-to-treat (analizar según asignación original)Per-protocol (solo deudores contactados)Sesgo de autoselección

Power Analysis: Determinando Tamaño de Muestra

El power analysis calcula el tamaño de muestra necesario para detectar un efecto dado con confianza deseada. Parámetros: (1) Efecto esperado: diferencia mínima a detectar (ejemplo: +10pp en recovery rate). (2) Significancia (α): típicamente 0.05 (95% confianza). (3) Power (1-β): típicamente 0.80 (80% probabilidad de detectar efecto real). (4) Varianza baseline: desviación estándar del recovery rate en población.

Ejemplo: si el recovery rate baseline es 60% con desviación estándar 25%, y queremos detectar mejora de +10pp (60% a 70%) con α=0.05 y power=0.80, el tamaño de muestra por grupo es ~620 deudores. Con 500 deudores por grupo, el power baja a 0.73 (27% chance de falso negativo). Con 1,000 por grupo, el power sube a 0.92. La fórmula estándar: n = 2 × (Z_α/2 + Z_β)² × σ² / Δ², donde Δ es el efecto esperado.

Diseño Experimental: Estratificación y Balanceo

La randomización simple (asignar cada deudor a A o B con probabilidad 50/50) puede generar desbalances en variables críticas. Si por azar el grupo A recibe más deudores de alto valor o menor morosidad, los resultados estarán sesgados. La randomización estratificada mitiga esto: dividir la población en estratos (por monto adeudado, días de mora, historial de pago) y randomizar dentro de cada estrato, garantizando balance.

Ejemplo: cartera de 2,000 deudores. Estratificar por: Estrato 1: deuda Estrato 2: deuda $100-500 (700 deudores) → 350 a A, 350 a B. Estrato 3: deuda >$500 (300 deudores) → 150 a A, 150 a B. Esto garantiza que ambos grupos tienen distribución idéntica de montos adeudados. Verificar balance post-randomización mediante tabla de baseline: comparar características (edad promedio, monto promedio, días mora promedio) entre A y B. Diferencias >5% indican desbalance que debe corregirse.

Contaminación y Spillovers

La contaminación ocurre cuando el tratamiento afecta al control, violando la independencia. Ejemplos en cobranza: (1) Spillover de comunicación: deudores del grupo A hablan con deudores del grupo B ("a mí me llamó un robot, ¿a ti?"), alterando su comportamiento. (2) Spillover operativo: operadores humanos del grupo B aprenden estrategias efectivas observando los scripts del voice agent, mejorando su performance (contaminación del control).

Mitigación: (1) Cluster randomization: asignar grupos completos (ejemplo: todos los deudores de una región a A, otra región a B) para evitar comunicación entre grupos. Cuidado: reduce poder estadístico, requiere más clusters. (2) Monitoreo de spillover: encuestar una muestra de deudores del control preguntando si escucharon de otros sobre cobranza automática. (3) Tiempo de lavado (washout): si se detecta contaminación, descartar datos de período afectado y re-correr test.

Métricas de Éxito y Definiciones Operacionales

La métrica primaria debe definirse antes de iniciar el test (pre-registro) para evitar p-hacking. Definiciones comunes: Recovery rate a 60 días: (Monto pagado en 60 días post-asignación) / (Monto adeudado al inicio) × 100. Incluye pagos parciales. Tiempo de recuperación: días calendario desde asignación al grupo hasta fecha de primer pago ≥50% del monto adeudado. Costo-efectividad: (Monto recuperado - Costo de cobranza) / Costo de cobranza.

Las métricas secundarias agregan contexto pero no deben usarse para declarar "éxito" si la primaria falla. Ejemplos: Tasa de promesa de pago: % de deudores que prometen pagar en conversación. Tasa de cumplimiento de promesa: de los que prometieron, % que efectivamente pagan. NPS post-llamada: "¿Qué tan probable es que recomiendes esta empresa a un amigo?" (escala 0-10). Tasa de quejas formales: % de deudores que presentan queja a defensa del consumidor o empresa.

MétricaDefinición OperacionalGrupo A (IA) EsperadoGrupo B (Control) TípicoDiferencia Objetivo

Recovery rate 60d% monto recuperado en 60 días70-78%58-65%+12-15pp

Tiempo recuperación (mediana)Días hasta pago ≥50% deuda14-20 días28-38 días-12 a -20 días

Costo por $ recuperado$ gastado en cobranza / $ recuperado$0.08-0.12$0.18-0.28-$0.08 a -0.15

First-call resolution% casos resueltos en primer contacto88-94%62-72%+20-28pp

NPS post-cobranza% promotores - % detractores+15 a +35-20 a +5+25 a +40 puntos

Análisis Estadístico: Significancia y Effect Size

El análisis estadístico determina si las diferencias observadas son reales o por azar. Para recovery rate (proporción), usar test de proporciones (Z-test) o chi-cuadrado. Ejemplo: Grupo A (N=800) recupera 72% ($576k de $800k), Grupo B (N=800) recupera 61% ($488k de $800k). Diferencia: +11pp. ¿Es significativa? Z = (0.72 - 0.61) / √(p×(1-p)×(1/800+1/800)), donde p = (576+488)/1600 = 0.665. Z = 0.11 / 0.024 = 4.58. P-value Altamente significativo.

Para tiempo de recuperación (continua), usar t-test o Mann-Whitney U (si distribución no es normal). Para análisis de supervivencia (tiempo hasta evento), usar Kaplan-Meier curves y log-rank test. Esto es óptimo para cobranza pues maneja censura (deudores que no pagan durante el test pero podrían pagar después). La curva de Kaplan-Meier muestra % de deuda aún no recuperada en función del tiempo, permitiendo comparar visualmente A vs B.

Effect Size y Relevancia Práctica

La significancia estadística (peffect size cuantifica la magnitud del efecto. Para proporciones, usar Cohen's h o simplemente la diferencia absoluta en puntos porcentuales. Para medias, usar Cohen's d = (media_A - media_B) / desviación_estándar_pooled.

Interpretación de effect size en cobranza: Pequeño: +3-7pp recovery rate. Estadísticamente significativo pero ROI marginal. Mediano: +8-15pp recovery rate. Justifica inversión en mayoría de carteras. Grande: +16pp+ recovery rate. Transformacional, ROI masivo. En Kleva, nuestros tests A/B consistentemente muestran effect sizes grandes: promedio +15pp recovery rate, clasificado como efecto grande en literature de ciencias sociales.

Caso Real: Telecom en Argentina

Cliente de Kleva: operador telecom en Argentina con 180,000 suscriptores. Objetivo: validar impacto de voice agent versus cobranza manual en recovery rate a 60 días. Diseño: randomización estratificada de 3,200 deudores (mora 7-45 días, monto $30-400) en 3 estratos por monto. Grupo A (N=1,600): voice agent. Grupo B (N=1,600): operadores humanos (3 FTE). Duración: 8 semanas (febrero-marzo 2025).

Resultados: Recovery rate a 60 días: Grupo A 74.2% ($950k recuperados de $1.28M), Grupo B 61.8% ($790k de $1.28M). Diferencia: +12.4pp. Z-test: p

Análisis económico: el voice agent generó $160k adicionales en recovery (+12.4% sobre $1.28M) a costo incremental de $35k (plataforma + minutos de llamada), versus costo control $190k (3 FTE × 2 meses). Beneficio neto: $160k recovery incremental + $155k ahorro en operadores = $315k beneficio versus $35k costo incremental = ROI 9x en 8 semanas. El cliente decidió rollout completo a toda la base de morosidad.

Análisis de Subgrupos: Heterogeneidad de Efectos

El análisis de subgrupos identifica para qué segmentos el efecto es mayor. En el caso telecom, segmentar resultados por: Monto adeudado: $250 (+16pp). El voice agent es más efectivo en montos altos. Días de mora: 7-15 días (+18pp), 16-30 días (+12pp), 31-45 días (+8pp). Efectividad decrece con mora avanzada. Historial: primera mora (+20pp), mora recurrente (+9pp). Deudores nuevos responden mejor a automatización.

Este análisis sugiere estrategia de targeting: usar voice agent primariamente para mora temprana (0-30 días) y montos >$100, donde genera mayor impacto. Mora >60 días y montos

Caso Real: Fintech de Microcréditos en México

Cliente: fintech mexicana con cartera de $4.2M, préstamos de $150-800, mora 15-90 días. Objetivo: comparar voice agent versus SMS automatizado (control actual, no humanos) en recovery rate a 30 días. Diseño: 4,800 deudores randomizados: Grupo A (N=2,400) voice agent Kleva, Grupo B (N=2,400) SMS cada 3 días. Duración: 6 semanas (agosto-septiembre 2025).

Resultados: Recovery rate 30 días: Grupo A 68.4% ($685k de $1M), Grupo B 52.7% ($527k de $1M). Diferencia: +15.7pp, pROI 2.3x incremental.

Insight crítico: el SMS es más cost-effective por $ recuperado ($0.02 vs $0.09), pero el voice agent recupera volumen absoluto mucho mayor (+$158k vs baseline). La decisión óptima no es voz vs SMS binaria, sino estrategia secuencial: SMS primero (día 1-7 post-mora, costo bajo), voice agent para no-respondedores (día 8+, costo justificado por mayor recovery). Implementación de esta estrategia combinada post-test generó recovery rate de 76% (mejor que cualquiera solo) a costo optimizado.

Tests Multivariados y Optimización Continua

Más allá de A/B simple (una variable), los tests multivariados optimizan múltiples variables simultáneamente. Ejemplo: probar combinaciones de (1) Frecuencia de contacto (cada 3 días vs cada 5 días), (2) Horario (mañana vs tarde vs noche), (3) Oferta (descuento 10% vs plan de pago). Esto genera 2×3×2 = 12 variantes. Un test multivariado asigna aleatoriamente deudores a cada combinación, identificando la óptima.

El desafío es tamaño de muestra: con 12 variantes, necesitas N suficiente en cada celda para detectar diferencias. Si necesitas 500 deudores por variante, el test requiere 6,000 deudores totales. Alternativa: bandits multi-armed (MAB) que adaptan dinámicamente la asignación: variantes que performan bien reciben más tráfico, variantes malas menos. Esto maximiza el valor durante el experimento (no solo post-experimento) pero requiere infraestructura sofisticada.

Optimización Continua: Testing Always-On

En Kleva, operamos testing always-on: siempre hay 10-20% del tráfico en experimentación de nuevas estrategias (variaciones de script, timing, ofertas), mientras 80-90% reciben la estrategia best-known-method. Los aprendizajes de experimentos se incorporan al método estándar mensualmente. Esto genera mejora continua: recovery rate promedio de clientes mejora 1-2pp cada trimestre sin cambios en costo.

El framework de testing continuo: Semana 1-4: test A/B de hipótesis nueva (ejemplo: ofrecer cambio de fecha de pago vs no ofrecer). Semana 5: análisis de resultados, decisión de adopción. Semana 6-8: rollout gradual de la estrategia ganadora (20% → 50% → 100%). Semana 9-12: monitoreo de métricas, inicio de siguiente test. Este ciclo perpetuo de experimentación es cómo logramos 73% de recovery rate y 94% de first-call resolution, constantemente optimizando basados en data.

Errores Comunes y Cómo Evitarlos

Los errores comunes en testing A/B de cobranza: (1) Peeking: revisar resultados diariamente y terminar el test en cuanto se ve significancia. Esto infla tasa de falsos positivos. Solución: pre-definir duración del test (ej: 8 semanas) y analizar solo al final. Si necesitas monitoreo intermedio, usar sequential testing con ajustes de Bonferroni. (2) P-hacking: probar múltiples métricas y reportar solo la que muestra efecto. Solución: pre-registrar métrica primaria antes de iniciar.

(3) Muestra muy pequeña: correr test con 50 deudores por grupo, no alcanzar significancia, concluir "no hay efecto". Solución: hacer power analysis pre-test para determinar N necesario. (4) Ignorar stratificación: randomizar sin balancear variables clave, generar grupos desbalanceados. Solución: randomización estratificada o, post-randomización, verificar balance y ajustar con regresión. (5) Contaminación no detectada: operadores del control aprenden del tratamiento, diluyendo el efecto. Solución: cluster randomization o monitoreo de spillover.

Documentación y Reproducibilidad

Todo test A/B debe documentarse rigurosamente: (1) Pre-registro: documento antes de iniciar el test especificando hipótesis, métrica primaria, tamaño de muestra, duración. (2) Bitácora operativa: eventos durante el test (caída de sistema, cambios en proceso, anomalías). (3) Datos raw: dataset completo con asignación de grupo, outcomes, variables de control. (4) Script de análisis: código (R, Python) que genera los resultados reportados, permitiendo reproducción.

La documentación permite: auditoría interna (verificar que el test fue riguroso), aprendizaje organizacional (futuros equipos replican metodología), y compliance (demostrar a reguladores que decisiones están basadas en evidencia, no intuición). En Kleva, mantenemos repositorio de todos los A/B tests ejecutados con clientes, generando biblioteca de conocimiento que informa nuevas implementaciones.

Integración de Resultados en Decisiones de Negocio

Los resultados del A/B test deben traducirse a recomendaciones accionables. Template de reporte: Resumen ejecutivo: "El voice agent aumentó recovery rate en 15.7pp (68.4% vs 52.7%, pAnálisis de subgrupos: "Efecto mayor en mora temprana (0-30 días: +18pp) versus tardía (60-90 días: +9pp). Priorizar voice agent para mora temprana".

Sensibilidad económica: "Si el recovery incremental es solo +10pp (escenario conservador) versus +15.7pp observado, el ROI sigue siendo positivo (4.2x)". Riesgos y mitigaciones: "Riesgo de contaminación si operadores humanos aprenden del voice agent. Mitigación: capacitar operadores en estrategias del voice agent para elevar baseline". Roadmap de implementación: "Semana 1-2: rollout a 50% de mora 0-30 días. Semana 3-4: expansión a 100%. Semana 5-8: expansión a mora 31-60 días. Monitoreo continuo de métricas".

Iteración Post-Rollout

El testing no termina con el rollout. Implementar monitoreo continuo de las métricas key: ¿el recovery rate se mantiene en 68% o degrada con el tiempo? La degradación puede indicar: (1) Novedad wear-off: deudores se acostumbran al voice agent, responden menos. (2) Shift en composición: los deudores "fáciles" ya pagaron, quedan solo los difíciles. (3) Cambios externos: crisis económica reduce capacidad de pago general.

Si se detecta degradación, iterar: test nuevas estrategias (diferentes scripts, ofertas más agresivas, timing distinto) versus el nuevo baseline. En Kleva, esto es parte de nuestro servicio: monitoreo mensual de métricas de clientes, identificación de degradaciones, y ejecución de tests de optimización. Un cliente de utilities en Chile vio recovery rate caer de 72% (mes 3 post-rollout) a 68% (mes 9). Test A/B de nuevo script más empático recuperó performance a 71%, demostrando valor de optimización continua.

Talk to a human

No bots, no endless forms. Fill in your details and someone from our team will reach out.

Your information is secure and will only be used for scheduling purposes

Reach us out

Reach out directly to our team*

Email hi@kleva.co
WhatsApp +1 704-816-9059
Office Miami, Florida

Talk to a human

No bots, no endless forms.

Testing A/B de Estrategias de Cobranza con IA vs Control: Metodología y Resultados 2026

Testing A/B de Estrategias de Cobranza con IA vs Control: Metodología y Resultados 2026

Fundamentos de Testing A/B en Cobranza

Power Analysis: Determinando Tamaño de Muestra

Diseño Experimental: Estratificación y Balanceo

Contaminación y Spillovers

Métricas de Éxito y Definiciones Operacionales

Análisis Estadístico: Significancia y Effect Size

Effect Size y Relevancia Práctica

Caso Real: Telecom en Argentina

Análisis de Subgrupos: Heterogeneidad de Efectos

Caso Real: Fintech de Microcréditos en México

Tests Multivariados y Optimización Continua

Optimización Continua: Testing Always-On

Errores Comunes y Cómo Evitarlos

Documentación y Reproducibilidad

Integración de Resultados en Decisiones de Negocio

Iteración Post-Rollout

Stop losing money oncollections