Reach us out
Reach out directly to our team*
- Email hi@kleva.co
- WhatsApp +1 704-816-9059
- Office Miami, Florida
Guía técnica para implementar detección de fraude en promesas de pago usando machine learning, cubriendo features, modelos, deployment y optimización de resultados.
May 18, 2026 14 min read
|La detección de fraude en promesas de pago representa uno de los problemas más costosos en cobranza automatizada. Entre 20-40% de promesas de pago nunca se materializan, representando esfuerzo desperdiciado y oportunidad perdida de aplicar estrategias alternativas. Machine learning ofrece capacidad de predecir con 85%+ de accuracy qué promesas son genuinas vs intentos de "patear el problema" sin intención real de pago.
Plataformas procesando 900,000+ minutos mensuales y alcanzando 73% de tasa de éxito utilizan modelos ML sofisticados para priorizar seguimiento de promesas con alta probabilidad de cumplimiento y re-enrutar promesas sospechosas a estrategias más agresivas. Esta guía cubre implementación técnica completa de detección de fraude con machine learning.
"Strategic defaulters": Deudores con capacidad de pago que conscientemente prometen para ganar tiempo sin intención de cumplir. Típicamente hacen múltiples promesas consecutivas, cada una "comprando" 7-15 días adicionales.
"Optimistas irreales": Deudores que genuinamente quieren pagar pero carecen de capacidad financiera. Prometen basándose en ingresos esperados ("me van a pagar el viernes") que no se materializan. No es fraude malicioso pero resultado es idéntico.
"Evasores seriales": Deudores que han desarrollado patrón de prometer-incumplir-prometer en múltiples obligaciones. Historial de comportamiento predice futura falta de cumplimiento.
"Confusos desorganizados": Deudores que prometen sin verificar calendario, cuentas bancarias, o capacidad real. Olvidan la promesa o descubren que no pueden cumplir solo cuando llega la fecha.
Promesas fraudulentas tienen múltiples costos:
Oportunidad perdida: Tiempo de cobradores (humanos o voice agents) gastado en seguimiento de promesa que no se cumplirá. Ese tiempo podría aplicarse a cuentas con mayor probabilidad de pago.
Retraso en escalamiento: Si se espera fecha de promesa antes de escalar a estrategia más agresiva, promesas fraudulentas retrasan acciones efectivas 1-3 semanas. En mora, tiempo es dinero.
Deterioro de cuenta: Mientras se espera promesa incumplida, deuda envejece, aumentan intereses, disminuye probabilidad de recuperación total.
Costos operacionales: Llamadas de seguimiento, envío de recordatorios, procesamiento manual de promesas incumplidas.
Reducir tasa de promesas fraudulentas de 35% a 15% puede mejorar recuperación neta 20-30% y reducir costos operacionales 15-25%.
El predictor más fuerte de comportamiento futuro es comportamiento pasado:
Promesas previas incumplidas: Número de promesas que este deudor ha hecho y no cumplido en esta cuenta o cuentas anteriores. Score de 0 (nunca ha incumplido) a 5+ (evasor serial).
Ratio cumplimiento/promesas: De últimas 10 promesas, cuántas cumplió. Deudor con 8/10 es más confiable que uno con 2/10.
Tiempo promedio de retraso: Cuando incumple promesas, ¿cuántos días tarda en eventualmente pagar? Distribución puede identificar patrones (ej: siempre paga 30 días después de prometer 7).
Patrón de contacto: ¿Responde fácilmente a llamadas o requiere 10+ intentos? Evasores difíciles de contactar probablemente también evadirán promesas.
Monto vs capacidad de pago estimada: Si promete pagar $500 pero su perfil sugiere capacidad de $100-200, es sospechoso. Requiere modelo de capacidad de pago (scoring).
Plazo de la promesa: Promesas para "mañana" o "pasado mañana" tienen mayor tasa de cumplimiento que "en 15 días". Promesas muy lejanas pueden ser evasión.
Especificidad: "Voy a pagar el martes 15 a las 10am" es más confiable que "pago la próxima semana". NLP puede extraer nivel de especificidad.
Método de pago comprometido: "Voy al banco a depositar" vs "pago online" vs "no sé cómo". Compromisos específicos con fricción (ir al banco) paradójicamente más confiables que opciones fáciles sin compromiso claro.
Condicionantes: "Pago si me depositan el sueldo" vs "pago definitivamente". Promesas con condiciones tienen menor probabilidad de cumplimiento.
Análisis de la conversación que llevó a la promesa revela señales sutiles:
Sentiment analysis: Tono del deudor durante promesa. Ansioso/preocupado sugiere intención genuina. Indiferente/irritado sugiere querer terminar llamada rápido.
Duración de conversación: Promesas hechas después de 3+ minutos de conversación tienen mayor tasa de cumplimiento que promesas en
Objeciones antes de promesa: Número de excusas/objeciones antes de comprometerse. Muchas objeciones pueden indicar falta de convicción.
Palabras de vacilación: "Tal vez", "creo que", "voy a tratar", "no estoy seguro pero" — lenguaje que indica falta de certeza.
Cambios de fecha: Si durante conversación el deudor cambia fecha de promesa 2-3 veces, indica que está "negociando" sin capacidad real.
Edad de la deuda: Deudas en mora 120+ días tienen menor probabilidad de promesas cumplidas que mora reciente (30-60 días). El problema está más arraigado.
Monto adeudado: Relación no-lineal. Deudas muy pequeñas ($5000) pueden ser imposibles de cumplir.
Segmento de cliente: Clientes premium/VIP tienen mayor tasa de cumplimiento (reputación importa). Clientes de bajo valor menos.
Industria/tipo de deuda: Telecomunicaciones vs préstamo personal vs tarjeta de crédito. Patrones difieren.
Geografía: Tasas de cumplimiento varían por país, región, incluso ciudad. Puede reflejar cultura de pago local o condiciones económicas regionales.
Día de la semana de promesa: Promesas para lunes tienen diferente tasa de cumplimiento que promesas para viernes. Fin de mes típicamente mejor (cuando llegan salarios).
Tiempo hasta fecha de promesa: 1-3 días óptimo. 10 días demasiado lejano (cambiarán circunstancias).
Hora de la llamada: Promesas hechas en llamadas nocturnas (18:00-20:00) cuando deudor está cansado pueden ser menos confiables que llamadas de mañana.
Estacionalidad: Enero (post-fiestas, finanzas apretadas) vs julio (medio de año, más estable). Diciembre (aguinaldos) vs otros meses.
Tipo: Clasificación binaria. Cada promesa de pago se clasifica como "cumplirá" (1) o "no cumplirá" (0).
Alternativa: Regresión para predecir probabilidad de cumplimiento (0.0 a 1.0). Más flexible, permite umbrales ajustables.
Labels: Promesa se marca como "cumplida" si pago se recibe dentro de window (típicamente +2 días de fecha prometida). "Incumplida" si pasan 5+ días sin pago.
Class imbalance: Si 65% de promesas se cumplen y 35% no, hay desbalance moderado. Requiere técnicas de balanceo (SMOTE, class weights) para evitar que modelo siempre prediga clase mayoritaria.
Opciones principales para clasificación de fraude:
Ventajas: Excelente performance en datos tabulares, maneja features numéricos y categóricos, robusto a outliers, interpretable vía feature importance.
Desventajas: Requiere feature engineering manual, puede overfit con hiperparámetros mal configurados.
Uso típico: Estado del arte para este tipo de problema. XGBoost o LightGBM son baseline sólido.
Ventajas: Simple, robusto, menor overfitting que árboles individuales, interpretable.
Desventajas: Típicamente 2-5% menos accurate que gradient boosting en este dominio.
Uso típico: Baseline rápido o cuando interpretabilidad extrema es crítica.
Ventajas: Pueden aprender interacciones complejas, especialmente útiles si se incluyen features de NLP (embeddings de conversación).
Desventajas: Requieren más datos, menos interpretables, más difíciles de tune.
Uso típico: Cuando dataset es muy grande (millones de promesas) y se incorporan features de texto/audio complejos.
Ventajas: Extremadamente interpretable (coeficientes = importancia de features), rápido, baseline sólido.
Desventajas: Asume relaciones lineales, típicamente 10-15% menos accurate que métodos sofisticados.
Uso típico: Baseline inicial, o cuando regulación requiere explicabilidad total de decisiones.
Para plataformas procesando 900,000+ minutos mensuales, el approach típico es: XGBoost/LightGBM como modelo principal, con ensemble que incluye red neuronal para features de NLP, y logistic regression como fallback interpretable.
1. Extracción de features: De base de datos de interacciones, extraer todos los features descritos anteriormente. Resultado: tabla con 1 fila por promesa, 30-100 columnas de features.
2. Limpieza y transformación:
3. Train/validation/test split: 70/15/15 típico. Importante: split temporal (entrenar con datos hasta mes X, validar con mes X+1, test con X+2) para simular uso real.
4. Balanceo de clases: Si imbalance >60/40, aplicar SMOTE (genera ejemplos sintéticos de clase minoritaria) o ajustar class weights en algoritmo.
5. Entrenamiento con cross-validation: 5-fold CV en training set para encontrar mejores hiperparámetros. GridSearch o Bayesian Optimization.
6. Evaluación en validation set: Ajustar threshold de decisión para optimizar métrica de negocio (no solo accuracy).
7. Test final: Evaluar en test set nunca visto. Si performance es significativamente menor que validation, hay overfitting.
Accuracy: % de predicciones correctas. Útil pero engañoso con class imbalance. Si 65% de promesas se cumplen, modelo que siempre predice "cumplirá" tiene 65% accuracy sin aprender nada.
Precision: De promesas que modelo predice cumplirán, qué % efectivamente cumplen. Alta precision = pocas falsas alarmas.
Recall: De promesas que efectivamente cumplen, qué % el modelo identifica. Alto recall = no se pierden promesas genuinas.
F1 Score: Media armónica de precision y recall. Balancea ambos. Target típico: F1 > 0.80.
AUC-ROC: Área bajo curva ROC. Mide capacidad del modelo de separar clases. AUC > 0.85 es excelente para este problema.
AUC-PR: Área bajo curva Precision-Recall. Más informativa que ROC con class imbalance.
Las métricas técnicas no capturan impacto financiero. Definir métricas custom:
Costo de False Positive: Predecir que promesa es fraude cuando es genuina. Costo = oportunidad perdida de recuperación + costo de estrategia alternativa aplicada innecesariamente. Estimado: $15-30 USD por FP.
Costo de False Negative: Predecir que promesa es genuina cuando es fraude. Costo = tiempo de seguimiento desperdiciado + retraso en escalamiento + deterioro de cuenta. Estimado: $20-50 USD por FN.
Savings vs baseline: Comparar estrategia con modelo ML vs estrategia sin modelo (tratar todas las promesas igual). Calcular ahorro neto por 1000 promesas.
Lift en tasa de recuperación: % de mejora en monto recuperado total usando modelo vs sin modelo. Target: 15-25% lift.
Para 1000 promesas con modelo bien calibrado:
Predicción: CumpliráPredicción: No Cumplirá
Realidad: Cumplió550 (True Positive)100 (False Negative)
Realidad: No Cumplió50 (False Positive)300 (True Negative)
Precision: 550/(550+50) = 91.7% - De promesas que modelo dice cumplirán, 92% efectivamente cumplen.
Recall: 550/(550+100) = 84.6% - El modelo identifica 85% de promesas genuinas.
Specificity: 300/(300+50) = 85.7% - El modelo identifica 86% de promesas fraudulentas.
El modelo ML debe integrarse en flujo operacional:
Scoring en tiempo real: Cuando voice agent o cobrador humano registra promesa de pago, sistema invoca modelo ML. Latencia
Output: Probabilidad de cumplimiento (0.0-1.0) + clasificación binaria (basada en threshold) + confidence score.
Enrutamiento automático:
Probabilidad
Override humano: Cobradores deben poder override predicción del modelo con justificación. Estos overrides se analizan para mejorar modelo.
Model serving: Opciones incluyen:
API endpoint: Modelo desplegado como microservicio (FastAPI, Flask) que recibe features y devuelve predicción. Latencia
Para operaciones procesando 900,000+ minutos mensuales, API endpoint con auto-scaling es approach más común.
Modelos ML degradan con tiempo (concept drift). Monitorear continuamente:
Accuracy en producción: Comparar predicciones vs outcomes reales semanalmente. Si accuracy cae >5 puntos, investigar.
Feature drift: Distribución de features cambia (ej: mora promedio aumenta por crisis económica). El modelo puede no generalizar bien a nuevas distribuciones.
Prediction drift: Distribución de predicciones cambia (ej: modelo empieza a predecir "fraude" en 60% de casos vs 35% histórico). Indica desajuste.
Alertas automáticas: Si cualquier métrica clave degrada >X%, notificar a equipo ML para investigación.
Frecuencia: Mensual o trimestral típico. Más frecuente si hay concept drift acelerado.
Dataset incremental: Agregar nuevos datos (promesas últimos 1-3 meses con outcomes conocidos) al dataset de entrenamiento. Mantener rolling window (últimos 12-24 meses) para evitar que dataset crezca indefinidamente.
A/B testing de nueva versión: No reemplazar modelo en producción inmediatamente. Hacer A/B test: 10% de tráfico a modelo nuevo, 90% a actual. Si nuevo modelo mejora métricas consistentemente por 1-2 semanas, hacer rollout completo.
En lugar de modelo único, entrenar modelos separados por segmento:
Ventaja: Cada modelo ultra-especializado, mayor accuracy. Desventaja: Más modelos que mantener, requiere datos suficientes por segmento.
Para cumplimiento regulatorio o auditoría interna, explicar por qué modelo clasificó promesa como fraude:
SHAP (SHapley Additive exPlanations): Técnica que descompone predicción en contribución de cada feature.
Ejemplo: Promesa clasificada como 85% probabilidad de fraude.
Esto permite auditar decisiones, identificar posibles bias, y construir confianza en el modelo.
Mejorar modelo continuamente priorizando anotación humana de casos difíciles:
Incertidumbre: Cuando modelo predice probabilidad cerca de 50% (máxima incertidumbre), flag para revisión humana.
Anotación: Cobrador experto revisa conversación y hace predicción. Esta predicción se compara con outcome real eventualmente.
Re-entrenamiento: Casos donde experto y modelo difieren se agregan al dataset con mayor peso. Modelo aprende de sus errores.
Entrenar modelo que predice múltiples outcomes simultáneamente:
Ventaja: Tareas relacionadas se benefician mutuamente (transferencia de aprendizaje). Modelo aprende representaciones más ricas.
Modelos ML pueden aprender y amplificar sesgos de datos:
Bias demográfico: Si modelo usa proxy de etnia (apellidos, geografía), puede discriminar injustamente. Auditar para detectar disparate impact.
Bias de confirmación: Si modelo marca segmento como "alto fraude", cobradores pueden darles menos oportunidades, profetizando auto-cumplida.
Mitigación:
Regulaciones como GDPR, LGPD requieren que decisiones automatizadas sean explicables:
Derecho a explicación: Deudor puede solicitar saber por qué fue clasificado de cierta manera. SHAP values permiten proporcionar explicación.
Human in the loop: Para decisiones críticas (ej: denegar reestructuración basándose en predicción de fraude), requerir aprobación humana.
Features de modelo pueden incluir información sensible:
Minimización: Solo usar features necesarios para predicción. No incluir datos irrelevantes.
Anonimización en entrenamiento: Remover identificadores personales de dataset de entrenamiento cuando posible.
Encriptación: Features y predicciones en tránsito y en reposo deben estar encriptados (AES-256).
Plataformas con cero violaciones regulatorias implementan estos controles nativamente en pipelines ML.
Para operación procesando 100,000 promesas/año:
Sin modelo ML:
Con modelo ML (85% accuracy):
ROI: 594% en año 1, >2900% subsecuente.
Plataformas que han implementado detección de fraude ML reportan:
La detección de fraude en promesas de pago con machine learning representa una de las aplicaciones de ML con mayor ROI en cobranza automatizada. Al identificar correctamente qué promesas son genuinas vs evasión, permite:
Plataformas como Kleva integran detección de fraude ML nativamente, contribuyendo a alcanzar 73% de tasa de éxito y 94% de resolución en primera llamada procesando 900,000+ minutos mensuales en 7 países LATAM.
Para CFOs y directores de cobranza, la pregunta no es si implementar ML para detección de fraude, sino cuándo. Con datasets de 10,000+ promesas históricas, modelos pueden entrenarse en 4-8 semanas y generar ROI positivo desde primer mes de operación.
No bots, no endless forms. Fill in your details and someone from our team will reach out.
Reach out directly to our team*
No bots, no endless forms.