Reach us out
Reach out directly to our team*
- Email hi@kleva.co
- WhatsApp +1 704-816-9059
- Office Miami, Florida
Guía paso a paso para entrenar voice agents específicamente para el mercado colombiano de cobranza. Incluye dialectos regionales, regulaciones SIC, modismos locales y mejores prácticas validadas.
Apr 30, 2026 14 min read
|Colombia presenta características únicas que hacen del entrenamiento de voice agents para cobranza un desafío técnico y cultural específico. El país tiene diversidad dialectal significativa (paisa, costeño, rolo, caleño, santandereano), regulaciones particulares de la Superintendencia de Industria y Comercio (SIC), modismos y expresiones locales que impactan la comunicación efectiva, y sensibilidades culturales específicas en torno a deuda y dinero.
Un voice agent entrenado genéricamente en español latinoamericano neutro tendrá resultados sub-óptimos en Colombia. La diferencia entre "¿Me regala su nombre?" (colombiano) y "¿Cuál es su nombre?" (neutro) puede parecer trivial, pero impacta significativamente la percepción de cortesía y profesionalismo. Similarmente, no entender "listo", "chévere", "ya" como confirmaciones puede generar confusión en la conversación.
Esta guía presenta el proceso completo de entrenamiento de voice agents específicamente para el mercado colombiano de cobranza, basado en implementaciones reales que han procesado más de 900,000 minutos mensuales en LATAM incluyendo Colombia, con 73% de tasa de éxito y 0 violaciones regulatorias.
El entrenamiento efectivo de un voice agent comienza con datos de calidad. Para Colombia, se necesitan grabaciones de llamadas reales de cobranza realizadas por agentes humanos colombianos a deudores colombianos. El volumen mínimo recomendado es 200-500 llamadas completas que cubran diferentes escenarios: mora temprana (recordatorio simple), mora media (negociación de plan de pago), objeciones comunes ("no tengo plata ahorita", "le pago la otra semana"), confirmación de pago, y actualización de datos de contacto.
Las grabaciones deben incluir diversidad dialectal representativa. Colombia tiene variaciones regionales significativas, y el voice agent debe entender y responder apropiadamente a todas ellas. Debe incluir acento paisa (Medellín, Antioquia - uso frecuente de "pues", "vea", "parce"), acento costeño (Barranquilla, Cartagena - omisión de "s" final, ritmo más rápido), acento rolo (Bogotá - español más neutro pero con modismos específicos), acento caleño (Cali, Valle - entonación distintiva), y acento santandereano (Bucaramanga - voseo ocasional).
Si la empresa no tiene grabaciones históricas suficientes (startup o nueva operación en Colombia), puede complementar con grabaciones sintéticas creando scripts de conversaciones típicas, contratar actores colombianos de diferentes regiones para grabar escenarios, o trabajar con Kleva que ya cuenta con datasets de entrenamiento específicos para Colombia validados en implementaciones reales.
Las grabaciones deben transcribirse con precisión, preservando los modismos y dialectos exactos (no "corregir" a español neutro). Cada conversación debe etiquetarse con intención del cliente (promesa de pago, objeción, disputa, solicitud de información, opt-out), resultado de la llamada (pago inmediato, promesa de pago, no compromiso, escalamiento), y elementos de cumplimiento (palabras prohibidas detectadas, solicitudes de no contacto, horario de la llamada).
Este etiquetado permite al modelo de IA aprender no solo qué se dice, sino qué significa y qué resultado genera. Por ejemplo, aprender que "ya, listo, le consigno mañana" es una promesa de pago con 65% de probabilidad de cumplimiento, mientras que "llamo yo después" es evasión con 15% de probabilidad de pago.
El motor de speech-to-text del voice agent debe configurarse específicamente para Colombia. Los modelos genéricos de ASR (Automatic Speech Recognition) entrenados en español neutro tienen dificultad con ciertas características del español colombiano.
Las configuraciones específicas incluyen reconocimiento de omisión de "s" final en dialectos costeños ("do pesos" en lugar de "dos pesos", "vamo" en lugar de "vamos"), voseo en algunas regiones ("vos sabés" en lugar de "tú sabes"), aspiración de "h" inicial ("jarto" en lugar de "harto" en algunos contextos), y variaciones de velocidad (el español costeño es típicamente 15-20% más rápido que el rolo).
Kleva soporta 45 dialectos en LATAM incluyendo las variaciones regionales colombianas principales, permitiendo que el voice agent entienda correctamente independientemente de la región del deudor.
El voice agent debe entender modismos colombianos comunes en el contexto de cobranza. Algunos ejemplos críticos son "no tengo plata/platica" (no tengo dinero), "ahorita" (puede significar "ahora" o "en un rato indefinido" según contexto), "listo/dale/ya" (confirmación, acuerdo), "chévere/bacano" (está bien, de acuerdo), "regáleme" (usado como cortesía, "¿me regala su cédula?"), "me hace el favor" (¿puede...?), y "pues" (muletilla muy común en paisa, puede ignorarse en procesamiento).
El voice agent también debe poder generar respuestas usando estos modismos apropiadamente. Una respuesta como "Listo, entonces quedamos en que me consigna mañana, ¿cierto?" suena más natural y colombiana que "De acuerdo, entonces usted pagará mañana, ¿correcto?"
Colombia usa formatos específicos que el voice agent debe manejar correctamente. El punto para miles y coma para decimales ($1.500.000,50 = un millón quinientos mil pesos con cincuenta centavos), referencias a "lucas" o "palos" (coloquialismos para miles y millones), y formato de cédula de ciudadanía (ej: 1.025.874.632 con puntos separadores).
El voice agent debe poder tanto entender cuando el cliente dice "debo cincuenta lucas" (entiende $50,000 COP) como expresar montos de forma natural ("su deuda es de doscientos cincuenta mil pesos" en lugar de lectura robótica de dígitos).
Colombia tiene regulaciones específicas para cobranza que deben programarse en el voice agent como restricciones hard-coded (no negociables).
Las regulaciones clave incluyen horarios permitidos de 7:00 AM a 9:00 PM en días hábiles y fines de semana (más permisivo que algunos países LATAM), prohibición de lenguaje intimidatorio, amenazante o que afecte la dignidad del deudor, obligación de identificar la empresa y propósito de la llamada claramente, y derecho del deudor a solicitar no ser contactado (opt-out inmediato).
El voice agent debe iniciar cada llamada con protocolo de identificación estándar como "Buenos días, mi nombre es [Nombre], llamo de [Empresa] con respecto a su cuenta. ¿Hablo con [Nombre Cliente]?" y debe detectar automáticamente solicitudes de opt-out incluso en formas indirectas ("no me llamen más", "dejen de molestarme", "voy a poner una queja").
El modelo de NLP (Natural Language Processing) debe incluir lista de palabras y frases prohibidas por regulación o best practices, con mecanismo de prevención antes de emisión. Las categorías prohibidas incluyen amenazas ("vamos a embargar", "lo demandamos", "esto tiene consecuencias legales" cuando no es cierto), intimidación ("esto va a afectar su familia", "va a quedar reportado en centrales de riesgo" de forma amenazante), insultos o descalificaciones (cualquier lenguaje peyorativo), y revelación de información a terceros (si contesta alguien que no es el deudor, no revelar detalles de la deuda).
El sistema debe analizar cada respuesta generada en tiempo real antes de convertirla a voz, detectar palabras prohibidas, auto-corregirse si detecta problema, y alertar al supervisor si hay patrón de respuestas cerca del límite de lo permitido.
El voice agent debe reconocer y escalar apropiadamente situaciones que requieren sensibilidad humana. Los triggers de escalamiento incluyen mención de desempleo reciente ("me quedé sin trabajo", "me despidieron"), enfermedad o problemas de salud ("estoy enfermo", "tengo que pagar tratamiento médico"), situación de vulnerabilidad ("no tengo cómo darle de comer a mis hijos", "perdí mi vivienda"), y disputa de la deuda ("yo no debo eso", "eso ya lo pagué").
Cuando se detectan estos triggers, el voice agent debe responder con empatía básica ("Entiendo su situación, déjeme ver cómo puedo ayudarle") y escalar a agente humano con contexto completo de la conversación para manejo apropiado.
El voice agent debe estar entrenado en las objeciones más comunes específicas del contexto colombiano y cómo responder efectivamente.
Algunos ejemplos de objeciones y respuestas entrenadas son "No tengo plata ahorita" (Respuesta: "Entiendo. ¿Cuándo estaría en capacidad de hacer un abono? Podemos acordar un pago parcial para hoy y el resto en [fecha]"), "Le pago la otra semana" (Respuesta: "Perfecto, ¿qué día específico de la otra semana le queda más fácil? Quedamos el [día específico] entonces"), "Estoy sin trabajo" (Respuesta empática + escalamiento: "Lamento escuchar eso. Déjeme comunicarlo a mi supervisor para ver opciones especiales que podamos ofrecerle. Un momento por favor"), y "Eso ya lo pagué" (Validación + investigación: "Déjeme verificar. ¿Me puede indicar cuándo y por qué medio realizó el pago? Voy a revisar con contabilidad").
El entrenamiento debe incluir 50-100 variaciones de las objeciones más comunes (las mismas 5-7 objeciones representan el 80% de casos) para que el modelo aprenda a reconocerlas independientemente de la formulación exacta.
El voice agent puede negociar automáticamente planes de pago simples dentro de parámetros pre-configurados. Las capacidades de negociación incluyen ofrecer extensión de plazo (7-15 días adicionales con fee razonable), proponer plan de pagos en 2-3 cuotas para montos mayores a cierto umbral, aplicar descuentos por pronto pago si está autorizado (ej: 10% de descuento si paga hoy completo), y confirmar método de pago preferido del cliente (PSE, transferencia, efectivo en punto físico).
La lógica de negociación debe seguir árbol de decisión: si el cliente acepta pagar hoy, confirmar monto y método; si no puede pagar hoy, preguntar cuándo puede; si la fecha es aceptable (dentro de X días), confirmar compromiso; si la fecha no es aceptable, ofrecer plan de pagos o escalar a humano; y si el cliente no compromete fecha, intentar una vez más y luego escalar.
Antes de despliegue completo, ejecutar piloto controlado con 500-1,000 cuentas reales en Colombia. El diseño del piloto debe incluir grupo de test (gestionado por voice agent), grupo de control (gestionado por agentes humanos), mismo perfil de cuentas en ambos grupos (mora similar, montos similares, geografía similar), y medición de métricas clave (contactabilidad, tasa de promesa, cumplimiento de promesas, quejas o reclamos).
El piloto debe durar mínimo 30 días para capturar ciclo completo de gestión (contacto inicial + seguimiento de promesas + pago). Durante el piloto, escuchar diariamente muestra de llamadas del voice agent (mínimo 20-30 llamadas diarias), identificar errores de comprensión o generación, documentar casos edge no contemplados en entrenamiento, y ajustar modelo basado en aprendizajes.
Más allá de tasa de recuperación, medir calidad de las interacciones. Las métricas de calidad incluyen tasa de comprensión correcta (% de veces que el voice agent entendió correctamente lo que dijo el cliente - objetivo mínimo 92%), tasa de respuesta apropiada (% de veces que la respuesta fue contextualmente correcta - objetivo 88%+), escalamientos justificados (% de escalamientos a humano que efectivamente requerían humano - objetivo 80%+), y experiencia del cliente (si es posible, NPS post-interacción vía SMS - objetivo neutral o positivo).
Si el piloto no alcanza estos benchmarks, extender entrenamiento antes de escalar. Kleva ha logrado estos estándares consistentemente en Colombia como parte de sus operaciones en 7 países LATAM con 73% de tasa de éxito y 94% de resolución en primera llamada.
El entrenamiento no termina con el despliegue. Implementar sistema de mejora continua donde cada llamada del voice agent se transcribe y analiza automáticamente, errores de comprensión se detectan y agregan a dataset de re-entrenamiento, nuevas objeciones o modismos se identifican y se incorporan al modelo, y métricas de calidad se monitorean diariamente con alertas si caen bajo umbral.
El re-entrenamiento debe ocurrir mensualmente con las nuevas interacciones. Típicamente, en los primeros 3-6 meses post-despliegue, la tasa de comprensión mejora 5-10 puntos porcentuales conforme el modelo aprende de casos reales.
El voice agent debe actualizarse cuando cambian condiciones externas como nueva regulación de la SIC (actualizar restricciones), cambio en política de cobranza de la empresa (nuevos plazos, descuentos), lanzamiento de nuevos métodos de pago (PSE, billeteras digitales), y cambios en productos (nuevas tasas, condiciones).
Estas actualizaciones deben poder implementarse rápidamente (idealmente en horas, no semanas) mediante actualización de reglas de negocio sin requerir re-entrenamiento completo del modelo base.
El voice agent debe conocer y poder referenciar los métodos de pago comunes en Colombia. Los métodos principales son PSE (Pagos Seguros en Línea - transferencia bancaria electrónica), corresponsales bancarios (Efecty, Baloto, etc.), transferencia bancaria tradicional, pago en sucursales o puntos físicos, y billeteras digitales (Nequi, Daviplata, etc.).
Durante la llamada, el voice agent puede preguntar preferencia de método de pago y enviar instrucciones específicas vía SMS o email según la opción elegida. Por ejemplo, si el cliente prefiere PSE, el voice agent envía link de pago; si prefiere Efecty, envía código de pago e instrucciones.
Colombia tiene formato específico de números telefónicos que el voice agent debe validar. Los formatos son celulares: 10 dígitos comenzando con 3 (ej: 300 123 4567), fijos Bogotá: (1) + 7 dígitos (ej: 1 234 5678), y fijos otras ciudades: indicativo de ciudad + 7 dígitos (ej: Medellín (4), Cali (2)).
El sistema debe detectar números inválidos antes de intentar llamar y solicitar actualización de datos si es necesario.
Fintech con operación en Bogotá y Cundinamarca implementó voice agent entrenado específicamente con acento rolo y modismos de la región. El entrenamiento incluyó 400 grabaciones históricas de su call center anterior, configuración de dialectos específicos de Bogotá y municipios cercanos, y entrenamiento en objeciones comunes de su segmento (empleados formales de ingresos medios-bajos).
Resultados en 4 meses: tasa de comprensión del 94% (el voice agent entendió correctamente 94% de las respuestas de clientes), contactabilidad del 79% (vs 61% con call center anterior), tasa de promesa de pago del 68% sobre contactados, y 0 quejas por problemas de comprensión o comunicación inadecuada.
Telco con clientes en todo Colombia implementó voice agent con capacidad de manejar todos los dialectos regionales principales. El desafío particular era la diversidad: clientes en Medellín (paisa), Cartagena (costeño), Bogotá (rolo), Cali (caleño) y otras ciudades.
El entrenamiento incluyó 800 grabaciones balanceadas por región (200 de cada dialecto principal), configuración de ASR multi-dialecto y generación de respuestas en español colombiano neutro pero con modismos que funcionan en todas las regiones (evitar modismos muy específicos de una sola región).
Resultados en 6 meses: tasa de comprensión del 91% cross-dialecto (similar en todas las regiones), sin diferencia significativa en efectividad por región (demostró que el modelo funciona equitativamente), NPS de experiencia de cobranza de +18 (clientes reportaron que la comunicación fue clara y respetuosa), y procesamiento de 180,000 llamadas mensuales con estos resultados consistentes.
El error más común es entrenar el voice agent en español neutro latinoamericano sin adaptación específica a Colombia. Esto genera interacciones que suenan "extranjeras" o poco naturales, reduciendo confianza y efectividad. La solución es siempre usar grabaciones de colombianos hablando con colombianos para entrenamiento base, incluir modismos y expresiones locales en las respuestas generadas, y validar con usuarios colombianos reales antes de despliegue.
Colombia no es lingüísticamente homogénea. Un voice agent entrenado solo con acento rolo tendrá dificultad entendiendo a hablantes costeños o paisas. La solución es balancear dataset de entrenamiento con representación de todos los dialectos regionales donde la empresa opera, o usar modelos pre-entrenados en diversidad dialectal como los de Kleva que soportan 45 dialectos en LATAM.
Es tentador entrenar solo con llamadas donde el cliente pagó ("casos de éxito"). Pero el voice agent debe aprender también de objeciones, rechazos y casos complejos. La solución es incluir en entrenamiento casos donde el cliente dijo que no puede pagar, casos donde el cliente disputó la deuda, casos donde se escaló a humano, y casos donde el cliente pidió opt-out. El modelo debe aprender qué hacer en todas las situaciones, no solo las fáciles.
El entrenamiento de voice agents para cobranza en Colombia requiere más que traducir scripts al español. Requiere comprensión profunda de dialectos regionales, regulaciones específicas de la SIC, modismos y expresiones locales, y sensibilidades culturales del mercado colombiano. Un voice agent genérico tendrá resultados mediocres; uno específicamente entrenado para Colombia puede alcanzar 73% de tasa de éxito y 94% de resolución en primera llamada.
El proceso de entrenamiento sigue fases estructuradas desde preparación de datos locales hasta mejora continua post-despliegue, típicamente tomando 6-10 semanas para implementación completa con piloto incluido. Kleva ha ejecutado este proceso exitosamente en Colombia como parte de sus operaciones en 7 países LATAM, procesando más de 900,000 minutos mensuales con 0 violaciones regulatorias y resultados consistentemente superiores a call centers tradicionales.
Para empresas operando cobranza en Colombia, la inversión en entrenamiento específico no es opcional si se busca maximizar efectividad y compliance. La diferencia entre un voice agent genérico y uno correctamente entrenado para Colombia puede ser 20-30 puntos porcentuales en tasa de éxito, traducido directamente a millones de pesos en recuperación incremental.
No bots, no endless forms. Fill in your details and someone from our team will reach out.
Reach out directly to our team*
No bots, no endless forms.