Cómo evaluar modelos de machine learning

Cursos Empresas Blog Live Conf Precios

Contenido del curso

Fundamentos y Estrategía

Cultura y Gobernanza

Herramientas y Roles

Análisis de Negocio

Machine Learning y Operación

Tomar examen

Cómo evaluar modelos de machine learning

Resumen

El machine learning suena técnico, pero en el fondo se trata de modelos que aprenden de los datos para ayudarte a tomar mejores decisiones. Aquí no vas a programar, vas a entender el ciclo de vida de un proyecto, cómo se evalúan los resultados y cuándo realmente sirve para el negocio.

¿Qué es machine learning y por qué importa en los negocios?

Es un enfoque dentro de la inteligencia artificial donde, en lugar de darle instrucciones a una computadora, le das datos y ella aprende patrones por su cuenta.

Imagina que le entregas información de tus clientes actuales: edad, uso, historial de compras. El modelo aprende a predecir quién tiene más probabilidad de abandonar el servicio. Lo mismo aplica para recomendaciones, detección de fraude o precios dinámicos. Si tienes suficiente información y una relación entre variables, se puede entrenar un modelo que prediga o clasifique.

¿Qué es machine learning en términos simples? Es una rama de la inteligencia artificial donde un modelo aprende de datos históricos para predecir o clasificar resultados nuevos, sin que tú le programes reglas explícitas.

¿Cuáles son los tipos de machine learning que debes conocer?

No todos los modelos aprenden igual. Hay tres grandes familias y cada una resuelve un problema distinto.

Aprendizaje supervisado, no supervisado y por refuerzo

Aprendizaje supervisado: aprende con datos donde ya conoces la respuesta. Sabes quién se fue y quién se quedó, y el modelo aprende a diferenciar.
Aprendizaje no supervisado: trabaja sin etiquetas. Explora y agrupa. Útil cuando quieres segmentar clientes según comportamiento de compra sin categorías predefinidas.
Aprendizaje por refuerzo: un agente toma decisiones y aprende por prueba y error. Pensemos en robots que aprenden a caminar o sistemas que dominan videojuegos [02:00].

Cada tipo se conecta con un problema de negocio distinto. Si quieres detectar churn, vas con supervisado. Si quieres descubrir segmentos ocultos, no supervisado.

¿Cómo funciona un proyecto de machine learning paso a paso?

No es magia, es proceso. Y entenderlo te ayuda a conversar con tu equipo de datos sin perderte.

Ingeniería de características o feature engineering: defines qué variables alimentan al modelo, como tipo de plan del cliente, ciudad o número de reclamos.
Entrenamiento: el modelo aprende de los datos donde ya tienes la respuesta, por ejemplo si el cliente se fue o no.
Validación: pruebas el modelo con datos distintos para ver si generaliza o si solo está memorizando.
Despliegue: lo pones en producción para que prediga en tiempo real o en lotes [03:10].

Saltarte un paso te lleva a modelos que parecen brillantes en pruebas y fracasan en la realidad.

¿Cómo saber si un modelo de machine learning funciona bien?

Decir "el modelo acierta el 85% de las veces" no es suficiente. Cada métrica responde una pregunta distinta y se complementan entre sí.

Accuracy, precisión, recall y AUC explicados

Accuracy: de todas las predicciones, cuántas veces acertó.
Precisión: de lo que predijo como positivo, cuántos eran realmente positivos. Si dijo que un cliente se iba, ¿en verdad se fue?
Recall: de todos los casos positivos reales, cuántos logró detectar el modelo.
AUC o área bajo la curva: mide la capacidad del modelo de distinguir entre clases, ideal para clasificación binaria [04:05].

Elegir la métrica correcta depende del costo de equivocarse. No es lo mismo fallar al detectar un fraude que fallar al recomendar una película.

¿Qué es mejor, precisión o recall? Depende del problema. Usa recall cuando dejar pasar un caso positivo es caro, como en fraude o churn. Usa precisión cuando intervenir por error sale caro, como dar descuentos innecesarios.

¿Qué es el overfitting y por qué arruina tus decisiones?

El overfitting o sobreajuste ocurre cuando el modelo se aprende de memoria los datos del pasado sin entender el patrón general.

Funciona perfecto con datos viejos y falla con datos nuevos. ¿El resultado? Decisiones basadas en predicciones que no se cumplen. Y eso se nota un montón: promociones mal asignadas, campañas que no retienen y recursos desperdiciados [04:50].

Un modelo sobreajustado es como ese estudiante que memorizó las respuestas del examen pasado y se congela cuando cambian las preguntas.

¿Cómo evaluar un modelo de predicción de churn en tu negocio?

Imagina que estás perdiendo clientes. Tu equipo de ciencia de datos entrena un modelo con datos históricos y te dice: este modelo predice qué clientes tienen alta probabilidad de abandonar el servicio. Tu trabajo es evaluar si sirve.

Para eso, responde:

¿El modelo es supervisado o no supervisado?.
¿Qué métrica priorizas: accuracy, precisión o recall?.
¿Qué decisión tomarías con los clientes que el modelo detectó?.

Recuerda que el recall responde cuántos de los que se iban realmente lograste detectar. Y la precisión te dice si vale la pena intervenir o si estás gastando recursos en clientes que no se iban a ir [05:30].

Este ejercicio no te entrena para construir modelos, te entrena para usarlos con criterio de negocio y no dejarte llevar solo por los números. Déjame tu respuesta en los comentarios.

Carlos Mario Agudelo Castrillon

Estudiante

Evaluación de un modelo de churn

Contexto del negocio:

Tenemos 100 clientes segmentados por RFM. Detectamos que el churn (abandono) es mayor en segmentos como "En riesgo" e "Inactivos". El equipo técnico entrenó un modelo ML para predecir qué clientes específicos abandonarán en los próximos 30 días.

¿Es supervisado o no?

Sí, es un modelo supervisado.

Justificación:

Criterio Explicación

Hay etiquetas históricas

Sabemos qué clientes abandonaron en el pasado (variable objetivo: abandono = 1 si no compraron en últimos 90 días, 0 si siguen activos).

Se entrena con ejemplos

El modelo aprende de datos pasados: "este cliente con R=2, F=1, M=1 abandonó" vs "este con R=5, F=5, M=4 se quedó".

Predice una categoría

La salida es binaria: ¿abandona? (Sí/No).

Algoritmos típicos aplicables

Regresión logística, Random Forest, XGBoost, Árboles de decisión (todos supervisados).

🧠 Conclusión:

"No es un problema de clustering (no supervisado) porque no queremos agrupar clientes sin saber. Queremos predecir, basados en el pasado, quién se irá. Eso es supervisado."

¿Qué métrica priorizarías?

Respuesta corta: RECALL (Sensibilidad)

Comparativa de métricas:

Métrica Fórmula ¿Qué mide?¿Cuándo usarla?

Accuracy

(VP + VN) / Total

Aciertos totales

Cuando las clases están balanceadas

Precision

VP / (VP + FP)

De los que predije como churn, ¿cuántos realmente lo son?

Cuando el costo de molestar a un cliente falso es alto

Recall

VP / (VP + FN)

De los que realmente se fueron, ¿cuántos los detecté?

Cuando es más caro no detectar un churn que equivocarme

Decisión: Priorizar RECALL

Justificación profunda:

En nuestro negocio:

Tipo de error Consecuencia Costo estimado

Falso positivo (FP)

(Predije churn, pero no se fue)

Le envío un descuento que quizás no necesitaba. "Molesto" al cliente.

Bajo (5–5–10 en descuento + un email)

Falso negativo (FN)

(No predije churn, pero se fue)

El cliente se va sin que hagamos nada. Lo perdemos para siempre.

Muy alto (45CAC+45CAC+380 LTV perdido = $425 por cliente)

Impacto numérico (simulado con nuestros 100 clientes):

Escenario Accuracy Precision RecallConsecuencia

Modelo con alta Precision (98%)

85%

98%

45%

Detecta solo 9 de 20 churn reales. Pierdo 11 clientes → -$4,675

Modelo con alta Recall (90%)

82%

70%

90%

Detecta 18 de 20 churn reales. Salvo 16 → +$6,080

"Un recall alto nos permite actuar a tiempo. Un falso positivo solo nos cuesta un café. Un falso negativo nos cuesta un cliente."

¿Qué decisión tomarías con los clientes detectados?Premisa:

El modelo detecta 20 clientes con alta probabilidad de churn (score > 0.7) en los próximos 30 días.

Acción por segmento detectado:

Basado en el RFM que ya tenemos, clasifico a los 20 detectados:

Perfil detectado Cantidad Estrategia Táctica específica Presupuesto asignado

VIP en riesgo (R bajo, pero F y M altos)

Retención VIP

Llamada personalizada del gerente + regalo sorpresa + 20% de descuento

$150 c/u

Leales enfriándose (R media, F media)

Reactivación preventiva

Email con oferta por tiempo limitado + WhatsApp con recordatorio

$30 c/u

Ocasionales con potencial (M bajo pero F reciente)

Activación

2x1 en producto que ya compró + envío gratis

$20 c/u

Inactivos crónicos (R muy alto, F baja)

Último intento

Descuento agresivo 40% + "última oportunidad" en asunto

$10 c/u (solo si sobra presupuesto)

Decisión ejecutiva final:

"Los 20 clientes detectados entran en una campaña de retención obligatoria en las próximas 48 horas. Asignamos $2,000 del presupuesto de marketing a esta acción. Medimos recuperación a 30 días. Si el recall del modelo es ≥ 80%, integramos el modelo en producción."

📊 Dashboard de seguimiento (post campaña):

KPIFórmulaMeta

Tasa de recuperación

Clientes retenidos / total detectados

≥ 50%

ROI de campaña

(Ingreso recuperado - inversión) / inversión

≥ 300%

Recall real del modelo

VP reales / (VP + FN reales)

≥ 80%

Resumen ejecutivo (para tu slide final)

text

EVALUACIÓN DEL MODELO DE CHURN
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

📌 Tipo de modelo: SUPERVISADO
   (aprende de etiquetas históricas de abandono)

📌 Métrica prioritaria: RECALL (90%)
   → Es más caro no detectar un churn que equivocarse

📌 Decisión con clientes detectados:
   → Campaña de retención obligatoria en 48h
   → Estrategia diferenciada por segmento (VIP, Leal, Ocasional, Inactivo)
   → Presupuesto: $2,000
   → Meta: recuperar ≥50% de los detectados

 Próximo paso:
   Validar recall en producción por 30 días
    Si ≥80% → integrar modelo en automatización de marketing

Aaron Mainero

Gabriel Obregón

Esteban Bastías B.

Carlos Andres Prieto Garavito

José Eder Guzmán Mendoza

IVAN CARAPIA BARAJAS

Estefany Vazquez Velasco

Jackssuriss Tatiana Herrera Florez

Gabriela Parada Puig

Felipe Martínez

Jhon Freyman Ramírez Cortés

Alejandro Mayorga

Gilberto Barrón López

Hansel Alejandro Tapias Chaparro

Eduardo Montenegro

Fundamentos y Estrategía

Ciencia de datos para decisiones de negocio

Diferencias entre Business Intelligence, Data Science y Machine Learning

Datos como ventaja competitiva en negocios

Os 5 V do Big Data explicados

De datos crudos a decisiones con KPI Tree

Diferencias entre BI, Analytics y Big Data para empresas

Cultura y Gobernanza

Cómo construir una cultura orientada al dato en tu organización

Calidad y gobernanza de datos sin caos

Minimización y consentimiento en datos personales

Sesgos invisibles en datos y sistemas de inteligencia artificial

Herramientas y Roles

Roles y RACI en equipos de datos

SQL, Python o R: cuál usar y cuándo

Cómo leer SQL sin saber programar

SQL para decisiones de ventas reales

Análisis de Negocio

Cómo contar historias con datos de negocio

Hipótesis SMART para validar decisiones con datos

Segmentación RFM para retener clientes

Minería de texto y análisis de sentimiento

Análisis de quejas con texto, lugar y fecha

Machine Learning y Operación

Cómo evaluar modelos de machine learning

Modelos en producción: MLOps explicado

Resumen