Cómo evaluar un modelo de machine learning

Curso de Ciencia de Datos para Análisis de Negocio

Contenido del curso

No sé dónde empezar

Fundamentos y Estrategía

Cultura y Gobernanza

Herramientas y Roles

Análisis de Negocio

Machine Learning y Operación

Tomar examen

Cómo evaluar un modelo de machine learning

Resumen

El machine learning suena técnico, pero en el fondo se trata de modelos que aprenden de los datos para ayudarte a tomar mejores decisiones de negocio. Aquí no vas a programar, vas a entender el ciclo de vida de un proyecto, cómo se mide su desempeño y cuándo realmente sirve. Es una guía pensada para líderes y equipos no técnicos que necesitan leer resultados con criterio.

¿Qué es el machine learning y para qué sirve?

Es un enfoque dentro de la inteligencia artificial donde, en lugar de darle instrucciones a una computadora, le das datos y de ahí aprende patrones. Si tienes información suficiente y variables que se relacionan entre sí, puedes entrenar un modelo que prediga o clasifique.

Piensa en tus clientes actuales: edad, uso, historial de compras. Con esos datos, un modelo puede aprender quién tiene más probabilidad de abandonar el servicio. La misma lógica aplica para recomendaciones, detección de fraude o precios dinámicos.

¿Qué es machine learning en palabras simples? Es enseñarle a una computadora con ejemplos en lugar de reglas. Le muestras datos del pasado y aprende a predecir comportamientos futuros.

¿Cuáles son los tipos principales de machine learning?

No todos los modelos aprenden igual. Hay tres familias que conviene distinguir antes de pedir un proyecto a tu equipo de datos.

Aprendizaje supervisado: aprende con datos donde ya conoces la respuesta. Sabes quién se fue y quién se quedó, y el modelo aprende a diferenciar.
Aprendizaje no supervisado: no tiene etiquetas. Explora y agrupa, por ejemplo, segmentando clientes según comportamiento de compra sin categorías predefinidas.
Aprendizaje por refuerzo: un agente toma decisiones y aprende por prueba y error, como un robot que aprende a caminar o un sistema que juega videojuegos.

Cada tipo resuelve un problema distinto, así que la primera pregunta siempre es: ¿tengo respuestas conocidas o estoy explorando?

¿Cómo funciona un proyecto de machine learning paso a paso?

Estos proyectos no son magia, siguen un proceso claro y repetible. Si entiendes las etapas, puedes hacer mejores preguntas a tu equipo técnico.

Ingeniería de características o features: defines qué variables alimentan al modelo, como tipo de plan, ciudad o número de reclamos.
Entrenamiento: el modelo aprende de datos que ya tienen la respuesta, por ejemplo, si el cliente se fue o no.
Validación: pruebas el modelo con otros datos para ver si generaliza o si solo está memorizando.
Despliegue: lo pones en producción para que prediga en tiempo real o en lotes.

Saltarte la validación es uno de los errores más caros, porque ahí descubres si el modelo realmente sirve fuera del laboratorio.

¿Cómo saber si un modelo de machine learning funciona bien?

Decir que un modelo acierta el 85% de las veces no alcanza. Hay métricas específicas que responden preguntas distintas y se complementan entre sí.

Accuracy: de todas las predicciones, cuántas veces acertó.
Precisión: de lo que predijo como positivo, cuántos verdaderamente lo eran.
Recall: de todos los casos positivos reales, cuántos logró detectar.
AUC o área bajo la curva: mide la capacidad del modelo de distinguir entre clases, ideal para clasificación binaria.

La métrica que priorizas depende de la decisión que vas a tomar. No es lo mismo equivocarte detectando fraude que recomendando una película.

¿Qué es el overfitting o sobreajuste? Es cuando el modelo memoriza los datos del pasado en lugar de entender el patrón. Funciona perfecto con datos viejos, pero falla con datos nuevos.

El costo del overfitting se ve en promociones mal asignadas, campañas que no retienen y recursos desperdiciados. Por eso validar con datos nuevos es innegociable.

¿Cómo aplicar esto a la predicción de churn?

Imagina que estás perdiendo clientes y tu equipo de ciencia de datos entrena un modelo con datos históricos para detectar quién tiene alta probabilidad de abandonar el servicio. Tu trabajo no es construirlo, es evaluar si sirve.

Hazte estas preguntas antes de aprobar su uso:

¿El modelo es supervisado o no supervisado?
¿Qué métrica vas a priorizar: accuracy, precisión o recall?
¿Qué decisión tomarías con los clientes que el modelo detectó como en riesgo?

Para dimensionar el impacto, recuerda que el recall responde cuántos de los que se iban realmente detectaste, mientras que la precisión te dice si vale la pena intervenir a esos clientes o si estás malgastando recursos en falsos positivos.

Leer estos números con sentido de negocio es lo que separa a un líder que usa datos de uno que solo los recibe. ¿Cuál métrica priorizarías tú en un caso de churn y por qué? Deja tu respuesta en los comentarios.

Comentarios18

Aaron Mainero

Estudiante

Gabriel Obregón

Estudiante

🧠MACHINE LEARNING EN EL NEGOCIO

💡 CONCEPTO CLAVE

Machine Learning (ML) ➡️ Modelos que aprenden de los datos para predecir, clasificar y decidir sin programar reglas. Funciona cuando hay muchos datos y relaciones entre variables.

🎯 Objetivo: convertir datos en decisiones que generen valor para el negocio.

💼 Usos típicos:

🔁 Predicción de churn (clientes que se van)
🎬 Recomendaciones personalizadas
💳 Detección de fraude
💰 Precios dinámicos

🧩 TIPOS DE APRENDIZAJE

1️⃣ Supervisado

📘 Datos etiquetados (se conoce el resultado).

Ejemplo: predecir si un cliente se queda o se va.

🧭 El modelo aprende a reproducir patrones conocidos.

2️⃣ No Supervisado

🌀 Sin etiquetas.

El modelo agrupa o segmenta clientes por comportamiento.

🔍 Descubre patrones ocultos.

3️⃣ Por Refuerzo

🎮 Aprende por prueba y error.

Ejemplo: robots o sistemas que aprenden a jugar.

🏁 Busca maximizar recompensas a largo plazo.

🔄 CICLO DE VIDA DEL MACHINE LEARNING

Etapas esenciales:

1️⃣ Definir el objetivo del negocio

2️⃣ Seleccionar y preparar los datos

3️⃣ Entrenar el modelo

4️⃣ Validar resultados

5️⃣ Desplegar en producción

6️⃣ Medir y ajustar el impacto real

🧭 Clave: alinear lo técnico con lo estratégico.

⚙️ INGENIERÍA DE CARACTERÍSTICAS

(Feature Engineering)

🎯 Propósito: elegir qué variables alimentarán al modelo.

🔹 Selección de variables relevantes: tipo de plan, ciudad, número de reclamos.

🔹 Preparación de datos: limpiar, transformar y destacar las señales útiles.

📊 Sin buenas características, no hay buen modelo.

🚀 ENTRENAMIENTO → VALIDACIÓN → DESPLIEGUE

🔹 Entrenamiento: el modelo aprende de datos conocidos.

🔹 Validación: verifica si generaliza o memoriza.

🔹 Despliegue: el modelo empieza a predecir en producción, en tiempo real o por lotes.

💬 “Entrenar sin validar es como estudiar sin practicar.”

📏 MÉTRICAS CLAVE

Cada métrica responde una pregunta diferente 👇

🎯 Accuracy (exactitud): ¿cuántas predicciones totales fueron correctas?
✅ Precisión: de los casos marcados como positivos, ¿cuántos realmente lo eran? → Evita gastar en falsos positivos.
🔍 Recall (sensibilidad): de los casos reales, ¿cuántos detectó el modelo? → Importante para no dejar escapar fugas reales.
📈 AUC: mide la capacidad de distinguir entre clases. → Muy usada en clasificación binaria.

🧠 Ninguna métrica basta sola; deben interpretarse juntas.

⚠️ RIESGO: OVERFITTING (SOBREAJUSTE)

❗ Qué es: el modelo memoriza el pasado y falla con datos nuevos.

🔎 Señales técnicas:

Resultados perfectos en entrenamiento.
Desempeño pobre en producción.

💥 Impacto empresarial:

Promociones mal dirigidas.
Campañas que no retienen.
Desperdicio de tiempo y dinero.

💬 “Un modelo que lo acierta todo en el pasado puede equivocarse en el futuro.”

Esteban Bastías B.

Estudiante

Carlos Mario Agudelo Castrillon

Estudiante

Evaluación de un modelo de churn

Contexto del negocio:

Tenemos 100 clientes segmentados por RFM. Detectamos que el churn (abandono) es mayor en segmentos como "En riesgo" e "Inactivos". El equipo técnico entrenó un modelo ML para predecir qué clientes específicos abandonarán en los próximos 30 días.

¿Es supervisado o no?

Sí, es un modelo supervisado.

Justificación:

Criterio Explicación

Hay etiquetas históricas

Sabemos qué clientes abandonaron en el pasado (variable objetivo: abandono = 1 si no compraron en últimos 90 días, 0 si siguen activos).

Se entrena con ejemplos

El modelo aprende de datos pasados: "este cliente con R=2, F=1, M=1 abandonó" vs "este con R=5, F=5, M=4 se quedó".

Predice una categoría

La salida es binaria: ¿abandona? (Sí/No).

Algoritmos típicos aplicables

Regresión logística, Random Forest, XGBoost, Árboles de decisión (todos supervisados).

🧠 Conclusión:

"No es un problema de clustering (no supervisado) porque no queremos agrupar clientes sin saber. Queremos predecir, basados en el pasado, quién se irá. Eso es supervisado."

¿Qué métrica priorizarías?

Respuesta corta: RECALL (Sensibilidad)

Comparativa de métricas:

Métrica Fórmula ¿Qué mide?¿Cuándo usarla?

Accuracy

(VP + VN) / Total

Aciertos totales

Cuando las clases están balanceadas

Precision

VP / (VP + FP)

De los que predije como churn, ¿cuántos realmente lo son?

Cuando el costo de molestar a un cliente falso es alto

Recall

VP / (VP + FN)

De los que realmente se fueron, ¿cuántos los detecté?

Cuando es más caro no detectar un churn que equivocarme

Decisión: Priorizar RECALL

Justificación profunda:

En nuestro negocio:

Tipo de error Consecuencia Costo estimado

Falso positivo (FP)

(Predije churn, pero no se fue)

Le envío un descuento que quizás no necesitaba. "Molesto" al cliente.

Bajo (5–5–10 en descuento + un email)

Falso negativo (FN)

(No predije churn, pero se fue)

El cliente se va sin que hagamos nada. Lo perdemos para siempre.

Muy alto (45CAC+45CAC+380 LTV perdido = $425 por cliente)

Impacto numérico (simulado con nuestros 100 clientes):

Escenario Accuracy Precision RecallConsecuencia

Modelo con alta Precision (98%)

85%

98%

45%

Detecta solo 9 de 20 churn reales. Pierdo 11 clientes → -$4,675

Modelo con alta Recall (90%)

82%

70%

90%

Detecta 18 de 20 churn reales. Salvo 16 → +$6,080

"Un recall alto nos permite actuar a tiempo. Un falso positivo solo nos cuesta un café. Un falso negativo nos cuesta un cliente."

¿Qué decisión tomarías con los clientes detectados?Premisa:

El modelo detecta 20 clientes con alta probabilidad de churn (score > 0.7) en los próximos 30 días.

Acción por segmento detectado:

Basado en el RFM que ya tenemos, clasifico a los 20 detectados:

Perfil detectado Cantidad Estrategia Táctica específica Presupuesto asignado

VIP en riesgo (R bajo, pero F y M altos)

Retención VIP

Llamada personalizada del gerente + regalo sorpresa + 20% de descuento

$150 c/u

Leales enfriándose (R media, F media)

Reactivación preventiva

Email con oferta por tiempo limitado + WhatsApp con recordatorio

$30 c/u

Ocasionales con potencial (M bajo pero F reciente)

Activación

2x1 en producto que ya compró + envío gratis

$20 c/u

Inactivos crónicos (R muy alto, F baja)

Último intento

Descuento agresivo 40% + "última oportunidad" en asunto

$10 c/u (solo si sobra presupuesto)

Decisión ejecutiva final:

"Los 20 clientes detectados entran en una campaña de retención obligatoria en las próximas 48 horas. Asignamos $2,000 del presupuesto de marketing a esta acción. Medimos recuperación a 30 días. Si el recall del modelo es ≥ 80%, integramos el modelo en producción."

📊 Dashboard de seguimiento (post campaña):

KPIFórmulaMeta

Tasa de recuperación

Clientes retenidos / total detectados

≥ 50%

ROI de campaña

(Ingreso recuperado - inversión) / inversión

≥ 300%

Recall real del modelo

VP reales / (VP + FN reales)

≥ 80%

Resumen ejecutivo (para tu slide final)

text

EVALUACIÓN DEL MODELO DE CHURN
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

📌 Tipo de modelo: SUPERVISADO
   (aprende de etiquetas históricas de abandono)

📌 Métrica prioritaria: RECALL (90%)
   → Es más caro no detectar un churn que equivocarse

📌 Decisión con clientes detectados:
   → Campaña de retención obligatoria en 48h
   → Estrategia diferenciada por segmento (VIP, Leal, Ocasional, Inactivo)
   → Presupuesto: $2,000
   → Meta: recuperar ≥50% de los detectados

 Próximo paso:
   Validar recall en producción por 30 días
    Si ≥80% → integrar modelo en automatización de marketing

Carlos Andres Prieto Garavito

Estudiante

José Eder Guzmán Mendoza

Estudiante

El machine learning permite a las organizaciones predecir comportamientos y tomar decisiones más informadas, aprendiendo patrones directamente de los datos. Su valor en negocio se refleja en casos como churn, recomendaciones o detección de fraude, donde anticiparse marca la diferencia.

Existen tres enfoques principales: aprendizaje supervisado (con datos etiquetados), no supervisado (para segmentación) y por refuerzo (decisiones por prueba y error). En contextos como churn, el enfoque supervisado es el más común.

El desarrollo de un modelo sigue un ciclo claro:

Ingeniería de características: seleccionar variables relevantes (ej. uso, reclamos, plan).
Entrenamiento: el modelo aprende con datos históricos.
Validación: se evalúa su capacidad de generalizar.
Despliegue: se utiliza en decisiones reales.

Para evaluar su desempeño, se usan métricas clave:

Accuracy: porcentaje de aciertos globales.
Precisión: qué tan confiables son las predicciones positivas.
Recall: qué tanto detecta los casos reales (ej. clientes que se van).
AUC: capacidad de distinguir entre clases.

Un riesgo importante es el overfitting, cuando el modelo funciona bien en datos históricos pero falla en escenarios reales, generando decisiones ineficientes.

En el caso de churn, la evaluación debe alinearse con el negocio:

Priorizar recall para no perder clientes que realmente se irán.
Balancear con precisión para no invertir recursos en clientes que no estaban en riesgo.

En síntesis, el éxito del machine learning no depende solo de la técnica, sino de cómo sus resultados se traducen en decisiones rentables, medibles y alineadas con los objetivos del negocio.

IVAN CARAPIA BARAJAS

Estudiante

Esteban Bastías B.

Estudiante

Estefany Vazquez Velasco

Estudiante

¿puedo entrenar un modelo de machina learnign con gemini ?

Jackssuriss Tatiana Herrera Florez

Estudiante

vale la pena.

Erick Leonardo Castañeda Gomez

Estudiante

Gabriela Parada Puig

Estudiante

- ¿Es supervisado o no? (Justifica tu respuesta de por qué sí debería serlo o por qué no)

Supervisado: Se cuentan con datos históricos de lo que está pasando y sé cuales clientes se fueron. Con estos datos se alimenta el modelo para poder evaluar si identifica quienes se van correctamente.

- ¿Qué métrica priorizarías: accuracy, precision, recall?

Yo priorizaría accuracy, y recall

- ¿Qué decisión tomarías con los clientes detectados?

Campañas dirigidas

Felipe Martínez

Estudiante

Respuesta al reto del "Churn".

Pregunta clave ¿cuál es el costo de perder un cliente vs. el costo de intervenir? Esto define todo. Dado que el churn se modela con datos históricos etiquetados, estamos en un escenario de aprendizaje supervisado donde el objetivo no es solo predecir quién se va, sino decidir a quién vale la pena intervenir. Antes de actuar, validaría si el modelo realmente distingue bien entre clientes que se van y los que no (AUC) y si el patrón aprendido es estable (evitando overfitting), porque un modelo inestable destruye valor en producción.

Por su parte, no usaría accuracy como guía principal, porque puede ocultar errores críticos en datasets desbalanceados (pocos churners). La decisión estratégica está entre precisión y recall: el recall me dice cuántos clientes en riesgo logro capturar, mientras que la precisión me indica si estoy gastando recursos en clientes que realmente lo necesitan. Si el negocio tiene alto valor por cliente o alto costo de pérdida, priorizaría recall para no dejar escapar clientes valiosos; pero si las acciones de retención son costosas (descuentos, incentivos), necesito una precisión suficiente para no intervenir masivamente sin retorno.

Finalmente, la decisión operativa no es “actuar sobre todos los detectados”, sino segmentar por probabilidad y valor. Definiría umbrales de intervención: clientes de alto riesgo y alto valor reciben acciones agresivas; clientes de riesgo medio, acciones más ligeras; y el resto, monitoreo. El éxito se mide combinando métricas del modelo (recall y precisión en producción) con métricas de negocio: reducción real del churn, y ROI de las campañas. Si el modelo no mejora estas métricas, no está resolviendo el problema.

Jhon Freyman Ramírez Cortés

Estudiante

¿Qué pasa si el modelo memoriza datos?

Esto se conoce como sobreajuste o overfitting. Imagina a un estudiante que memoriza las respuestas exactas de un examen de práctica, pero reprueba la prueba real porque las preguntas cambiaron ligeramente. En los negocios, si tu modelo memoriza los datos pasados, funcionará perfecto en las pruebas, pero fracasará en el mundo real. Por ejemplo, podría asignar descuentos promocionales a los clientes equivocados o no detectar un nuevo tipo de fraude. Para evitar esto, siempre debes validar el modelo con un conjunto de datos completamente nuevo que nunca haya visto. Esto asegura que el algoritmo realmente esté aprendiendo los patrones subyacentes, en lugar de simplemente tomar una fotografía mental de tu base de datos histórica.

Jhon Freyman Ramírez Cortés

Estudiante

¿Cuándo debo usar el aprendizaje no supervisado?

Debes usarlo cuando tienes una cantidad masiva de información, pero no tienes etiquetas claras ni categorías predefinidas. Piensa en ello como entrar a una biblioteca gigante donde los libros están desordenados y necesitas organizarlos sin conocer los géneros oficiales. El algoritmo agrupará los elementos por similitudes. En un contexto de negocios, esto es increíblemente poderoso para la segmentación de clientes. Si tienes miles de registros de compras, un modelo no supervisado agrupará automáticamente a los usuarios con comportamientos similares. Esto permite a tu equipo de marketing descubrir nichos ocultos o nuevos buyer personas que ni siquiera sabías que existían, transformando por completo tus campañas dirigidas.

Jhon Freyman Ramírez Cortés

Estudiante

¿Cómo defino las variables para mi modelo?

Debes comenzar por entender profundamente el problema de negocio y aplicar el sentido común. Este proceso, conocido como ingeniería de características (feature engineering), es como elegir los ingredientes correctos para una receta. Si quieres predecir la fuga de clientes, alimentar al modelo con datos irrelevantes no ayudará. En su lugar, necesitas seleccionar variables que impacten directamente su experiencia: número de quejas, frecuencia de uso de la app o cambios recientes en su plan. La regla de oro es calidad sobre cantidad. Alimentar un modelo con datos basura solo producirá predicciones basura. Colabora estrechamente con los expertos de tu empresa para identificar qué métricas realmente impulsan el comportamiento del usuario.

Alejandro Mayorga

Estudiante

El link de lecturas recomendadas esta roto.

Gilberto Barrón López

Estudiante

Y aún sigue así 😞

Hansel Alejandro Tapias Chaparro

Estudiante

incluso hoy sigue roto, no le prestan atencion a sus cursos

Eduardo Montenegro

Estudiante

El link del curso sugerido está roto.

EVALUACIÓN DEL MODELO DE CHURN
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

📌 Tipo de modelo: SUPERVISADO
   (aprende de etiquetas históricas de abandono)

📌 Métrica prioritaria: RECALL (90%)
   → Es más caro no detectar un churn que equivocarse

📌 Decisión con clientes detectados:
   → Campaña de retención obligatoria en 48h
   → Estrategia diferenciada por segmento (VIP, Leal, Ocasional, Inactivo)
   → Presupuesto: $2,000
   → Meta: recuperar ≥50% de los detectados

 Próximo paso:
   Validar recall en producción por 30 días
    Si ≥80% → integrar modelo en automatización de marketing

Cómo evaluar un modelo de machine learning

Fundamentos y Estrategía

Ciencia de datos para negocios sin programar

Diferencias entre Business Intelligence, Data Science y Machine Learning

Palancas de valor con análisis de datos

Las 5 V del big data explicadas

Cómo construir un árbol de KPIs eficaz

Diferencias entre BI, Analytics y Big Data para empresas

Cultura y Gobernanza

Cómo construir una cultura orientada al dato

Calidad y gobernanza de datos en tu empresa

Minimización y consentimiento en datos personales

Sesgos invisibles que arruinan tus datos

Herramientas y Roles

Roles y matriz RACI en equipos de datos

SQL, Python o R: cuál usar y cuándo

Cómo leer SQL sin saber programar

SQL para ventas: del filtro al insight

Análisis de Negocio

Storytelling con datos para convencer ejecutivos

Hipótesis de negocio con criterios SMART

Segmentación RFM para retener clientes en Excel

Minería de texto para leer a tus clientes

Análisis de quejas con datos combinados

Machine Learning y Operación

Cómo evaluar un modelo de machine learning

Modelos en producción: qué es MLOps

Resumen