Contenido del curso
Modelo Predictivo
Tipos de Aprendizaje
Herramientas para IA
Ciclo de Vida ML
Ética en IA
RMSE y R cuadrada en modelos de regresión
Resumen
Cuando entrenas un modelo de regresión, necesitas saber si realmente funciona o si solo está adivinando. Aquí entran dos métricas que se complementan: el RMSE (raíz del error cuadrático medio) y la R cuadrada o coeficiente de determinación. Si trabajas con machine learning aplicado a precios, demanda o cualquier variable numérica, dominarlas es la diferencia entre publicar un modelo útil y uno que engaña con buenos números.
Piensa en un entrenador de tiro con arco. El RMSE te dice, en promedio, qué tan lejos del centro caen las flechas. La R cuadrada te dice qué tanto mejor disparan tus arqueros frente a alguien que tira al azar. Misma escena, dos preguntas distintas.
¿Qué mide el RMSE y cómo se calcula?
El RMSE responde a una pregunta directa: ¿qué tan grandes son los errores de mi modelo, en las mismas unidades de la variable que estoy prediciendo?
El cálculo sigue una secuencia sencilla que puedes replicar a mano o con sklearn:
- Resta cada predicción a su valor real para obtener el error.
- Eleva cada error al cuadrado para eliminar el signo.
- Suma todos los errores cuadrados y divide entre el número de datos. Eso te da el MSE o mean squared error.
- Saca la raíz cuadrada del MSE para volver a las unidades originales. Ese es el RMSE.
¿Por qué se elevan los errores al cuadrado en el RMSE? Porque si dejaras los errores con signo, los positivos y negativos se cancelarían entre sí y el modelo parecería perfecto cuando no lo es. Elevar al cuadrado fuerza a que cada error pese.
¿Cómo interpretar el RMSE en un caso real?
Imagina que predices precios de casas y obtienes un RMSE de 20.000. Eso significa que, en promedio, tus predicciones se desvían 20.000 unidades del valor real. Lo interesante es que ese número no es ni bueno ni malo por sí solo. Para una casa de tres millones, 20.000 es un margen pequeño. Para una casa de 50.000, ese mismo error es enorme. El contexto manda.
¿Qué significa la R cuadrada y cuándo es alta o baja?
La R cuadrada mide qué proporción de la variabilidad de los datos logra explicar tu modelo. Es una métrica relativa, no absoluta.
- Una R cuadrada cercana a 1 indica que el modelo explica casi toda la variabilidad de la variable objetivo.
- Una R cuadrada cercana a 0 indica que el modelo apenas explica la variabilidad, equivalente a adivinar al azar.
- Una R cuadrada alta no garantiza utilidad si los supuestos de la regresión no se cumplen o si el modelo está sobreajustado.
Esa última advertencia es clave. Puedes tener una R cuadrada brillante y un modelo inservible en producción si memorizó el set de entrenamiento.
¿Cómo se ven RMSE y R cuadrada en tres modelos comparados?
Para aterrizar la teoría, generamos un experimento con tres datasets sintéticos usando una semilla aleatoria fija en 42 y 200 observaciones por dataset. Cada uno representa una relación distinta entre la variable predictora X y la variable objetivo Y.
¿Cómo se generan los datasets de prueba?
Los tres escenarios cubren los casos típicos que enfrentarás al modelar:
- X1 con Y1: relación lineal fuerte. Y1 se construye como
2*X1 + 3más un ruido aleatorio entre 0 y 1. - X2 con Y2: relación lineal débil, con más ruido respecto a la tendencia.
- X3 con Y3: sin relación lineal, sin correspondencia uno a uno entre X y Y.
Antes de entrenar, hay que aplicar un reshape al arreglo de X para que entre con la forma correcta a la regresión lineal de sklearn. Luego se entrena un modelo por dataset y se generan las predicciones.
¿Qué resultados arroja cada modelo?
Al calcular MSE, RMSE y R cuadrada para los tres modelos, los números cuentan la historia completa:
- Lineal fuerte: MSE de 0.934, RMSE de 0.96 y R cuadrada de 0.97. El modelo explica casi toda la variabilidad, justo lo que esperarías de una relación lineal clara.
- Lineal débil: suma de errores de 16.1, RMSE promedio de 4.03 y R cuadrada cercana a cero. La función ajustada no logra capturar la variabilidad de los datos.
- No lineal: errores más altos en magnitud, pero la R cuadrada sí alcanza a explicar una porción mayor de la variabilidad, mostrando que las dos métricas no siempre se mueven juntas.
¿Cuál métrica importa más, RMSE o R cuadrada? Ninguna sola cuenta toda la historia. El RMSE te dice qué tan lejos del blanco caen tus predicciones en promedio. La R cuadrada te dice qué tanto mejora tu modelo frente a predecir al azar. Úsalas juntas.
¿Qué hacer después de calcular las métricas?
Los números son un punto de partida, no la sentencia final. Para tener una imagen real de la utilidad de tu modelo, complementa el RMSE y la R cuadrada con dos prácticas:
- Análisis visual de los residuos para detectar patrones que las métricas agregadas ocultan.
- Validación con datos no vistos, para confirmar que el modelo generaliza y no memorizó.
Así evitas el clásico error de presumir una R cuadrada alta y descubrir, en producción, que el modelo no resiste datos nuevos.
¿Tú con cuál de los tres escenarios te has topado más en tus proyectos? Cuéntame en los comentarios qué métrica te ha salvado o engañado.