RMSE y R cuadrada en modelos de regresión

Curso de Fundamentos de AI para Manejo de Datos

Contenido del curso

Principios de la IA

Modelo Predictivo

Tipos de Aprendizaje

Herramientas para IA

Ciclo de Vida ML

Ética en IA

Tomar examen

RMSE y R cuadrada en modelos de regresión

Resumen

Cuando entrenas un modelo de regresión, necesitas saber si realmente funciona o si solo está adivinando. Aquí entran dos métricas que se complementan: el RMSE (raíz del error cuadrático medio) y la R cuadrada o coeficiente de determinación. Si trabajas con machine learning aplicado a precios, demanda o cualquier variable numérica, dominarlas es la diferencia entre publicar un modelo útil y uno que engaña con buenos números.

Piensa en un entrenador de tiro con arco. El RMSE te dice, en promedio, qué tan lejos del centro caen las flechas. La R cuadrada te dice qué tanto mejor disparan tus arqueros frente a alguien que tira al azar. Misma escena, dos preguntas distintas.

¿Qué mide el RMSE y cómo se calcula?

El RMSE responde a una pregunta directa: ¿qué tan grandes son los errores de mi modelo, en las mismas unidades de la variable que estoy prediciendo?

El cálculo sigue una secuencia sencilla que puedes replicar a mano o con sklearn:

Resta cada predicción a su valor real para obtener el error.
Eleva cada error al cuadrado para eliminar el signo.
Suma todos los errores cuadrados y divide entre el número de datos. Eso te da el MSE o mean squared error.
Saca la raíz cuadrada del MSE para volver a las unidades originales. Ese es el RMSE.

¿Por qué se elevan los errores al cuadrado en el RMSE? Porque si dejaras los errores con signo, los positivos y negativos se cancelarían entre sí y el modelo parecería perfecto cuando no lo es. Elevar al cuadrado fuerza a que cada error pese.

¿Cómo interpretar el RMSE en un caso real?

Imagina que predices precios de casas y obtienes un RMSE de 20.000. Eso significa que, en promedio, tus predicciones se desvían 20.000 unidades del valor real. Lo interesante es que ese número no es ni bueno ni malo por sí solo. Para una casa de tres millones, 20.000 es un margen pequeño. Para una casa de 50.000, ese mismo error es enorme. El contexto manda.

¿Qué significa la R cuadrada y cuándo es alta o baja?

La R cuadrada mide qué proporción de la variabilidad de los datos logra explicar tu modelo. Es una métrica relativa, no absoluta.

Una R cuadrada cercana a 1 indica que el modelo explica casi toda la variabilidad de la variable objetivo.
Una R cuadrada cercana a 0 indica que el modelo apenas explica la variabilidad, equivalente a adivinar al azar.
Una R cuadrada alta no garantiza utilidad si los supuestos de la regresión no se cumplen o si el modelo está sobreajustado.

Esa última advertencia es clave. Puedes tener una R cuadrada brillante y un modelo inservible en producción si memorizó el set de entrenamiento.

¿Cómo se ven RMSE y R cuadrada en tres modelos comparados?

Para aterrizar la teoría, generamos un experimento con tres datasets sintéticos usando una semilla aleatoria fija en 42 y 200 observaciones por dataset. Cada uno representa una relación distinta entre la variable predictora X y la variable objetivo Y.

¿Cómo se generan los datasets de prueba?

Los tres escenarios cubren los casos típicos que enfrentarás al modelar:

X1 con Y1: relación lineal fuerte. Y1 se construye como 2*X1 + 3 más un ruido aleatorio entre 0 y 1.
X2 con Y2: relación lineal débil, con más ruido respecto a la tendencia.
X3 con Y3: sin relación lineal, sin correspondencia uno a uno entre X y Y.

Antes de entrenar, hay que aplicar un reshape al arreglo de X para que entre con la forma correcta a la regresión lineal de sklearn. Luego se entrena un modelo por dataset y se generan las predicciones.

¿Qué resultados arroja cada modelo?

Al calcular MSE, RMSE y R cuadrada para los tres modelos, los números cuentan la historia completa:

Lineal fuerte: MSE de 0.934, RMSE de 0.96 y R cuadrada de 0.97. El modelo explica casi toda la variabilidad, justo lo que esperarías de una relación lineal clara.
Lineal débil: suma de errores de 16.1, RMSE promedio de 4.03 y R cuadrada cercana a cero. La función ajustada no logra capturar la variabilidad de los datos.
No lineal: errores más altos en magnitud, pero la R cuadrada sí alcanza a explicar una porción mayor de la variabilidad, mostrando que las dos métricas no siempre se mueven juntas.

¿Cuál métrica importa más, RMSE o R cuadrada? Ninguna sola cuenta toda la historia. El RMSE te dice qué tan lejos del blanco caen tus predicciones en promedio. La R cuadrada te dice qué tanto mejora tu modelo frente a predecir al azar. Úsalas juntas.

¿Qué hacer después de calcular las métricas?

Los números son un punto de partida, no la sentencia final. Para tener una imagen real de la utilidad de tu modelo, complementa el RMSE y la R cuadrada con dos prácticas:

Análisis visual de los residuos para detectar patrones que las métricas agregadas ocultan.
Validación con datos no vistos, para confirmar que el modelo generaliza y no memorizó.

Así evitas el clásico error de presumir una R cuadrada alta y descubrir, en producción, que el modelo no resiste datos nuevos.

¿Tú con cuál de los tres escenarios te has topado más en tus proyectos? Cuéntame en los comentarios qué métrica te ha salvado o engañado.

Frank Stephano Alayza Herrera

Estudiante

Jesus Eduardo Castillo Saavedra

En esta clase se abordan dos métricas clave para evaluar modelos de regresión: RMSE y R cuadrado.

RMSE (Raíz del Error Cuadrático Medio): Mide el promedio de las diferencias entre las predicciones y los valores reales, en las mismas unidades que la variable objetivo. Se calcula elevando al cuadrado las diferencias, sumándolas, dividiendo por el número de datos (MSE) y luego tomando la raíz cuadrada.
R cuadrado: Indica la proporción de la variabilidad que el modelo explica. Un valor cercano a 1 significa un buen ajuste, mientras que un valor cercano a 0 indica que el modelo no explica mejor que un azar.

Ambas métricas ofrecen una visión complementaria sobre el rendimiento del modelo. Se calcularon para diferentes modelos en un dataset, lo que permitió identificar cuál tenía mejor desempeño.

Carlos Andres Prieto Garavito

MARIA TERESA PANIAGUA RIVERA

Gracias

Freddy Escobar

El gráfico de residuos muestra la diferencia entre las predicciones de un modelo y los valores reales. Un RMSE bajo indica que las predicciones están cerca de los valores reales, lo que se reflejará en residuos pequeños y aleatorios dispersos alrededor de cero en el gráfico.

Los órdenes de magnitud aceptables en los residuos dependen del contexto. Por ejemplo, en un modelo que predice precios de casas, un RMSE de miles puede ser aceptable, mientras que para modelos de predicción de temperatura, un RMSE de pocos grados puede ser crucial.

Es importante siempre evaluar los residuos en relación con el rango de los valores reales.

RMSE y R cuadrada en modelos de regresión

Principios de la IA

Qué es realmente la inteligencia artificial

Diferencias entre inteligencia artificial, machine learning y deep learning

Modelo Predictivo

Regresión lineal con datos de casas

Regresión lineal manual con NumPy

Scikit-Learn vs statsmodels en regresión lineal

Tipos de Aprendizaje

Regresión y clasificación en machine learning

Detectar spam con Python en Google Colab

Clustering y normalización de datos con K-means

PCA para reducir variables en clustering

Aprendizaje por refuerzo con Q-learning y OpenAI Gym

Herramientas para IA

Instalación de Jupyter Notebook y Anaconda para análisis de datos

Series y DataFrames con Pandas en Python

Clasificación de flores con Scikit-Learn

Ciclo de Vida ML

Traducción de problemas de negocio a tareas de machine learning

Limpieza de datos con Pandas y Scikit-Learn

Entrenamiento y evaluación de modelos de machine learning