Regresión lineal con datos de casas

Curso de Fundamentos de AI para Manejo de Datos

Contenido del curso

Principios de la IA

Modelo Predictivo

Tipos de Aprendizaje

Herramientas para IA

Ciclo de Vida ML

Ética en IA

Tomar examen

Regresión lineal con datos de casas

Resumen

La regresión lineal es uno de los algoritmos más usados en machine learning para entender cómo se relacionan las variables y hacer predicciones interpretables. Si trabajas con datos y quieres explicar resultados a equipos de negocio, este modelo te da claridad y simplicidad.

¿Qué hace la regresión lineal y por qué sigue vigente?

La regresión lineal cuantifica la relación entre una variable independiente (como las horas de estudio) y una dependiente (como la calificación). Traza una línea recta que resume la tendencia de los datos y permite predecir comportamientos futuros [0:35].

Lo interesante es que sigue siendo fundamental en el análisis moderno por tres razones:

Es fácil de entender y explicar a otros.
Se aplica a ventas, precios, riesgo financiero, marketing y educación.
Entrega coeficientes interpretables que conectan con decisiones de negocio.

¿Para qué sirve la regresión lineal? Sirve para cuantificar cómo afecta una variable a otra. Por ejemplo, te dice cuánto sube el precio de una casa por cada metro cuadrado adicional, lo que ayuda a predecir y explicar.

¿Cómo construir un modelo de precios de casas en Google Colab?

El ejercicio se realiza en Google Colab, una interfaz de Google que ejecuta Python en el navegador, permite documentar con celdas de texto e incluye a Gemini como asistente de IA para explicar líneas de código [3:45].

Las librerías que entran en juego son:

NumPy y Pandas para manipular datos tabulares.
Matplotlib para visualizar.
Scikit-Learn para entrenar el modelo.

Las variables del dataset simulado son tamaño en metros cuadrados, número de habitaciones, edad de la propiedad y un score de ubicación, con 1.000 observaciones generadas con una semilla aleatoria fijada en 42 para que tú y yo obtengamos los mismos resultados [5:30].

¿Por qué usar la función clip al simular datos?

La función clip impone límites a los valores. Si un dato es menor a 50, lo sustituye por 50; si supera 300, lo trunca en 300. Así evitamos datos atípicos que distorsionen el análisis [7:10].

La variable objetivo (precio) se modela multiplicando cada feature por un coeficiente conocido y sumando un componente aleatorio que actúa como error. Ese ruido es deliberado: no buscamos predecir exacto, buscamos generalizar el comportamiento del fenómeno [9:00].

¿Cómo se interpretan los coeficientes y las métricas del modelo?

Antes de entrenar, conviene explorar con la función describe de Pandas, que entrega conteo, promedio, desviación estándar, mínimo, máximo y percentiles 25, 50 y 75. Esto da una perspectiva estadística rápida de la distribución [10:50].

Luego se visualiza con un grid de gráficas: histograma de precios, dispersión entre tamaño y precio, box plots (cajas con bigotes), y una matriz de correlación que revela qué variables están más relacionadas. En el ejercicio, el tamaño en metros cuadrados muestra alta correlación con el precio, así que será una variable clave [12:40].

¿Cómo se separan los datos para entrenar y evaluar?

Los datos se dividen en dos cajas:

Entrenamiento: 80% de las observaciones (800 filas) que el modelo usa para aprender.
Prueba: 20% restante (200 filas) reservado para evaluar.

La variable X contiene las cuatro features predictoras y la variable Y contiene solo el precio. Si dejas el precio dentro de X, el modelo se vuelve flojo y lo usa para predecirse a sí mismo [14:20].

Después se instancia el modelo de regresión lineal, se entrena con la palabra clave fit, y se extraen los coeficientes. El resultado se lee así: por cada metro cuadrado adicional, el precio sube 1.953 pesos; por cada habitación extra, sube 14.507 pesos [16:30].

¿Qué es un coeficiente en regresión lineal? Es el número por el que se multiplica una variable para estimar el resultado. Si el coeficiente del tamaño es 1.953, cada metro cuadrado extra suma esa cantidad al precio predicho.

¿Qué métricas evalúan si el modelo funciona?

Dos métricas confirman la calidad del modelo:

R cuadrada (coeficiente de determinación): mientras más cerca de 1, mejor se ajustan las predicciones a la realidad.
Error cuadrático medio (MSE): indica cuánto se desvían las predicciones del valor original.

En el ejercicio, la R cuadrada se acerca bastante a 1, lo que sugiere un buen ajuste. El análisis de residuos (los errores entre lo predicho y lo observado) cierra la evaluación: si los residuos no muestran patrón y se distribuyen alrededor de cero, el modelo cumple los supuestos de la regresión lineal [19:40].

¿Qué significa R cuadrada cercana a 1? Significa que el modelo explica casi toda la variación de los datos. Un valor de 0.95 indica que el 95% del comportamiento del precio queda capturado por las variables predictoras.

Tu turno: elige un dataset con al menos una variable numérica que quieras predecir, repite estos pasos y comparte en comentarios qué descubriste sobre el fenómeno que no sabías antes.