Análisis de datos para tu primera regresión lineal

Cursos Empresas Blog Live Conf Precios

Contenido del curso

Introducción al curso

Cómo funciona la regresión lineal

Regresión lineal multivariable

Proyecto práctico

Pasos siguientes

Tomar examen

Análisis de datos para tu primera regresión lineal

Mario Alexander Vargas Celis

student

vamos a realizar un análisis de datos para nuestra primera regresión lineal utilizando el famoso dataset de Housing de Boston (aunque oficialmente retirado de sklearn por temas éticos, aún puede usarse con cuidado desde UCI).

Este dataset contiene 506 filas y 14 columnas. La variable objetivo (target) es el precio medio de las viviendas en miles de dólares.

🔹 Paso 1: Cargar los datos

import pandas as pd

# Cargar el dataset desde UCI url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/housing/housing.data' columnas = [ 'CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT', 'MEDV' ] data = pd.read_csv(url, header=None, sep=r'\s+', names=columnas)

🔹 Paso 2: Inspeccionar el dataset

# Ver primeras filas print(data.head())

# Resumen estadístico print(data.describe())

# Ver si hay valores nulos print(data.isnull().sum())

🔹 Paso 3: Visualización de correlaciones

Podemos usar seaborn para ver cómo se relacionan las variables con la variable objetivo MEDV.

import seaborn as sns import matplotlib.pyplot as plt

# Mapa de calor de correlaciones plt.figure(figsize=(12, 10)) sns.heatmap(data.corr(), annot=True, fmt=".2f", cmap="coolwarm") plt.title("Matriz de Correlación") plt.show()

🔹 Paso 4: Selección de una variable para regresión simple

Vamos a elegir la variable más correlacionada con MEDV. Por lo general, LSTAT (porcentaje de población con bajos ingresos) tiene una fuerte correlación negativa con el precio.

sns.scatterplot(x='LSTAT', y='MEDV', data=data) plt.title("Relación entre LSTAT y MEDV") plt.xlabel("LSTAT (% población de bajos ingresos)") plt.ylabel("Precio medio (MEDV)") plt.show()

¿Qué sigue?

Con esta base ya podemos:

Dividir el dataset en entrenamiento y prueba.
Crear un modelo de regresión lineal con scikit-learn.
Entrenar el modelo.
Hacer predicciones y evaluar el desempeño.

Jaime Pelaez Valencia

student

se me hizo un poco difícil poder encontrar el dataset "http://lib.stat.cmu.edu/datasets/boston" me imagino el por que fue retirado... demás que por el campo que nombran B = 1000(Bk - 0.63)^2, donde Bk es la proporción de población negra por municipio

Introducción al curso

Tu primera regresión lineal con scikit-learn