Regresión Lineal con Datos Geográficos y Socioeconómicos

Clase 19 de 29 • Curso de Introducción al Álgebra Lineal: Vectores

Resumen

¿Qué es una regresión lineal?

En el fascinante mundo de la data y la estadística, la regresión lineal se presenta como una herramienta poderosa que nos permite hacer predicciones basadas en datos. Utilizando funciones afines, podemos aproximar tendencias y modelar relaciones entre variables. En este contexto, discutiremos conceptos básicos, culminando con un ejemplo práctico usando un conjunto de datos del Golden Oak Research Group.

¿Cuáles son los elementos clave en una regresión?

Modelo de regresión: Una función matemática que estima una variable dependiente (etiqueta o resultado esperado) 'y', basada en una o más variables independientes (regresores).
Vector de pesos (β): Representa los coeficientes que multiplican cada regresor, proporcionando su peso relativo.
Offset o bias (b): Un escalar añadido al resultado para ajustar la predicción al modelo real.
Notación: Para simplificar, a menudo se utiliza la notación ɣ = X^Tβ, donde X^T representa la transpuesta de una matriz que incluye las variables independientes.

¿Cómo estructuramos un modelo de regresión?

Para ejecutar un modelo de regresión lineal, podemos utilizar bibliotecas de Python que facilitan la manipulación y análisis de datos. Aquí te explicamos cómo:

Cargando y explorando datos

Primero, es crucial cargar las librerías necesarias:

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

A continuación, cargamos el dataset en un Data Frame de Pandas:

df = pd.read_csv('incomedb_G0RG.csv')

Puedes explorar las primeras filas de datos para conocer sus estructurar:

print(df.head())

Identificación de regresores

Para nuestro ejemplo, utilizaremos la latitud y la longitud como regresores, mientras que el ingreso promedio será la variable a predecir (MIN):

x = df[['lat', 'long']].values
y = df['MIN'].values

Creación de la función de predicción

Definimos nuestra función de predicción basada en un vector de pesos (β) y un offset:

def predict(x, beta, offset):
    return np.dot(x, beta) + offset

Ajuste y evaluación del modelo

Con nuestros datos listos y función de predicción definida, procedemos a predecir:

beta = np.array([744.83, -83.45])
offset = 30980.48
predictions = predict(x, beta, offset)

Para evaluar la calidad del modelo:

plt.scatter(predictions, y, c='red')
plt.plot([y.min(), y.max()], [y.min(), y.max()], 'k--', lw=4)
plt.xlabel('Valor Predicho')
plt.ylabel('Valor Real')
plt.title('Comparación de valores reales vs predicciones')
plt.show()

¿Cómo mejoramos nuestras predicciones?

Para mejorar la precisión del modelo, podrías considerar la inclusión de variables adicionales, como códigos postales en nuestro caso. Ajustar e incluir nuevos parámetros para los regresores podría incrementar la exactitud del modelo. Aquí, el aprendizaje no termina; es vital recalibrar y probar diferentes combinaciones para encontrar la estructura que mejor se adecue al contexto de los datos que se observan.

¡No te detengas aquí! Continúa explorando más sobre regresiones y modelos de datos en Platzi y otros recursos educativos en línea. El camino de los datos es vasto y está lleno de descubrimientos para aquellos que se aventuran con curiosidad y determinación.

Walter Alvarado

student•

en el video no explican de donde salen estos valores

y bueno para hallarlos seria algo así:

Jose Manuel Rivas Márquez

student•

el profe dice en el ideo que los tomara como si ya fueran aleatorios, que en clases posteriores lo explicara, de todos modos esta buenisimo tu aporte

Christian Sanclemente

student•

Para ver el número de filas y columnas, simplemente usamos df.shape . y para ver el total o medida df.size

Orlando castellanos

student•

le gusta complicarse la vida a este profe XD

Camilo Colorado

student•

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

df = pd.read_csv('C:/Users/PERSONAL/OneDrive/Documents/Ciencia de datos-DESKTOP-884AA0V/algebra lineal/income_db_gorg_283cf1bb-74a9-4cf5-9255-da690e2b3e64.csv')

def predicion(x):
    v = 4152.02
    beta = np.array([6.55490348e+02,5.75918372e+02,-2.94216316e-01])
    return x@beta + v

X = df[['Lat','Lon','Zip_Code']].values
Y_hat = predicion(X)
Y = df['Mean'].values

fig, ax = plt.subplots(1,1,figsize = (7,7),dpi = 120)

ax.scatter(Y_hat,Y,marker = 'o',color = "red")
ax.plot(Y,Y,ls ='--')
plt.show()

me dió esto:

César Isaac González Naranjo

student•

Me dió lo mismo, pero no se interpretarlo, está bien ?

Christian Molina Vázquez

student•

El vector beta esta mal el segundo parámetro, el segundo valor debería ser negátivo, realice el ejercicio con sklearn para comprobar. beta = [ 6.55490348e+02, -5.75918372e+02, -2.94216316e-01] Si mejoran los resultados, pero muy poco.

# %% [markdown]
# # Ejercicio

# %%
from sklearn.linear_model import LinearRegression


# %%
X = df[['Lat', 'Lon', 'Zip_Code']]
y = df['Mean']
regressor = LinearRegression()
regressor.fit(X, y)


# %%
y_pred = regressor.predict(X)


# %%
regressor.coef_, regressor.intercept_
# (array([ 6.55490348e+02, -5.75918372e+02, -2.94216316e-01]), 4152.027883761009)


# %%
fig, ax = plt.subplots(1,1,figsize=(7,7),dpi=120)

ax.scatter(y_pred,y,marker='o',color='red')
ax.plot(y,y,ls='--')
plt.show()


# %%
from sklearn import metrics


# %%
print('Root Mean Squared Error:', np.sqrt(metrics.mean_squared_error(y, y_pred)))
# Root Mean Squared Error: 29957.858952859144


# %%
print('R^2: ',metrics.r2_score(y, y_pred))
# R^2:  0.03210950150675185

Carlos Alfredo Chire Chanji

student•

Exacto es correcto hay que corregir ese error en el signo de ese parámetro, gracias

Angel Estrada

student•

Parece ser que no mejora, al contrario, empeora la predicción:

Mi código:

def pred(x):
    beta = np.array([6.55490348*pow(10,2),5.75918372*pow(10,2),-2.94216316*pow(10,-1)])
    v = 4152.02
    return x.dot(beta) + v

X = df[['Lat','Lon','Zip_Code']].values

Y_hat = pred(X)
Y = df['Mean'].values

fig, ax = plt.subplots(1,1,figsize=(7,7),dpi=120)

ax.scatter(Y_hat,Y,marker ='o',color='red')
ax.plot(Y,Y,ls='--')
plt.xlabel("Y estimada")
plt.ylabel("Y real")
plt.show()

Bernardo Tamayo

student•

De acuerdo, lo que he visto en otros modelos es que evaluándonoslos la correlación de las diferentes variables con respecto a el income. en este caso estamos dando tiros al aire

Bryan

student•

Por qué me da ese error?

Luis Lira

student•

Dice que no está encontrando el archivo. Tal vez faltaría cargar algo para que lo encuentre.

Valenttina Cardozo

student•

Me sucedió lo mismo, asegúrate de subir el archivo afuera de la carpeta sample_data, de esta forma:

Mariano Gobea Alcoba

student•

¿Mejoró la predicción al introducir un nuevo predictor? En este caso Zip Code? En absoluto. El modelo es aún peor.

Miguel Angel Reyes Moreno

student•

Este es el curso que mencionan de pandas: Curso de Manipulación y Análisis de Datos con Pandas y Python

Hermes A. J. Cabrera F.

student•

Hola a todos, buenas tardes por estos lados. En mi caso, al tratar de correr el programa me da un error ya que no lee el archivo icome... aunque lo descargué y también lo subí al Drive. Observo lo realizado por otros compañeros, agregar el Zip_code y cambiar "v" y "beta" que el resultado no mejora; es decir, los datos se trasladan hacia la izquierda en lugar de colocarse alrededor de la línea verde punteada (ideal). Sigo revisando mi colab, saludos

Hermes A. J. Cabrera F.

student•

Amigos listo, pude subir el archivo income... fuera de la carpeta sample_data como sugirió Valenttina Cardozo (al descargarlo había cambiado de nombre) a la pregunta de Luís Lira, y con el apoyo del código de JassielMG solventé el problema. Acá el código y gráfica

Keler Antonio Araujo Olaya

student•

veo que es concurrente la grafica que sale en este ejercicio, a mi tambien me resulto lo mismo, sin embargo rescato como estoy cambiando y ampliando mi zonda de confort, al inicio no me agradaba usar Colab, incluso generaba incomodidad, sin embago ahora esta super!, me parece super practico! espero que clases mas adelante se logre ver que sucedio con este ejercicio. Saludos Comunidad Platzi!

Roberto Jassiel Montes Gutierrez

student•

def predict(x):
  v= 4152.02
  b = np.array([6.55490348*np.exp(0.2),5.75918372*np.exp(0.2),-2.94216316*np.exp(-0.1)])
  y= x@b + v
  return y

X = df[['Lat','Lon','Zip_Code']].values

Y_ha =predict(X)

y = df['Mean'].values

fig, ax = plt.subplots(1,1,figsize=(7,7),dpi=120)
ax.scatter(Y_ha,y,marker ='o',color='red')
ax.plot(Y,Y,ls='--')
plt.show()

A mi me dio esto: ![(

)

Ulises Rayon

teacher•

Hola Jassiel: Te quedó súper bien aunque hay que revisar el porqué te dan negativos. Parece una reflexión :thinking:

La verdad es que en esta queda súper mal a propósito, pero en el próximo curso ya les voy a enseñar cómo ajustar bien esta línea :green_heart:

Carlos Felipe Saldarriaga Bejarano

student•

Pensé que el error estaba en como ingresó los exponenciales pero me sucede igual, procedí de esta manera.

def pred(x):
    beta = np.array([655.490348,575.918372,-0.294216316])
    v= 4152.02
    return x@beta + v

X = df[['Lat','Lon','Zip_Code']].values

Y_hat = pred(X)

Y = df['Mean'].values

fig, ax = plt.subplots(1,1,figsize=(7,7),dpi=120)
ax.scatter(Y_hat,y,marker ='o',color='red')
ax.plot(Y,Y,ls='--')
plt.show()

César Pérez

student•

def pred1(x):   
  beta = np.array([6.55490348 * np.exp(0.2), 5.75918372 * np.exp(0.2), -2.94216316*np.exp(-0.1)])
  v = 4152.02
  return x@beta + v

X = df[['Lat','Lon','Zip_Code']].values

Y = df['Mean']
aprox = pred1(X)

fig, ax = plt.subplots(1,1,figsize=(7,7),dpi=120)

ax.scatter(aprox,Y,marker ='o',color='green')
ax.plot(Y,Y)
plt.show()```

Carlos Alfredo Chire Chanji

student•

def pred_ejercicio(x):
    beta = np.array([6.55490348e+02, -5.75918372e+02, -2.94216316e-01])
    v = 4152.02
    return x@beta + v
#se indica que uno de los parametros debio ser -5.7591...

X = df[['Lat','Lon','Zip_Code']].values
Y_hat = pred_ejercicio(X)
Y = df['Mean'].values

fig, ax = plt.subplots(1,1,figsize=(7,7),dpi=120)

ax.scatter(Y_hat,Y,marker ='o',color='red')
ax.plot(Y,Y,ls='--')
plt.show()

Jhon Freddy Tavera Blandon

student•

from sklearn.linear_model import LinearRegression

X = df[['Lat', 'Lon', 'Zip_Code']]
y = df['Mean']

# Crear una instancia del modelo de regresión lineal
modelo = LinearRegression()

# Ajustar el modelo a los datos
modelo.fit(X, y)

# Obtener los parámetros del modelo
v = modelo.intercept_
β = modelo.coef_

print("Parámetro v:", v)
print("Parámetros β:", β)

# Crear una gráfica del modelo
predicciones = modelo.predict(X)

plt.scatter(df['Mean'], predicciones)
plt.xlabel('Valor real')
plt.ylabel('Predicción')
plt.title('Gráfica de predicción del modelo de regresión lineal')
plt.show()

# Definir los regresores y la variable dependiente
X = df[['Lat', 'Lon', 'Zip_Code']]
y = df['Mean']

# Crear una instancia del modelo de regresión lineal
modelo = LinearRegression()

# Ajustar el modelo a los datos
modelo.fit(X, y)

# Obtener los coeficientes del modelo
v = modelo.intercept_
β = modelo.coef_

print("Parámetro v:", v)
print("Parámetros β:", β)

# Generar una gráfica del modelo y la predicción
plt.scatter(df['Lon'], df['Mean'], color='blue', label='Datos reales')
plt.plot(df['Lon'], modelo.predict(X), color='red', linewidth=2, label='Predicción')
plt.xlabel('Longitud')
plt.ylabel('Media de ingresos')
plt.title('Modelo de regresión lineal')
plt.legend()
plt.show()

<code>

valentina stephany kassar acuña

student•

Nuestros regresores en términos de columnas son:

Lat.
Lon.

Mientras que nuestra variable dependiente es:

Mean.

valentina stephany kassar acuña

student•

NOTA. Hay que tener claro que len significa longitud.

valentina stephany kassar acuña

student•

Notación simplificada de un modelo de regresión La concatenación de vectores nos puede ayudar a expresar de manera más sencilla la ecuación de regresión.

Joel Orellana

student•

Justo asi da, mi impresión es que este modelo no se debería entrenar con regresión lineal (?)

def pred(x):
    beta = np.array([6.55490348*10**2,5.75918372*10**2,-2.94216316*10**-1])
    v = 4152.02
    return x@beta + v
X = df[['Lat','Lon', 'Zip_Code']].values
Y_hat = pred(X)
Y = df['Mean'].values
fig, ax = plt.subplots(1,1,figsize=(7,7),dpi=120)

ax.scatter(Y_hat,Y,marker ='o',color='red')
ax.plot(Y,Y,ls='--')
plt.show()

Joel Orellana

student•

Cuesta subir imágenes acá jsjsjsjs

DIEGO ALEXANDER ARISTIZABAL ARISTIZA

student•

Este es el resultado que obtuve>

Diego González Castellanos

student•

Realmente no mejora, incluso empeora, hay una relación menor con los datos vs la recta.

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

df = pd.read_csv('C:/Users/PERSONAL/OneDrive/Documents/Ciencia de datos-DESKTOP-884AA0V/algebra lineal/income_db_gorg_283cf1bb-74a9-4cf5-9255-da690e2b3e64.csv')

def predicion(x):
    v = 4152.02
    beta = np.array([6.55490348e+02,5.75918372e+02,-2.94216316e-01])
    return x@beta + v

X = df[['Lat','Lon','Zip_Code']].values
Y_hat = predicion(X)
Y = df['Mean'].values

fig, ax = plt.subplots(1,1,figsize = (7,7),dpi = 120)

ax.scatter(Y_hat,Y,marker = 'o',color = "red")
ax.plot(Y,Y,ls ='--')
plt.show()

# %% [markdown]
# # Ejercicio

# %%
from sklearn.linear_model import LinearRegression


# %%
X = df[['Lat', 'Lon', 'Zip_Code']]
y = df['Mean']
regressor = LinearRegression()
regressor.fit(X, y)


# %%
y_pred = regressor.predict(X)


# %%
regressor.coef_, regressor.intercept_
# (array([ 6.55490348e+02, -5.75918372e+02, -2.94216316e-01]), 4152.027883761009)


# %%
fig, ax = plt.subplots(1,1,figsize=(7,7),dpi=120)

ax.scatter(y_pred,y,marker='o',color='red')
ax.plot(y,y,ls='--')
plt.show()


# %%
from sklearn import metrics


# %%
print('Root Mean Squared Error:', np.sqrt(metrics.mean_squared_error(y, y_pred)))
# Root Mean Squared Error: 29957.858952859144


# %%
print('R^2: ',metrics.r2_score(y, y_pred))
# R^2:  0.03210950150675185

def pred(x):
    beta = np.array([6.55490348*pow(10,2),5.75918372*pow(10,2),-2.94216316*pow(10,-1)])
    v = 4152.02
    return x.dot(beta) + v

X = df[['Lat','Lon','Zip_Code']].values

Y_hat = pred(X)
Y = df['Mean'].values

fig, ax = plt.subplots(1,1,figsize=(7,7),dpi=120)

ax.scatter(Y_hat,Y,marker ='o',color='red')
ax.plot(Y,Y,ls='--')
plt.xlabel("Y estimada")
plt.ylabel("Y real")
plt.show()

def predict(x):
  v= 4152.02
  b = np.array([6.55490348*np.exp(0.2),5.75918372*np.exp(0.2),-2.94216316*np.exp(-0.1)])
  y= x@b + v
  return y

X = df[['Lat','Lon','Zip_Code']].values

Y_ha =predict(X)

y = df['Mean'].values

fig, ax = plt.subplots(1,1,figsize=(7,7),dpi=120)
ax.scatter(Y_ha,y,marker ='o',color='red')
ax.plot(Y,Y,ls='--')
plt.show()

def pred(x):
    beta = np.array([655.490348,575.918372,-0.294216316])
    v= 4152.02
    return x@beta + v

X = df[['Lat','Lon','Zip_Code']].values

Y_hat = pred(X)

Y = df['Mean'].values

fig, ax = plt.subplots(1,1,figsize=(7,7),dpi=120)
ax.scatter(Y_hat,y,marker ='o',color='red')
ax.plot(Y,Y,ls='--')
plt.show()

def pred1(x):   
  beta = np.array([6.55490348 * np.exp(0.2), 5.75918372 * np.exp(0.2), -2.94216316*np.exp(-0.1)])
  v = 4152.02
  return x@beta + v

X = df[['Lat','Lon','Zip_Code']].values

Y = df['Mean']
aprox = pred1(X)

fig, ax = plt.subplots(1,1,figsize=(7,7),dpi=120)

ax.scatter(aprox,Y,marker ='o',color='green')
ax.plot(Y,Y)
plt.show()```

def pred_ejercicio(x):
    beta = np.array([6.55490348e+02, -5.75918372e+02, -2.94216316e-01])
    v = 4152.02
    return x@beta + v
#se indica que uno de los parametros debio ser -5.7591...

X = df[['Lat','Lon','Zip_Code']].values
Y_hat = pred_ejercicio(X)
Y = df['Mean'].values

fig, ax = plt.subplots(1,1,figsize=(7,7),dpi=120)

ax.scatter(Y_hat,Y,marker ='o',color='red')
ax.plot(Y,Y,ls='--')
plt.show()

from sklearn.linear_model import LinearRegression

X = df[['Lat', 'Lon', 'Zip_Code']]
y = df['Mean']

# Crear una instancia del modelo de regresión lineal
modelo = LinearRegression()

# Ajustar el modelo a los datos
modelo.fit(X, y)

# Obtener los parámetros del modelo
v = modelo.intercept_
β = modelo.coef_

print("Parámetro v:", v)
print("Parámetros β:", β)

# Crear una gráfica del modelo
predicciones = modelo.predict(X)

plt.scatter(df['Mean'], predicciones)
plt.xlabel('Valor real')
plt.ylabel('Predicción')
plt.title('Gráfica de predicción del modelo de regresión lineal')
plt.show()

# Definir los regresores y la variable dependiente
X = df[['Lat', 'Lon', 'Zip_Code']]
y = df['Mean']

# Crear una instancia del modelo de regresión lineal
modelo = LinearRegression()

# Ajustar el modelo a los datos
modelo.fit(X, y)

# Obtener los coeficientes del modelo
v = modelo.intercept_
β = modelo.coef_

print("Parámetro v:", v)
print("Parámetros β:", β)

# Generar una gráfica del modelo y la predicción
plt.scatter(df['Lon'], df['Mean'], color='blue', label='Datos reales')
plt.plot(df['Lon'], modelo.predict(X), color='red', linewidth=2, label='Predicción')
plt.xlabel('Longitud')
plt.ylabel('Media de ingresos')
plt.title('Modelo de regresión lineal')
plt.legend()
plt.show()

def pred(x):
    beta = np.array([6.55490348*10**2,5.75918372*10**2,-2.94216316*10**-1])
    v = 4152.02
    return x@beta + v
X = df[['Lat','Lon', 'Zip_Code']].values
Y_hat = pred(X)
Y = df['Mean'].values
fig, ax = plt.subplots(1,1,figsize=(7,7),dpi=120)

ax.scatter(Y_hat,Y,marker ='o',color='red')
ax.plot(Y,Y,ls='--')
plt.show()

Regresión Lineal con Datos Geográficos y Socioeconómicos

Introducción al curso

Este curso tiene una versión actualizada

Vectores en Álgebra Lineal: Definición y Operaciones Básicas

Vectores

Vectores y Escalares: Conceptos y Operaciones Básicas

Convenciones y Notación en Vectores y Escalares

Modelo RGB y su implementación en Python

Adición de Vectores: Conceptos y Propiedades Básicas

Suma de Vectores en Python con NumPy

Producto Escalar-Vectores: Conceptos y Propiedades Básicas

Operaciones con Escalares y Vectores en Python usando NumPy

Producto Interno de Vectores: Definición y Propiedades

Producto Interno de Vectores en Python con NumPy

Análisis de Sentimientos de Tweets con Vectores de Palabras

Funciones lineales

Funciones Lineales: Transformación de Vectores en Escalares

Funciones Lineales y Propiedades de Superposición

Teoremas y Corolarios en Funciones Lineales

Funciones Afines: Propiedades y Ejercicios Prácticos

Aproximaciones de Taylor: Modelos Lineales de Funciones No Lineales

Aproximaciones de Taylor y análisis de error en Python

Regresión Lineal con Datos Geográficos y Socioeconómicos

Norma y distancia

Propiedades y Cálculo de la Norma de Vectores

Cálculo de Distancias entre Vectores usando Normas Euclidianas y LP

Optimización de Visitas para Arrendar Departamentos

Cálculo de Desviación Estándar en Series de Tiempo con NumPy

Modelo de Riesgo Retorno en Inversiones de Acciones

Cálculo de Ángulos y Correlación entre Vectores

Clustering

Clustering con K-Means: Teoría y Aplicación Práctica

Algoritmo K-means: Clustering Geométrico Sin Matemáticas

Programación del Algoritmo K-means en Python

Cierre

Programación de Clústers y Análisis de Sentimientos