Cómo predecir precios con álgebra lineal

Clase 12 de 16 • Curso de Álgebra Lineal para Machine Learning

Resumen

La regresión lineal permite estimar precios de viviendas con el poder del álgebra lineal. A partir de datos reales, se formula Xθ = y para encontrar los pesos θ que generan la línea de mejor ajuste. Con un ejemplo de cuatro casas y dos características, se prepara el sistema y se construyen sus componentes: matriz de Gram y vector B, listos para resolver mediante la ecuación normal.

¿Qué resuelve la regresión lineal para precios de viviendas?

La meta es ajustar una línea o plano que minimice el error entre predicciones y valores reales. Para precios, la hipótesis es: precio = θ0 + θ1·metros cuadrados + θ2·habitaciones. Con notación matricial, se escribe Xθ = y, donde X es la matriz de características, y el vector de precios y θ el vector de pesos.

Mejor ajuste: línea roja que se aproxima a los puntos azules de datos reales.
Hipótesis paramétrica: θ0, θ1 y θ2 son el conocimiento del modelo.
Ecuación normal: se busca θ resolviendo XᵀX θ = Xᵀy.
Objetivo práctico: predecir el precio con base en metros cuadrados y habitaciones.

¿Cómo aplicar la ecuación normal con NumPy paso a paso?

Se trabaja en Google Colab con NumPy y Matplotlib. Primero, se define el conjunto de datos y se visualiza para ver si una sola línea pasa por todos los puntos (no necesariamente).

Crear X con dos columnas: metros cuadrados y habitaciones.
Crear y con los precios reales en miles de dólares.
Graficar dispersión para inspección visual.
Agregar bias (columna de unos) para incluir el término θ0.
Construir A = XᵀX y B = Xᵀy para la ecuación normal.

import numpy as np
import matplotlib.pyplot as plt

# Datos
X = np.array([
    [80, 3],
    [120, 3],
    [100, 2],
    [150, 4]
])

y = np.array([310, 390, 325, 530])  # miles de dólares

# Visualización
plt.figure(figsize=(8, 6))
plt.scatter(X[:, 0], y, color='blue', label='datos reales de las casas')
plt.xlabel('metros cuadrados')
plt.ylabel('precio')
plt.title('¿será que podemos ajustar una línea perfecta en estos datos?')
plt.grid(True)
plt.legend()
plt.show()

# Agregar bias
X_bias = np.c_[np.ones((4, 1)), X]

# Componentes de la ecuación normal
A = X_bias.T @ X_bias
B = X_bias.T @ y

print(f"matriz A:\n{A}")
print(f"vector B:\n{B}")

X_bias: añade una columna de unos para evitar forzar la línea a pasar por el origen.
A y B listos: el sistema Aθ = B queda planteado para resolver los pesos óptimos.

¿Por qué la matriz de Gram y el vector B importan?

La matriz de Gram A = XᵀX condensa la estructura del conjunto de datos. Resume la importancia individual de cada característica y cómo se relacionan entre sí. En el ejemplo, los metros cuadrados dominan numéricamente por su rango mayor (de 80 a 150) frente a habitaciones (de 2 a 4), por eso aparecen valores más grandes asociados a esa característica. Es un mapa compacto de relevancias y correlaciones.

Importancia individual: qué tanta “fuerza” tiene cada característica por sí sola.
Relación entre características: si más metros cuadrados suelen implicar más habitaciones.
Escala de valores: rangos altos generan números grandes en A.

El vector B = Xᵀy captura la conexión entre cada característica y el precio objetivo. Un valor alto indica que esa característica aporta una pista fuerte para estimar el precio. El primer elemento refleja la columna de unos del bias; los siguientes vinculan directamente metros cuadrados y habitaciones con el precio.

Conexión con el objetivo: mide la asociación entre características y precio.
Prioridad práctica: metros cuadrados tiende a destacar por su magnitud numérica.
Preparación final: con A y B definidos, queda resolver para θ y obtener la línea de mejor ajuste.

Antes de resolver, te invito a participar: comparte en comentarios la forma (shape) de la matriz A que obtuviste. ¿Es cuadrada? ¿Por qué crees que esto es importante para el siguiente paso al resolver el sistema?

Gabriel Obregón

student•

🧾📊🏠 Regresión lineal para estimar precios de viviendas

💡 IDEA CENTRAL

📈 La regresión lineal permite estimar el precio de una vivienda usando álgebra lineal y datos reales.

🧠 El modelo aprende una relación matemática entre las características de una casa y su precio.

🎯 ¿QUÉ PROBLEMA RESUELVE?

✔ Ajustar una línea o plano a los datos

✔ Minimizar el error entre:

🔵 precios reales
🔴 precios predichos

👉 Uso práctico: predecir precios de viviendas

🏠 VARIABLES DEL MODELO

🔹 Entradas (características)

📐 Metros cuadrados
🚪 Número de habitaciones

🔹 Salida

💰 Precio de la vivienda (miles de dólares)

🧮 HIPÓTESIS DEL MODELO

📌 El precio se modela como:

precio = θ0 + θ1 · metros cuadrados + θ2 · habitaciones

🔍 Significado de los parámetros:

⚪ θ0 → término independiente (bias)
📏 θ1 → influencia de los metros cuadrados
🚪 θ2 → influencia de las habitaciones

🧠 Estos valores representan el conocimiento aprendido.

🧩 FORMULACIÓN MATEMÁTICA

📐 El problema se expresa como:

Xθ = y

Donde:

🟦 X → matriz de características
🟧 θ → vector de pesos
🟩 y → precios reales

📉 MEJOR AJUSTE (INTUICIÓN VISUAL)

🔵 Puntos → datos reales 🔴 Línea → predicción del modelo

⚠ La línea:

no pasa por todos los puntos
se aproxima al conjunto completo

📘 ECUACIÓN NORMAL

🔎 Para encontrar los valores óptimos de θ:

X transpuesta por X multiplicado por θ = X transpuesta por y

➡ Convierte el problema en un sistema resoluble directamente.

🧪 EJEMPLO PRÁCTICO

🏘 Datos:

🔢 4 viviendas
📊 2 características
💻 Google Colab
🧰 NumPy y Matplotlib

🔍 PROCEDIMIENTO PASO A PASO

① 📥 Definir X

columnas: metros cuadrados y habitaciones

② 🎯 Definir y

precios reales (miles de dólares)

③ 📊 Visualizar datos

gráfica de dispersión

④ ➕ Agregar bias

columna de unos
evita forzar la línea al origen

⑤ 🧮 Construir ecuación normal

🅰 A = X transpuesta por X
🅱 B = X transpuesta por y

➡ Sistema final: Aθ = B

🧠 MATRIZ DE GRAM (A)

🧩 Resume la estructura del conjunto de datos.

Contiene información sobre:

🔹 🔋 Importancia individual

qué tan fuerte es cada característica

🔹 🔗 Relación entre variables

por ejemplo: casas grandes → más habitaciones

🔹 📏 Escala de valores

metros cuadrados (80–150)
habitaciones (2–4) ➡ números más grandes asociados a metros cuadrados

🗺 A funciona como un mapa de relevancias y correlaciones.

🎯 VECTOR B

📌 Representa la relación entre características y precio.

⚪ Primer valor → bias
📏 Valor asociado a metros cuadrados
🚪 Valor asociado a habitaciones

🔍 Valores altos → señal fuerte para predecir el precio.

✅ ESTADO FINAL DEL MODELO

✔ Matriz A construida

✔ Vector B calculado

✔ Sistema listo para resolver

➡ Resolver Aθ = B permite obtener:

🎯 los pesos θ
📈 la línea o plano de mejor ajuste

William Santiago Alzate Barriga

student•

Hola, no entendí porque fue necesario rellenar la matriz con 1 (unos), alguien me ayuda con esta duda por favor

Daniel Erazo

teacher•

¡Hola! Esa es una excelente pregunta y es la clave para que nuestro modelo tenga 'libertad' de movimiento. Aquí te explico por qué de forma sencilla:

Imagina la ecuación de una línea recta básica: y = mx + b.

mx depende de la variable (como los metros cuadrados).
b es el intercepto (el punto donde la línea corta al eje vertical). Es un valor fijo que le permite a la línea subir o bajar sin depender de x.

El problema:

Cuando hacemos la multiplicación de matrices (X . theta), la computadora multiplica cada peso por una característica. Si solo tuviéramos la columna de metros cuadrados, la fórmula sería solo Precio = theta_1 . (metros). Esto obligaría a que la línea pase siempre por el punto (0,0) (origen). ¡Es como si dijéramos que una casa con 0 metros necesariamente vale 0 dólares y no tiene costos base!

La solución (los Unos):

Al agregar una columna de unos, estamos creando un espacio para ese intercepto (theta_0). La operación matemática interna se ve así:

Precio = (theta_0 . 1) + (theta_1 . metros)

Ese 1 es un "truco" matemático para que el peso theta_0 se multiplique por algo y se sume al resultado final. Gracias a esa columna de unos, nuestra línea roja puede despegarse del cero y ajustarse mejor a los precios reales.

Bryan Castano

student•

Hey, el Post de Towards_AI esta realmente interesante, Me ha gustado mucho leerlo, Ya habia entendo Ridge and Lasso pero no lo habia bisto la relacion con SVD.

Ufff realmente es matematica aplicada a ML.

Yo tenia varias dudas respecto a $lambda$ sera un escalar, un vector o una matriz?

La Respuesta es mucho mas profunda y facinante, aqui una respuesta que Gemini me ayudo a concluir como My Tutor de DL.

Mínimos Cuadrados Ordinarios (OLS): Explica la solución de forma cerrada $W = (X^T X)^{-1} X^T y$. Lo más importante aquí es la asunción de independencia lineal (rango de columna completo), ya que si hay multicolinealidad, $X^T X$ es singular y no podemos invertirla.
Regresión Ridge (L2): Introduce el parámetro de regularización $\lambda$ para combatir la inestabilidad numérica. Lo más interesante es cómo usa la Descomposición en Valores Singulares (SVD) para resolverlo sin invertir matrices directamente, lo cual es computacionalmente más eficiente ($O(n^3)$ vs la estabilidad de SVD) y maneja mejor matrices casi singulares.
Regresión Lasso (L1): Aquí la matemática se pone seria con la no-diferenciabilidad de la norma L1 en el origen. El artículo explica por qué no usamos gradiente descendente estándar, sino Coordinate Descent (descenso por coordenadas) y la función de Soft Thresholding (umbral blando) basada en sub-diferenciales para inducir sparsity (dispersión).

\n Es muy común confundirse con esto porque en las ecuaciones matriciales a veces vemos que $\lambda$ acompaña a una matriz.

Aqui la Explciacion de Gemini,

En la regresión Ridge estándar, $\lambda$ (o alpha) es un escalar.

Es un hiperparámetro que tú eliges (un número real positivo, $\lambda \geq 0$). Sin embargo, en la notación matricial de la solución cerrada:

w = (X^T X + lambda. I)^{-1} X^T. y ;

La I es la clave, esl oque hace que Lambda se vuelva una matriz, osea lambda@I ;

El término $\lambda$ se multiplica por la matriz identidad $I$. Esto convierte al escalar en una matriz diagonal donde todos los elementos de la diagonal principal son $\lambda$. El propósito de esto es "inflar" la diagonal de $X^T X$ para asegurar que la matriz sea invertible (no singular), incluso si hay multicolinealidad.

El profesor habl ode eso la clase pasada y me hizo confudndio, para que servira la matrix I en Ridge Regresión ?

</context>

\n Ahora todo hace sntido.

La Descomposición en Valores Singulares (SVD) simplifica esto. Recordemos que cualquier matriz $X$ de tamaño $n x p$ se puede descomponer como:

X = U \Sigma V^T ;

Donde:

$U$: Matriz de vectores propios de $X X^T$ (ortogonal).
$V$: Matriz de vectores propios de $X^T X$ (ortogonal).
$\Sigma$: Matriz diagonal con los valores singulares $\sigma_i$.

Paso A: Sustituir $X$ en el término $(X^T X + \lambda I)$

Sabemos que $X^T X = (V \Sigma^T U^T)(U \Sigma V^T)$. Como $U$ es ortogonal, $U^T U = I$, por lo que:

$$X^T X = V \Sigma^2 V^T$$

Ahora, el término de Ridge se convierte en:

$$X^T X + \lambda I = V \Sigma^2 V^T + \lambda I$$

Aquí viene el truco de álgebra lineal: como $V$ es ortogonal ($V V^T = I$), podemos escribir la identidad como $I = V I V^T$. Entonces:

$$V \Sigma^2 V^T + \lambda V I V^T = V (\Sigma^2 + \lambda I) V^T$$

</demostracion>

Si miras los componentes individuales de esa matriz diagonal central, verás que cada coeficiente se escala por:

$$\frac{\sigma_i}{\sigma_i^2 + \lambda}$$

Si $\lambda = 0$, recuperamos la solución de OLS: $1/\sigma_i$.
Si $\lambda > 0$, el denominador aumenta, lo que encoge (shrinks) los pesos $w$.

Esto es lo que evita que los coeficientes exploten cuando los valores singulares $\sigma_i$ son muy pequeños (que es lo que pasa cuando hay multicolinealidad).

El escalar $\lambda$ termina operando directamente sobre el cuadrado de los valores singulares.

Eso es lo que le da estabilidad al modelo.

Esto fue Genial entenderlo finalmente, ahora veo como Ridge se aplcia tambien como regularizacion a las neuronas, en entrenamiento.

COn lLasso el asunto es un poco mas complejo y facinante, \nYo supongo que nosotos veremos algo de esto en el otro curso, \n Estoy ancisoso por ver SVD paraPCA , si el profesor explcia tmabien Algebra seguro ese metodo sera bien entendido. PCA siempre me ha sido muy abstracto pro todo eso de los espacios vectoriales perpendiculares y reduccion de dimensiones.

Darlinson Felipe Polania Camacho

student•

Esta es el shape que da a matriz del proyecto 3x3

Diego Ortiz

student•

Buen link el que detalla la regresión lineal, aunque está raro que se llame "Just a moment...", podría ser un poco más explícito ese título de link.

Daniel Erazo

teacher•

Muchas gracias por el comentario, lo vamos a cambiar

Alberto Ezequiel Marin Chacon

student•

Es una matriz (4, 3). Como no es cuadrada entonces no es invertible. Como se vio en el curso de fundamentos de AL, eso quiere decir que el sistema no se resuelve con un simple producto punto.

Daniel Erazo

teacher•

Excelente, muy bien!

Cómo predecir precios con álgebra lineal

Introducción al Álgebra Lineal para Machine Learning

Cómo Netflix sabe qué quieres ver

Configurar Google Colab para álgebra lineal

NumPy y Matplotlib: de números a gráficos

Escalares, vectores y tensores en Machine Learning

Operaciones con Vectores y Matrices

Resta y multiplicación escalar en machine learning

Norma L2 vs L1 en vectores con NumPy

Producto punto: cómo mide similitud la IA

Ortogonalidad en machine learning con Python

Multiplicación de Matrices

Producto matriz-vector en NumPy para inferencia

Producto matriz matriz en NumPy

Matriz identidad e inversa en NumPy

Construcción de un Modelo de Regresión Lineal

Cómo predecir precios con álgebra lineal

Cómo resolver theta con np.linalg.solve

Determinante y rango en regresión lineal

Por qué la multicolinealidad rompe el entrenamiento

Pseudoinversa para multicolinealidad en NumPy