Cómo predecir precios con álgebra lineal

Clase 12 de 16 • Curso de Álgebra Lineal para Machine Learning

Contenido del curso

Introducción al Álgebra Lineal para Machine Learning

Operaciones con Vectores y Matrices

Multiplicación de Matrices

Construcción de un Modelo de Regresión Lineal

Resumen

La regresión lineal permite estimar precios de viviendas con el poder del álgebra lineal. A partir de datos reales, se formula Xθ = y para encontrar los pesos θ que generan la línea de mejor ajuste. Con un ejemplo de cuatro casas y dos características, se prepara el sistema y se construyen sus componentes: matriz de Gram y vector B, listos para resolver mediante la ecuación normal.

¿Qué resuelve la regresión lineal para precios de viviendas?

La meta es ajustar una línea o plano que minimice el error entre predicciones y valores reales. Para precios, la hipótesis es: precio = θ0 + θ1·metros cuadrados + θ2·habitaciones. Con notación matricial, se escribe Xθ = y, donde X es la matriz de características, y el vector de precios y θ el vector de pesos.

Mejor ajuste: línea roja que se aproxima a los puntos azules de datos reales.
Hipótesis paramétrica: θ0, θ1 y θ2 son el conocimiento del modelo.
Ecuación normal: se busca θ resolviendo XᵀX θ = Xᵀy.
Objetivo práctico: predecir el precio con base en metros cuadrados y habitaciones.

¿Cómo aplicar la ecuación normal con NumPy paso a paso?

Se trabaja en Google Colab con NumPy y Matplotlib. Primero, se define el conjunto de datos y se visualiza para ver si una sola línea pasa por todos los puntos (no necesariamente).

Crear X con dos columnas: metros cuadrados y habitaciones.
Crear y con los precios reales en miles de dólares.
Graficar dispersión para inspección visual.
Agregar bias (columna de unos) para incluir el término θ0.
Construir A = XᵀX y B = Xᵀy para la ecuación normal.

import numpy as np
import matplotlib.pyplot as plt

# Datos
X = np.array([
    [80, 3],
    [120, 3],
    [100, 2],
    [150, 4]
])

y = np.array([310, 390, 325, 530])  # miles de dólares

# Visualización
plt.figure(figsize=(8, 6))
plt.scatter(X[:, 0], y, color='blue', label='datos reales de las casas')
plt.xlabel('metros cuadrados')
plt.ylabel('precio')
plt.title('¿será que podemos ajustar una línea perfecta en estos datos?')
plt.grid(True)
plt.legend()
plt.show()

# Agregar bias
X_bias = np.c_[np.ones((4, 1)), X]

# Componentes de la ecuación normal
A = X_bias.T @ X_bias
B = X_bias.T @ y

print(f"matriz A:\n{A}")
print(f"vector B:\n{B}")

X_bias: añade una columna de unos para evitar forzar la línea a pasar por el origen.
A y B listos: el sistema Aθ = B queda planteado para resolver los pesos óptimos.

¿Por qué la matriz de Gram y el vector B importan?

La matriz de Gram A = XᵀX condensa la estructura del conjunto de datos. Resume la importancia individual de cada característica y cómo se relacionan entre sí. En el ejemplo, los metros cuadrados dominan numéricamente por su rango mayor (de 80 a 150) frente a habitaciones (de 2 a 4), por eso aparecen valores más grandes asociados a esa característica. Es un mapa compacto de relevancias y correlaciones.

Importancia individual: qué tanta “fuerza” tiene cada característica por sí sola.
Relación entre características: si más metros cuadrados suelen implicar más habitaciones.
Escala de valores: rangos altos generan números grandes en A.

El vector B = Xᵀy captura la conexión entre cada característica y el precio objetivo. Un valor alto indica que esa característica aporta una pista fuerte para estimar el precio. El primer elemento refleja la columna de unos del bias; los siguientes vinculan directamente metros cuadrados y habitaciones con el precio.

Conexión con el objetivo: mide la asociación entre características y precio.
Prioridad práctica: metros cuadrados tiende a destacar por su magnitud numérica.
Preparación final: con A y B definidos, queda resolver para θ y obtener la línea de mejor ajuste.

Antes de resolver, te invito a participar: comparte en comentarios la forma (shape) de la matriz A que obtuviste. ¿Es cuadrada? ¿Por qué crees que esto es importante para el siguiente paso al resolver el sistema?

Bryan Castano

student•

Hey, el Post de Towards_AI esta realmente interesante, Me ha gustado mucho leerlo, Ya habia entendo Ridge and Lasso pero no lo habia bisto la relacion con SVD.

Ufff realmente es matematica aplicada a ML.

Yo tenia varias dudas respecto a $lambda$ sera un escalar, un vector o una matriz?

La Respuesta es mucho mas profunda y facinante, aqui una respuesta que Gemini me ayudo a concluir como My Tutor de DL.

Mínimos Cuadrados Ordinarios (OLS): Explica la solución de forma cerrada $W = (X^T X)^{-1} X^T y$. Lo más importante aquí es la asunción de independencia lineal (rango de columna completo), ya que si hay multicolinealidad, $X^T X$ es singular y no podemos invertirla.
Regresión Ridge (L2): Introduce el parámetro de regularización $\lambda$ para combatir la inestabilidad numérica. Lo más interesante es cómo usa la Descomposición en Valores Singulares (SVD) para resolverlo sin invertir matrices directamente, lo cual es computacionalmente más eficiente ($O(n^3)$ vs la estabilidad de SVD) y maneja mejor matrices casi singulares.
Regresión Lasso (L1): Aquí la matemática se pone seria con la no-diferenciabilidad de la norma L1 en el origen. El artículo explica por qué no usamos gradiente descendente estándar, sino Coordinate Descent (descenso por coordenadas) y la función de Soft Thresholding (umbral blando) basada en sub-diferenciales para inducir sparsity (dispersión).

\n Es muy común confundirse con esto porque en las ecuaciones matriciales a veces vemos que $\lambda$ acompaña a una matriz.

Aqui la Explciacion de Gemini,

En la regresión Ridge estándar, $\lambda$ (o alpha) es un escalar.

Es un hiperparámetro que tú eliges (un número real positivo, $\lambda \geq 0$). Sin embargo, en la notación matricial de la solución cerrada:

w = (X^T X + lambda. I)^{-1} X^T. y ;

La I es la clave, esl oque hace que Lambda se vuelva una matriz, osea lambda@I ;

El término $\lambda$ se multiplica por la matriz identidad $I$. Esto convierte al escalar en una matriz diagonal donde todos los elementos de la diagonal principal son $\lambda$. El propósito de esto es "inflar" la diagonal de $X^T X$ para asegurar que la matriz sea invertible (no singular), incluso si hay multicolinealidad.

El profesor habl ode eso la clase pasada y me hizo confudndio, para que servira la matrix I en Ridge Regresión ?

</context>

\n Ahora todo hace sntido.

La Descomposición en Valores Singulares (SVD) simplifica esto. Recordemos que cualquier matriz $X$ de tamaño $n x p$ se puede descomponer como:

X = U \Sigma V^T ;

Donde:

$U$: Matriz de vectores propios de $X X^T$ (ortogonal).
$V$: Matriz de vectores propios de $X^T X$ (ortogonal).
$\Sigma$: Matriz diagonal con los valores singulares $\sigma_i$.

Paso A: Sustituir $X$ en el término $(X^T X + \lambda I)$

Sabemos que $X^T X = (V \Sigma^T U^T)(U \Sigma V^T)$. Como $U$ es ortogonal, $U^T U = I$, por lo que:

$$X^T X = V \Sigma^2 V^T$$

Ahora, el término de Ridge se convierte en:

$$X^T X + \lambda I = V \Sigma^2 V^T + \lambda I$$

Aquí viene el truco de álgebra lineal: como $V$ es ortogonal ($V V^T = I$), podemos escribir la identidad como $I = V I V^T$. Entonces:

$$V \Sigma^2 V^T + \lambda V I V^T = V (\Sigma^2 + \lambda I) V^T$$

</demostracion>

Si miras los componentes individuales de esa matriz diagonal central, verás que cada coeficiente se escala por:

$$\frac{\sigma_i}{\sigma_i^2 + \lambda}$$

Si $\lambda = 0$, recuperamos la solución de OLS: $1/\sigma_i$.
Si $\lambda > 0$, el denominador aumenta, lo que encoge (shrinks) los pesos $w$.

Esto es lo que evita que los coeficientes exploten cuando los valores singulares $\sigma_i$ son muy pequeños (que es lo que pasa cuando hay multicolinealidad).

El escalar $\lambda$ termina operando directamente sobre el cuadrado de los valores singulares.

Eso es lo que le da estabilidad al modelo.

Esto fue Genial entenderlo finalmente, ahora veo como Ridge se aplcia tambien como regularizacion a las neuronas, en entrenamiento.

COn lLasso el asunto es un poco mas complejo y facinante, \nYo supongo que nosotos veremos algo de esto en el otro curso, \n Estoy ancisoso por ver SVD paraPCA , si el profesor explcia tmabien Algebra seguro ese metodo sera bien entendido. PCA siempre me ha sido muy abstracto pro todo eso de los espacios vectoriales perpendiculares y reduccion de dimensiones.

Cómo predecir precios con álgebra lineal

Introducción al Álgebra Lineal para Machine Learning

Cómo Netflix sabe qué quieres ver

Configurar Google Colab para álgebra lineal

NumPy y Matplotlib: de números a gráficos

Escalares, vectores y tensores en Machine Learning

Operaciones con Vectores y Matrices

Resta y multiplicación escalar en machine learning

Norma L2 vs L1 en vectores con NumPy

Producto punto: cómo mide similitud la IA

Ortogonalidad en machine learning con Python

Multiplicación de Matrices

Producto matriz-vector en NumPy para inferencia

Producto matriz matriz en NumPy

Matriz identidad e inversa en NumPy

Construcción de un Modelo de Regresión Lineal

Cómo predecir precios con álgebra lineal

Cómo resolver theta con np.linalg.solve

Determinante y rango en regresión lineal

Por qué la multicolinealidad rompe el entrenamiento

Pseudoinversa para multicolinealidad en NumPy