Determinante y rango para diagnosticar matrices

Curso de Álgebra Lineal para Machine Learning

Contenido del curso

No sé dónde empezar

Introducción al Álgebra Lineal para Machine Learning

Operaciones con Vectores y Matrices

Multiplicación de Matrices

Construcción de un Modelo de Regresión Lineal

Tomar examen

Determinante y rango para diagnosticar matrices

Resumen

Diagnosticar una matriz antes de entrenar un modelo te ahorra horas de depuración. Cuando trabajas con regresión lineal y la ecuación normal, el determinante y el rango funcionan como dos señales vitales que te dicen si tu matriz es invertible y si tus características aportan información independiente. Aquí aprenderás a calcularlos en NumPy y a leer lo que te cuentan sobre tus datos.

¿Por qué funciona la ecuación normal en una regresión lineal?

En la clase anterior encontramos los pesos del modelo y todo salió bien, pero la pregunta de fondo es qué propiedad de la matriz A permitió esa solución. La respuesta vive en dos números que diagnostican el estado de tu sistema antes de invertir nada.

¿Qué nos dice el determinante sobre la matriz A?

El determinante describe cómo una matriz escala el espacio y, en el contexto de la ecuación normal, actúa como una prueba rápida de invertibilidad. Si es distinto de cero, la matriz es invertible y tu sistema tiene una solución única. Si es cero, prepárate: el método de la inversa va a fallar.

¿Qué significa que el determinante sea cero? Significa que tu matriz no es invertible y que la ecuación normal no puede resolverse por el camino directo. Es una alerta roja sobre la estructura de tus datos.

¿Qué información extra te da el rango?

El rango va un paso más allá: te dice cuántas características son verdaderamente independientes. Si tienes tres columnas pero el rango es dos, una de esas columnas es redundante y no aporta información nueva al modelo [00:55].

La conexión entre ambos es directa. Cuando hay características redundantes, el determinante cae a cero y el rango queda por debajo del número total de columnas.

¿Cómo diagnosticar una matriz saludable en NumPy?

En el notebook partimos de la matriz original del ejercicio anterior y la renombramos como A_saludable para dejar claro que es la versión sana de los datos [01:25]. A partir de ahí calculamos los dos diagnósticos.

det_saludable = np.linalg.det(A_saludable) devuelve el determinante.
rango_saludable = np.linalg.matrix_rank(A_saludable) devuelve el rango.
Al imprimir ambos, el determinante sale grande y distinto de cero, y el rango es 3.

Ese rango de tres tiene sentido porque la matriz X_bias se construyó concatenando una columna de unos con las dos columnas originales de metros cuadrados y habitaciones. Tres columnas, tres dimensiones independientes, matriz saludable.

¿Qué pasa si agregas una columna redundante a tus datos?

Ahora viene la parte interesante: enfermar la matriz a propósito para ver el efecto en los diagnósticos [02:25]. Vamos a duplicar una columna existente y observar cómo reaccionan el determinante y el rango.

¿Cómo construir la matriz enferma paso a paso?

El proceso replica la construcción original, pero añadiendo una columna que es múltiplo de otra.

Crear habitaciones_doble = X[:, 1] * 2, que duplica el número de habitaciones.
Concatenar con X_enfermo = np.c_[X, habitaciones_doble].
Añadir el bias: X_enfermo_bias = np.c_[np.ones((4,1)), X_enfermo].
Calcular la matriz de Gram: A_enfermo = X_enfermo_bias.T @ X_enfermo_bias.

El resultado es una matriz con cuatro columnas: unos, metros cuadrados, habitaciones y habitaciones duplicadas.

¿Qué resultado arrojan el determinante y el rango en la matriz enferma?

Al correr np.linalg.det(A_enfermo) y np.linalg.matrix_rank(A_enfermo) aparece el síntoma claro: determinante igual a cero y rango igual a tres [03:55]. La matriz tiene cuatro columnas, pero solo tres dimensiones reales de información porque una columna es un múltiplo exacto de otra.

¿Por qué el rango es 3 si la matriz tiene 4 columnas? Porque duplicar una columna no agrega una dirección nueva al espacio. La columna repetida es linealmente dependiente, así que el espacio se colapsa y una dimensión se anula.

¿Cómo interpretar el rango en un dataset real?

Imagina una matriz de datos X con forma (100, 5): 100 casas y 5 características. Si al calcular el rango obtienes 4, una de esas cinco características es redundante. Puede ser una copia, una combinación lineal de otras o una variable que repite información de otra columna.

Tienes 5 columnas pero solo 4 dimensiones útiles.
El determinante de la matriz A correspondiente será cero.
La ecuación normal por la vía de la inversa no funcionará sin tratar esa redundancia.

Este fenómeno tiene nombre formal: singularidad y multicolinealidad. Y aunque hoy lo provocamos a propósito duplicando una columna, en datasets del mundo real aparece de formas más sutiles: variables correlacionadas, codificaciones one hot mal construidas o features derivadas de otras.

¿Qué obtuviste tú al pensar en el caso de las 100 casas con 5 características y rango 4? Comparte tu interpretación en los comentarios y comparemos enfoques.

Gabriel Obregón

Estudiante

📊 Diagnóstico de regresión lineal

🔢 Determinante y 📐 Rango

🎯 OBJETIVO

👉 Aprender a diagnosticar si un modelo de regresión lineal funcionará antes de que fallen los cálculos, usando:

✔ Determinante

✔ Rango

🛑 Para detectar a tiempo:

· Singularidad

· Multicolinealidad

· Características redundantes

💡 IDEA CENTRAL

🧠 El modelo funciona solo si la matriz de la ecuación normal es invertible.

🔍 El determinante y el rango permiten verificar esto de forma directa.

🔢 HERRAMIENTA 1: DETERMINANTE

❓ ¿Qué indica?

📏 Muestra cómo la matriz “escala” el espacio ⚡ Sirve como prueba rápida de invertibilidad

✅ Interpretación

✔ Determinante ≠ 0 → matriz invertible → solución única

❌ Determinante = 0 → matriz no invertible → el método de la inversa falla

🧠 Uso clave: detectar singularidad antes de entrenar el modelo.

📐 HERRAMIENTA 2: RANGO

❓ ¿Qué mide?

🔎 Cuántas características independientes reales hay en los datos

✅ Interpretación

✔ Rango = número de columnas → todas las características aportan información

⚠ Rango < número de columnas → existe al menos una característica redundante

🧩 Idea importante: Una característica redundante = combinación lineal de otras.

🔗 CONEXIÓN ENTRE DETERMINANTE Y RANGO

🔁 Todo está relacionado:

· Características redundantes ⬇

· Baja el rango ⬇

· El determinante se vuelve cero

📌 Por eso suelen aparecer juntos:

· Multicolinealidad

· Singularidad

· Determinante = 0

· Rango reducido

🧪 DIAGNÓSTICO CON NUMPY

🟢 Caso “saludable”

📂 Situación

· Matriz A construida desde X

· ➕ Columna de unos (bias)

· Total: 3 columnas independientes

🎯 Resultado esperado

✔ Determinante ≠ 0 ✔ Rango = 3

🛠 Funciones usadas

· np.linalg.det → determinante

· np.linalg.matrix_rank → rango

✅ Conclusión: La matriz es invertible y el modelo es válido.

🦠 CASO “ENFERMO”

Columna redundante

🔧 Qué se hace

· Se duplica una característica (ej.: habitaciones)

· Se añade al conjunto de datos

· Se reconstruye la matriz A

⚠ Qué ocurre

· La nueva columna depende de otra

· El espacio de datos “colapsa”

🚨 Diagnóstico

❌ Determinante = 0 ⚠ Rango < número de columnas

📛 Interpretación:

· La matriz no es invertible

· Una característica no aporta información

· Aparece multicolinealidad

Determinante y rango para diagnosticar matrices

Introducción al Álgebra Lineal para Machine Learning

Álgebra lineal detrás de Spotify y Netflix

Configura Google Colab para álgebra lineal

NumPy y Matplotlib para datos en Python

Vectores, matrices y tensores en NumPy

Operaciones con Vectores y Matrices

Resta y broadcasting de vectores en NumPy

Norma L2 vs L1 en vectores con NumPy

Similitud coseno con vectores de palabras

Ortogonalidad y ortonormalidad con NumPy

Multiplicación de Matrices

Producto matriz-vector para inferencia en NumPy

Multiplicación matricial en redes neuronales

Matriz identidad e inversa en NumPy

Construcción de un Modelo de Regresión Lineal

Regresión lineal desde cero con álgebra lineal

Regresión lineal resuelta con álgebra lineal

Determinante y rango para diagnosticar matrices

Multicolinealidad: por qué rompe tu modelo

Pseudo inversa de NumPy para matrices singulares

Resumen