Cuando trabajas con datasets que contienen múltiples variables numéricas, calcular la correlación entre solo dos columnas no es suficiente. La matriz de covarianza organiza todas las posibles covarianzas entre parejas de variables en una sola estructura, permitiendo identificar rápidamente qué variables están relacionadas y cuáles aportan información redundante.
¿Cómo se construye la matriz de covarianza a partir de múltiples variables?
La covarianza entre dos variables mide cómo varían juntas, y ya conocemos su fórmula básica [0:30]. Pero cuando el dataset tiene columnas como X, Y, Z y más, necesitamos calcular todas las combinaciones posibles de covarianza entre esas variables.
El resultado se organiza en una matriz cuadrada donde cada fila y cada columna representan una variable del dataset [1:18]. Sus características principales son:
- Los elementos de la diagonal contienen la varianza de cada variable, es decir, la covarianza de una variable consigo misma.
- Los elementos fuera de la diagonal contienen la covarianza entre dos variables distintas.
- La matriz es simétrica: la covarianza de X con Y es igual a la de Y con X.
Esta estructura es fundamental en cualquier análisis exploratorio de datos porque resume en un solo vistazo las relaciones lineales entre todas las variables numéricas de un dataset.
¿Qué herramientas visuales ayudan a detectar correlaciones antes del cálculo?
Antes de calcular la matriz, existe un recurso gráfico muy útil: el pairplot de Seaborn [3:30]. Este genera una matriz de diagramas de dispersión donde cada celda muestra la relación entre dos variables y la diagonal presenta histogramas de distribución de cada variable individual.
En el dataset de las flores Iris, el pairplot revela que la longitud del pétalo y el ancho del pétalo presentan una correlación visualmente clara, mientras que otras combinaciones como longitud y ancho del sépalo no muestran un patrón tan definido [4:05].
Agregar el parámetro hue con la variable species colorea los puntos según la categoría de flor [4:50]. Esto permite observar si las correlaciones se mantienen dentro de cada grupo o solo aparecen al mezclar todas las especies.
¿Por qué es necesario escalar los datos antes de calcular la covarianza?
Para que las covarianzas sean comparables entre variables con escalas distintas, se aplica el Standard Scaler de Scikit-learn [5:20]. Este proceso resta el promedio y divide por la desviación estándar de cada variable, logrando que todas queden estandarizadas con media cero y desviación estándar uno.
El flujo en Python sigue estos pasos:
- Seleccionar solo las columnas numéricas del dataframe, excluyendo columnas categóricas como
species.
- Aplicar
fit_transform del escalador sobre esas columnas.
- Transponer el arreglo resultante con
.T para que cada fila represente una variable completa [7:00].
¿Cómo se calcula la matriz de covarianza en NumPy?
Con los datos escalados y transpuestos, el cálculo es directo usando np.cov() [7:45]:
python
covariance_matrix = np.cov(scaled.T)
El resultado es una matriz de 4x4 para el dataset Iris, donde los valores más altos aparecen en la diagonal. Por ejemplo, la covarianza entre longitud y ancho del pétalo alcanza 0.97, confirmando numéricamente la fuerte correlación que se observaba en el pairplot. En contraste, el ancho del sépalo con la longitud del sépalo muestra un valor de -0.37, indicando una correlación negativa débil [8:50].
¿Cómo visualizar la matriz de covarianza con un mapa de calor?
El heatmap de Seaborn transforma la matriz numérica en una escala de colores que facilita la interpretación visual [9:05]. El código template incluye parámetros como annot=True para mostrar los valores numéricos dentro de cada celda y etiquetas que corresponden a los nombres de las variables originales del dataset.
Esta visualización permite detectar patrones de forma inmediata: los colores más intensos señalan correlaciones fuertes, ya sean positivas o negativas.
La matriz de covarianza no solo sirve para explorar datos. Si dos variables están muy correlacionadas, probablemente aportan información redundante y una de ellas podría descartarse. Este principio fundamenta la técnica de análisis de componentes principales (PCA), un método de reducción de datos que combina álgebra lineal y estadística para simplificar datasets complejos sin perder información relevante [10:25].
¿Has aplicado la matriz de covarianza a tus propios datasets? Comparte qué correlaciones inesperadas has encontrado.