Construcción y Análisis de la Matriz de Covarianza en Python

Clase 20 de 24 • Curso de Matemáticas para Data Science: Estadística Descriptiva

Contenido del curso

¿Para qué sirve la estadística descriptiva?

Estadística descriptiva para analítica

Estadística en la ingesta de datos

Proyecto de aplicación

Despedida

24
Estadística Descriptiva: Claves para el Análisis de Datos
03:06 min

Tomar examen

Resumen

Cuando trabajas con datasets que contienen múltiples variables numéricas, calcular la correlación entre solo dos columnas no es suficiente. La matriz de covarianza organiza todas las posibles covarianzas entre parejas de variables en una sola estructura, permitiendo identificar rápidamente qué variables están relacionadas y cuáles aportan información redundante.

¿Cómo se construye la matriz de covarianza a partir de múltiples variables?

La covarianza entre dos variables mide cómo varían juntas, y ya conocemos su fórmula básica [0:30]. Pero cuando el dataset tiene columnas como X, Y, Z y más, necesitamos calcular todas las combinaciones posibles de covarianza entre esas variables.

El resultado se organiza en una matriz cuadrada donde cada fila y cada columna representan una variable del dataset [1:18]. Sus características principales son:

Los elementos de la diagonal contienen la varianza de cada variable, es decir, la covarianza de una variable consigo misma.
Los elementos fuera de la diagonal contienen la covarianza entre dos variables distintas.
La matriz es simétrica: la covarianza de X con Y es igual a la de Y con X.

Esta estructura es fundamental en cualquier análisis exploratorio de datos porque resume en un solo vistazo las relaciones lineales entre todas las variables numéricas de un dataset.

¿Qué herramientas visuales ayudan a detectar correlaciones antes del cálculo?

Antes de calcular la matriz, existe un recurso gráfico muy útil: el pairplot de Seaborn [3:30]. Este genera una matriz de diagramas de dispersión donde cada celda muestra la relación entre dos variables y la diagonal presenta histogramas de distribución de cada variable individual.

En el dataset de las flores Iris, el pairplot revela que la longitud del pétalo y el ancho del pétalo presentan una correlación visualmente clara, mientras que otras combinaciones como longitud y ancho del sépalo no muestran un patrón tan definido [4:05].

Agregar el parámetro hue con la variable species colorea los puntos según la categoría de flor [4:50]. Esto permite observar si las correlaciones se mantienen dentro de cada grupo o solo aparecen al mezclar todas las especies.

¿Por qué es necesario escalar los datos antes de calcular la covarianza?

Para que las covarianzas sean comparables entre variables con escalas distintas, se aplica el Standard Scaler de Scikit-learn [5:20]. Este proceso resta el promedio y divide por la desviación estándar de cada variable, logrando que todas queden estandarizadas con media cero y desviación estándar uno.

El flujo en Python sigue estos pasos:

Seleccionar solo las columnas numéricas del dataframe, excluyendo columnas categóricas como species.
Aplicar fit_transform del escalador sobre esas columnas.
Transponer el arreglo resultante con .T para que cada fila represente una variable completa [7:00].

¿Cómo se calcula la matriz de covarianza en NumPy?

Con los datos escalados y transpuestos, el cálculo es directo usando np.cov() [7:45]:

python covariance_matrix = np.cov(scaled.T)

El resultado es una matriz de 4x4 para el dataset Iris, donde los valores más altos aparecen en la diagonal. Por ejemplo, la covarianza entre longitud y ancho del pétalo alcanza 0.97, confirmando numéricamente la fuerte correlación que se observaba en el pairplot. En contraste, el ancho del sépalo con la longitud del sépalo muestra un valor de -0.37, indicando una correlación negativa débil [8:50].

¿Cómo visualizar la matriz de covarianza con un mapa de calor?

El heatmap de Seaborn transforma la matriz numérica en una escala de colores que facilita la interpretación visual [9:05]. El código template incluye parámetros como annot=True para mostrar los valores numéricos dentro de cada celda y etiquetas que corresponden a los nombres de las variables originales del dataset.

Esta visualización permite detectar patrones de forma inmediata: los colores más intensos señalan correlaciones fuertes, ya sean positivas o negativas.

La matriz de covarianza no solo sirve para explorar datos. Si dos variables están muy correlacionadas, probablemente aportan información redundante y una de ellas podría descartarse. Este principio fundamenta la técnica de análisis de componentes principales (PCA), un método de reducción de datos que combina álgebra lineal y estadística para simplificar datasets complejos sin perder información relevante [10:25].

¿Has aplicado la matriz de covarianza a tus propios datasets? Comparte qué correlaciones inesperadas has encontrado.

Comentarios

Javier Pajarito Caicedo

student•

Aporto solo una forma de lograr la matriz de correlación en una sola línea, basado en el aporte de @maxplank

Alejandro Núñez Arroyo

student•

Me gustó el resultado, gracias por el aporte.

Uriel Alfonso Velandia Donado

student•

Algo que he aprendido al estudiar en la escuela de Data Science es que los heat maps son muy utiles para hacer estadistica descriptiva, este es solo uno de los ejemplos, pero en generar poder observar la magnitud de una variable con colores ayuda enormemente a la visualización y comprension de los datos. ¡Gracias por tu aporte!

Mario Esser

student•

Podemos usar También el método de Pandas: dataframe.corr()

corr_matrix = iris.corr()

José Herrera

student•

Que genial, es mucho más fácil

Pablo Garrido Hernandez

student•

que genial aporte lo implementé así:

corr_matrix = iris.select_dtypes(include='number').corr()
#select_dtypes() para filtrar las columnas numéricas
corr_matrix

Miguel Angel Velazquez Romero

student•

Matriz de covarianza

Una matriz de varianzas-covarianzas es una matriz cuadrada que contiene las varianzas y covarianzas asociadas con diferentes variables. Los elementos de la diagonal de la matriz contienen las varianzas de las variables, mientras que los elementos que se encuentran fuera de la diagonal contienen las covarianzas entre todos los pares posibles de variables.

Javier Suárez Meerhoff

student•

gracias!

Gabriela Andreina García Uzcategui

student•

Sería bueno complementar este curso con alguno mas básico, además de resúmenes debajo de cada clase, el profesor conoce muy bien lo que está hablando, eso es obvio, pero para los que no tenemos idea de estos conceptos se dificulta seguir todo lo que esta queriendo explicar, estoy haciendo mi mejor esfuerzo por terminarlo, pero hay muchas cosas que no estoy entendiendo y veo que cada vez hay menos aportes.

Miguel Angel Reyes Moreno

student•

Yo creo que siempre puedes buscar algo en Google y/o Youtube :)

Puedes usar el canal de YouTube 365 Data Science o Data Science for business también esa Rafa Gonzalez Gouveia y no olvidemos a StatQuest with Josh Starmer

Luis Sical

student•

te recomiendo este curso, muy bueno

https://platzi.com/cursos/estadistica-probabilidad/

Max Andy Diaz Neyra

student•

Resumen de la clase: ¿Qué es una matriz de covarianza? Cuando se tienen más de 2 variables se calculan todas las posibles covarianzas de las parejas de datos, esto se organiza en una matriz y se obtiene lo que se conoce como una matriz de covarianza. Esta se representa con la letra sigma mayúscula Sigma. • Los valores de la diagonal dan valores muy altos porque evidentemente cada variable está muy correlacionada consigo misma. • Los elementos que se encuentran fuera de la diagonal contienen las covarianzas entre todos los pares posibles de variables. . ¿Qué hace el StandardScaler() de Scikit Learn? Normaliza los datos restando el promedio y dividiendo sobre la desviación estándar en cada variable (Z-Score). Nota: para calcular la matriz de correlaciones hay que obtener la transpuesta del Array con los datos escalados. . ¿Cómo se calcula la matriz de covarianza con Python? Método cov() de Numpy: covariance_matrix = np.cov(scaled.T) Método corr() de Pandas: corr_matrix = df.corr()

Jeinfferson Bernal G

student•

Gracias por el resumen. Muy bueno

Ruddy Ramos

student•

Muchas gracias por el aporte.

Esmeralda Palacios

student•

por si a alguien tiene la inquietud de cómo se haría con pandas (dataframes en lugar de arrays) Normalizamos

scaler = StandardScaler()
scaled = scaler.fit_transform(
    iris[['sepal_length', 'sepal_width', 'petal_length', 'petal_width']]
)

** pasamos a dataframe**

scaled_df=pd.DataFrame(scaled)

matriz de Covarianza y matriz de correlación

covar=scaled_df.cov()
correlacion_matrix_pd=scaled_df.corr()

vizualizamos matriz de correlación

hm=sns.heatmap(correlacion_matrix_pd,
                annot=True,
                cmap="RdBu",
                vmin=-1.0,
                yticklabels=['sepal_length', 'sepal_width', 'petal_length', 'petal_width'],
                xticklabels=['sepal_length', 'sepal_width', 'petal_length', 'petal_width']
                )

Max Andy Diaz Neyra

student•

Oh vaya, no habia reparado en eso. Pense que el hecho de ser dataframe era simplemente un nombre a un arreglo, pero claro viene con su juego de atributos de clase. Muchas gracias por la informacion

Esmeralda Palacios

student•

para visualizar la matriz de correlación, (esa que va de -1 a 1) coloqué un rango de colores rojo: correlación inversa, azul correlación directa

hm=sns.heatmap(correlacion_matrix_pd,
                annot=True,
                cmap="RdBu",
                vmin=-1.0,
                yticklabels=['sepal_length', 'sepal_width', 'petal_length', 'petal_width'],
                xticklabels=['sepal_length', 'sepal_width', 'petal_length', 'petal_width']
                )

Marcos Orlando Cerde López

student•

Con la librería pandas puedes utilizar las siguientes dos métodos:

Matriz covarianza .cov()

Matriz correlación .corr()

Y según yo nos evitamos tantas líneas de código.

Jose Eduardo Victorio Gonzales

student•

Utilizando .cov(), arroja valores diferentes a los de la clase, no sé si sea correcto. Y con corr() los valores no son los mismos pero sí cercanos.

Andres Salazar

student•

Al usar .cov() debes recordar que se estandarizaron las variables en la clase. Así que ambos métodos deben dan igual, muy cercanos al resultado de numpy.

((iris - iris.mean())/iris.std()).cov()

Usuario anónimo

user•

Sigma Mayúscula y Minúscula ... tenia esa duda ... la comparto por si a alguien le pasó lo mismo ... Sigma Mayúscula

Sigma Minúscula

Esmeralda Palacios

student•

Para evitar tener que transponer la matriz podemos usar la opción ´rowvar´ ´´´python covariance_matrix = np.cov(scaled, rowvar=False) ´´´

Diego Buesaquillo

student•

Otra forma para no tener que transponer el arreglo y evitar unas cuantas líneas de código es usar apply para normalizar sobre el dataframe original y en la misma función de heatmap, al argumento de data le colocamos el método de pandas .corr(). Este organiza la matriz como el gráfico lo necesita.

Walter Danilo Nova Castiblanco

student•

¿Se debe aplicar siempre la transpuesta de la matriz, previo a extraer la matriz de covarianza?

Felipe Arias Rubiano

student•

Si, siempre ya que como es una matriz el procedimiento lo haría de manera lineal o uno a uno lo que haría que el calculo se hiera mal entonces al transponer estas colocando los datos de manera opuesta para el calculo, ejemplo:

Datos sin transponer: x | x y | y z | z

Datos transpuestos: x | y | z x | | | y | | | z | | |

Como ves transpuestos adquieren una forma de matriz con el cual se puede hacer la operación que el profesor mostro en el tablero

Pdt: puedes usar iris.corr() para no complicarte que te arroja la matriz de covarianza sin tener que hacer todas las transformaciones que le hacen a los datos

Javier Orlando Herrera Rodríguez

student•

Un poco tarde, pero tu pregunta em pareció muy interesante y después de indagar con chat GPT creo que la respuesta es depende. A continuación dejo la explicación brindad por chat GPT donde le pedí que lo explicara de la forma más sencilla posible ya que creo que es fácil perderse cuando se habla muy técnicamente.

Cada bloque representa un número o una cosa que quieres medir. Los bloques están en una caja y están apilados uno sobre otro.

Hay dos maneras de medir cómo están relacionados los bloques entre sí. Una manera es medir cómo están relacionados los bloques que están uno al lado del otro (es decir, las columnas de bloques) y la otra manera es medir cómo están relacionados los bloques que están uno encima del otro (es decir, las filas de bloques).

Para medir cómo están relacionados los bloques que están uno al lado del otro, debes sacar la caja de los bloques y ponerla de lado para que los bloques estén uno al lado del otro. Para medir cómo están relacionados los bloques que están uno encima del otro, no es necesario hacer nada, solo debes dejar la caja de bloques tal y como está.

Entonces, si quieres medir cómo están relacionados los bloques que están uno al lado del otro, debes transponer la caja de bloques, es decir, ponerla de lado. Si quieres medir cómo están relacionados los bloques que están uno encima del otro, no necesitas transponer la caja de bloques.

Daniel David Mármol Rivero

student•

Amor a primera vista con la matriz de covarianza <3

Iván Augusto Diaz

student•

Para ver la matriz de correlación se cambia a lo siguiente:

corr_matrix = np.corrcoef(scaled.T) corr_matrix y así con el nombre de esta variable.

John Fredy Valbuena Lozano

student•

¿Qué pasa cuando la relación entre dos variables no es lineal sino, por ejemplo, asintótica, la matriz reflejaría un valor de p bajo, existe algún indicador que permita evaluar correlaciones no lineales entre los datos sin hacer uso de una evaluación visual?

Mateo Ramírez Sossa

student•

por lo visto hasta el momento, la primera evaluacion es visual evaluando la matriz de correlaciones y de covarianzas

Martin Davíd Altamar Peña

student•

Voy a aplicar esto a un dataset del trabajo que estaba analizando, excelente clase!!

César Isaac González Naranjo

student•

sns.pairplot(iris) Wow, excelente código, no lo conocía muy útil

jose juan martinez

student•

una pregunta ¿que no en lugar de la matriz de covarianza seria matriz de correlación? ya que la correlacion se mide entre -1< x < 1

Jose Carlos Machado

student•

esa misma pregunta tengo yo, al normalizar los datos quedan entre el rango -1 y 1, y ya eso es suficiente para que me devuelva la matriz con el coeficiente de correlación y no la de covarianza?! :)

Jorge Naranjo

student•

Pregunta. Si tengo una covarianza cov1 = -.1 y otra cov2 = -.6

¿Hay mayor correlación entre las variables de mi cov2, correcto?

Fernando Campos

student•

Sí en la cov2 la relación es más fuerte pero es negativa. Mientras una variable crece la otra decrece.

Juan García Bauzá

student•

Así es. cov2 es inversamente mayor la correlación que cov1.

Jeisson Espinosa

student•

Información resumida de esta clase #EstudiantesDePlatzi

Cuando tenemos muchas variables y debemos analizar su correlación lo mejor es utilizar la matriz de covarianza
Es normal que esto pase, ya que por lo general nuestros datos tendrán muchas variables que analizar
Con .column puedo ver de manera rápida las categorías de mi set de datos
Las dimensiones de la matriz de covarianza es igual al número de variables
Es bueno analizar estas covarianzas de nuestros datos en números e igualmente podemos verlo de manera más visual con una gráfica de mapa de calor
Este mapa de calor es la mejor manera visual de entender esta matriz
La reducción de datos esta basado en la matriz de covarianza y este proceso es llamado análisis de componentes principales

Construcción y Análisis de la Matriz de Covarianza en Python

¿Para qué sirve la estadística descriptiva?

Fundamentos de Estadística Descriptiva y sus Aplicaciones Prácticas

Estadística Descriptiva en el Flujo de Ciencia de Datos

Estadística Descriptiva Aplicada a Ciencia de Datos

Estadística descriptiva para analítica

Uso de Deepnote para Jupyter Notebooks en Ciencia de Datos

Tipos de Datos en Ciencia de Datos: Categóricos y Numéricos

Medidas de Tendencia Central: Media, Mediana y Moda

Media vs. Mediana: Diferencias y Aplicaciones Prácticas

"Estadística Descriptiva con Pandas: Medidas de Tendencia Central"

Rango y Rango Intercuartil en Medidas de Dispersión

Desviación Estándar y Varianza en Estadística Descriptiva

Cálculo y Visualización de Medidas de Dispersión en Python

Visualización de Datos: Catálogo y Uso de Diagramas en Python

Diagramas de Dispersión y su Análisis con Seaborn

Estadística en la ingesta de datos

Escalamiento Lineal de Datos Numéricos para Machine Learning

Transformaciones No Lineales para Datos Sesgados en Machine Learning

Procesamiento y Escalamiento de Datos Numéricos en Python

Mapeo de Variables Categóricas en Python: Dumi y OneHot

Codificación de Variables Categóricas en Python con Pandas y Scikit-Learn

Correlación y covarianza en análisis de datos