Hola a todos:
Hago este tutorial porque noto en algunos comentarios (a mí mismo me pasó, de hecho) que el concepto de covarianza no quedó muy claro. Además, aunque Marcela explica su utilidad en la clase “Tipos de Correlación y Covarianza”, no hay muchos ejercicios que involucren este concepto.
Espero sea de utilidad.
Para comenzar, un breve repaso ¿para qué sirve la covarianza?
Para no inventarnos la rueda, veamos el concepto de Wikipedia que es más que claro: La covarianza es un valor que indica el grado de interralación entre dos variables respecto de sus propias medias o promedios. Dicho de otra forma, la covarianza, como la misma expresión lo indica, nos dice que si dos variables tienen que ver, de alguna manera, la una con la otra. En este orden de ideas, y retomando lo mencionado por Marcela, dependiendo del resultado del cálculo de la covarianza, podríamos estimar si tales variables son:
Ahora sí, ¿cómo se cálcula la covarianza?
Hay diferentes fórmulas (o variaciones de una misma fórmula), pero vámonos con la que Marcela muestra en la clase mencionada (la primera fórmula):
¿Qué carajos significa ese chorrero de letras? La lectura sería esta: La covarianza entre dos variables (una es X y la otra Y) se define como la sumatoria de todos los resultados que salen de multiplicar: (i) “x” menos su media (el primer paréntesis); “y” (ii) y menos su media. Finalmente, este valor lo dividimos por el número de elementos dentro del conjunto de datos que estamos analizando (n).
La segunda fórmula es una simplificación de la primera (lamentablemente no encontré ninguna imagen), pero se podría entender así: La covarianza es la sumatoria de todos los resultados de la multiplicación entre todos los valores de “x” y todos los valores de “y”. Este número es divido por el número de elementos dentro del conjunto de datos que estamos analizando (n) y finalmente, al resultado anterior, le restamos la multiplicación de la media de “x” y la media de “y”. Quedémonos con este fórmula simplificada para calcular la covarianza entre dos variables.
Supongamos que el ejercicio nos indica lo siguiente:
Determine la covarianza de las variables “x” y “y” en donde “x” = número de desarrolladores que integran un equipo y “y” = número de horas que toma cada equipo en terminar un módulo de código.
Los muestras recolectadas fueron las siguientes:
Equipo 1: x = 3; y = 10.
Equipo 2: x = 4; y = 8.
Equipo 3: x = 7; y = 6.
Equipo 4: x = 10; y = 4.
Ahora sí, calculemos la covarianza:
(1) Obtener los resultados de multiplicar todos los elementos de “x” y todos los elementos de “y”
xi___yi___xi*yi
3___10___30
4____8___32
7____6___42
10___4___40
(1.1) Sumar todos los resultados de la multiplicación xi*yi = 144
(2) Obtener n. ¿Cuántos elementos se analizaron en la muestra? R// 4 Equipos de trabajo con unos atributos en “x” y otros en “y”.
(3) Obtener la división de la sumatoria de xiyi (=144) entre n.
144 / 4 = 36
(3) Obtener la media de “x”:
(x1 + x2 + x3 + x4) / n
(3 + 4 + 7 10) / 4 = 6
(4) Obtener la media de “y”:
(y1 + y2 + y3 + y4) / n
(10 + 8 + 6 + 4) / 4 = 7
(5) Obtener el resultado de la multiplicación entre la media de “x” y la media de “y”:
6 * 7 = 42
(6) Finalmente, restar la división de la sumatoria de xiyi entre n (paso 3) menos el resultado de la multiplicación entre la media de “x” y la media de “y” (paso anterior):
= 36 - 42
= -6
Y ya terminamos.
¿Cómo se puede interpretar este resultado?
Del cálculo realizado anteriormente podemos evidenciar que para los datos estudiados, la covarianza entre las variables “X” y “Y” es Cv < 1 (-6) lo que indica que la covarianza es inversamente proporcionar. Dicho de otra forma, entre más aumentan los elementos en “X” más disminuyen los elementos en “Y”. Para el caso concreto, se puede evidenciar que entre más desarrolladores tenga un equipo, menor será el número de horas que requieran para desarrollar un módulo.
Espero que les haya sido de utilidad para comprender cómo se calcula la covarianza. Recuerden que es un fundamental obtener este valor para posteriormente calcular el coeficiente de correlación entre las variables de estudio.
¡Saludos!
Daniel A.
Excelente aporte, por fin pude solucionar el problema 😃
podrias explicar como resolviste el problema???
Bravo, muchas gracias!
no sé si esté equivocado, pero la expansión que realizó sería cierta solo en el caso de una diferencia de cuadrados, en este caso lo correcto no sería utilizar la expansión (a-b)(c-d)=ac-ad-bc+bd para calcular la covarianza y luego realizar procedimientos similares a los del paso 1 en caso de no preferir usar la sumatoria directamente?
Gracias por tu aporte Daniel!
Gracias, me ha quedado mas claro!
Gracias , excelente explicacion complementaria
Muchas gracais Daniel, de verdad tenia esa duda! 👍
Muchas gracias , excelente aporte , pero el número -6 expresa algún tipo de relación , algún tipo de razón de cambio ? … y partiendo de eso ya se sabría entonces que la correlación sería negativa pero entonces , para hallar la correlación existen varias fórmulas ? Agradezco me puedan ayudar…