A煤n no tienes acceso a esta clase

Crea una cuenta y contin煤a viendo este curso

Correlaciones

19/25
Recursos

Aportes 22

Preguntas 2

Ordenar por:

驴Quieres ver m谩s aportes, preguntas y respuestas de la comunidad? Crea una cuenta o inicia sesi贸n.

Si desean profundizar sobre la definicion del coeficiente de correlacion, les recomiendo leer a partir de la pagina 147 de este libro: https://cims.nyu.edu/~cfgranda/pages/stuff/probability_stats_for_DS.pdf

que fue uno de los libros gu铆a para el curso.

Correlaciones

驴Qu茅 es la correlaci贸n?

  • La correlaci贸n es una medida estad铆stica que expresa hasta qu茅 punto dos variables est谩n relacionadas linealmente (esto es, cambian conjuntamente a una tasa constante).

驴Qu茅 es la covarianza?

  • Es un valor que indica el grado de variaci贸n conjunta de dos variables aleatorias respecto a sus medias.

驴Qu茅 es el coeficiente de correlaci贸n?

  • El coeficiente de correlaci贸n es la medida espec铆fica que cuantifica la intensidad de la relaci贸n lineal entre dos variables en un an谩lisis de correlaci贸n.

.

Correlaci贸n gr谩ficamente:


.

Siempre debemos considerar que: Correlaci贸n no implica causalidad.

Dato curioso:

Lo que meciona Pacho al inicio de la clase, en econometr铆a se le conoce como multicolinealidad que es una situaci贸n en la que se presenta una fuerte correlaci贸n entre variables del modelo.

Hay 2 tipos de multicolinealidad:

  • Multicolinealidad exacta: Hay colinealidad exacta, cuando una o m谩s variables, son una combinaci贸n lineal de otra, es decir, existe un coeficiente de correlaci贸n entre estas dos variables de 1.

  • Multicolinealidad aproximada: Hay colinealidad aproximada, cuando una o m谩s variables, no son exactamente una combinaci贸n lineal de la otra, pero existe un coeficiente de determinaci贸n entre estas variables muy cercano al uno.

correlation doesn鈥檛 imply causation

Never forget that.

Ecuaciones

Covarianza

Coeficiente de correlaci贸n


Escrib铆 un blog tutorial sobre el algoritmo de regresi贸n lineal en el que trato tambi茅n sobre la deducci贸n del coeficiente de correlaci贸n. Puedes leer el art铆culo aqu铆. 馃挕

Un detalle

La formula de varianza que se muestra, es la varianza de una muestra de los datos.

No es la poblacional

La correlaci贸n de variables no implica causalidad.

A esto se le conoce como la Falacia "Cum hoc ergo propter hoc"
Varios ejemplos de esto se pueden ver en la siguiente pagina:
Spurious Correlations

Como el siguiente, donde se muestra una correlaci贸n entre el numero de personas que se ahogaron en una piscina y las pel铆culas en donde apareci贸 Nicolas Cage, lo cual es una correlaci贸n absurda 馃ぃ

Hay una clase en Platzi del Curso de Introducci贸n al Pensamiento Probabil铆stico que habla sobre este tema, pueden acceder aqu铆

La correlaci贸n de variables no implica causalidad.

Excelente explicaci贸n y notable la aclaraci贸n de que correlaci贸n no necesariamente significa causalidad de una variable sobre la otra.

Spurious Correlations:

Hay muchos estudios que miden la correlaci贸n entre sucesos que no tienen ninguna relaci贸n, un ejemplo de ello se encuentra en la pagina Spurious Correlations: https://www.tylervigen.com/spurious-correlations , en esta encuentras variables fuertemente correlacionadas pero que no podemos decir que una influye o incide en las variaciones de la otra.

Notas de la clase:
La grafica splot nos permit铆a visualizar como cambiaba una variable respecto a la otra.
Decimos que est谩n correlacionadas si una varia de forma muy definida respecto a otra
.
驴Qu茅 es correlaci贸n?
La correlaci贸n es una medida estad铆stica que expresa hasta qu茅 punto dos variables est谩n relacionadas linealmente (esto es, cambian conjuntamente a una tasa constante).
.
驴Por qu茅 es importante la correlaci贸n?
Si se tienen 2 variables que est谩n correlacionadas entre s铆, no tiene sentido incluir ambas variables en un modelo de ML porque probablemente las 2 van a aportar la misma informaci贸n si la correlaci贸n es muy alta. En ese caso se elimina a una de las 2, b谩sicamente en eso consiste la reducci贸n de datos.
.
驴Qu茅 es la covarianza?
Es un valor que indica el grado de variaci贸n conjunta de dos variables aleatorias respecto a sus medias
.
驴Qu茅 es el coeficiente de correlaci贸n?
Es una medida de dependencia lineal entre 2 variables. A diferencia de la covarianza es independiente de la escala de medida de las variables.

  • Si las variables tienen un coeficiente de correlaci贸n muy alto las variables tienen una correlaci贸n muy elevada.
  • Si el coeficiente de correlaci贸n es muy bajo las variables tienen una correlaci贸n muy baja.

.
Frase:
"Cum hoc ergo propter hoc"
Causaci贸n no est谩 asociado don correlaci贸n
Correlaci贸n no implica causaci贸n

El coeficiente de correlaci贸n es una medida de dependencia lineal entre dos variables. A diferencia de la covarianza, la correlaci贸n es independiente de la escala de medida de las variables.

Para aprender c贸mo se ven diferentes correlaciones en el diagrama de dispersi贸n les recomiendo esta visualizaci贸n: https://rpsychologist.com/correlation/

Es tan importante tener en cuenta el coeficiente de correlaci贸n ya que si se trabaja con muchas variables en una regresi贸n lineal, las variables independientes pueden generar un fen贸meno conocido como auto correlaci贸n y esto deriva en un efecto en la disminuci贸n de la capacidad explicativa del modelo y por ende en la predicci贸n o en su defecto a una forma funcional incorrecta.

Muy buena la clase. No obstante, vale la pena remarcar el concepto de correlaci贸n esp煤rea. Correlaci贸n no implica causalidad.
Un sitio web con ejemplos divertidos es: https://www.tylervigen.com/spurious-correlations

Y para aquel interesado en indagar un poco m谩s, pueden revisar un paper cl谩sico SPURIOUS REGRESSIONS IN ECONOMETRICS escrito por los economistas C.W.J. Granger y P. Newbold.
https://www.sciencedirect.com/science/article/abs/pii/0304407674900347

En este video explica muy bien el concepto de covarianza
https://www.youtube.com/watch?v=XW-yuLXX4PY

Siento que hacen falta m谩s ejemplos para afianzar m谩s los conceptos, creo que las formulas se encuentran muy f谩cil en internet, pero su interpretaci贸n no, siento que hace falta ejemplos m谩s pr谩cticos

Entonces este grafico explicaria las Correlaciones?

Correlaci贸n significa que dos cosas se mueven en la misma direcci贸n

Resumen hasta ahora:

Normalizacion: Se hace por cuestiones de optimizacion, adem谩s de que incluso puede llegar a ser mas intuitivo, consiste en mapear todos los valores de una variable a un rango por lo general de [-1, 1]:

Metodos para distribuciones normales o uniformes: 
* z-score
* min-max
* clipping
Metodos mas conocidos para distribuciones raras o sesgadas: 
* tanh (tangente  hiperbolica)
* logaritmica

Si la distribuci贸n de los datos es sesgada, el objetivo de las transformacion es 鈥渁placar鈥 los valores outliers para minimizar el sesgo y conseguir que cada vez sea mas normalmente distribuida, por ultimo se normaliza de nuevo para tener todos los datos en la misma dimensi贸n

Correlacion: Identificar el 鈥減atr贸n de relacion鈥 entre dos variables, esto se determina en base a calcular la covarianza que es la varianza conjunta de las dos variables, en base a esto si identificamos un patr贸n podemos pensar si existe alguna causa de fondo, y si es el caso podemos pensar en descartar una de las dos variables para evitar ese 鈥渆xceso鈥 de informacion.

Es decir, el objetivo de la reduccion de variables es:

"Pierdo precisi贸n, por ganar optimizaci贸n" Es como vender un poco de precisi贸n a cambio de recibir mas "r谩pidez" u optimizaci贸n.