No tienes acceso a esta clase

隆Contin煤a aprendiendo! 脷nete y comienza a potenciar tu carrera

Correlaciones

19/25
Recursos

Aportes 34

Preguntas 5

Ordenar por:

驴Quieres ver m谩s aportes, preguntas y respuestas de la comunidad?

o inicia sesi贸n.

Si desean profundizar sobre la definicion del coeficiente de correlacion, les recomiendo leer a partir de la pagina 147 de este libro: https://cims.nyu.edu/~cfgranda/pages/stuff/probability_stats_for_DS.pdf

que fue uno de los libros gu铆a para el curso.

Correlaciones

驴Qu茅 es la correlaci贸n?

  • La correlaci贸n es una medida estad铆stica que expresa hasta qu茅 punto dos variables est谩n relacionadas linealmente (esto es, cambian conjuntamente a una tasa constante).

驴Qu茅 es la covarianza?

  • Es un valor que indica el grado de variaci贸n conjunta de dos variables aleatorias respecto a sus medias.

驴Qu茅 es el coeficiente de correlaci贸n?

  • El coeficiente de correlaci贸n es la medida espec铆fica que cuantifica la intensidad de la relaci贸n lineal entre dos variables en un an谩lisis de correlaci贸n.

.

Correlaci贸n gr谩ficamente:


.

Siempre debemos considerar que: Correlaci贸n no implica causalidad.

Dato curioso:

Lo que meciona Pacho al inicio de la clase, en econometr铆a se le conoce como multicolinealidad que es una situaci贸n en la que se presenta una fuerte correlaci贸n entre variables del modelo.

Hay 2 tipos de multicolinealidad:

  • Multicolinealidad exacta: Hay colinealidad exacta, cuando una o m谩s variables, son una combinaci贸n lineal de otra, es decir, existe un coeficiente de correlaci贸n entre estas dos variables de 1.

  • Multicolinealidad aproximada: Hay colinealidad aproximada, cuando una o m谩s variables, no son exactamente una combinaci贸n lineal de la otra, pero existe un coeficiente de determinaci贸n entre estas variables muy cercano al uno.

correlation doesn鈥檛 imply causation

Never forget that.

Ecuaciones

Covarianza

Coeficiente de correlaci贸n


Escrib铆 un blog tutorial sobre el algoritmo de regresi贸n lineal en el que trato tambi茅n sobre la deducci贸n del coeficiente de correlaci贸n. Puedes leer el art铆culo aqu铆. 馃挕

Un detalle

La formula de varianza que se muestra, es la varianza de una muestra de los datos.

No es la poblacional

La correlaci贸n de variables no implica causalidad.

A esto se le conoce como la Falacia "Cum hoc ergo propter hoc"
Varios ejemplos de esto se pueden ver en la siguiente pagina:
Spurious Correlations

Como el siguiente, donde se muestra una correlaci贸n entre el numero de personas que se ahogaron en una piscina y las pel铆culas en donde apareci贸 Nicolas Cage, lo cual es una correlaci贸n absurda 馃ぃ

Hay una clase en Platzi del Curso de Introducci贸n al Pensamiento Probabil铆stico que habla sobre este tema, pueden acceder aqu铆

La correlaci贸n de variables no implica causalidad.

Excelente explicaci贸n y notable la aclaraci贸n de que correlaci贸n no necesariamente significa causalidad de una variable sobre la otra.

Notas de la clase:
La grafica splot nos permit铆a visualizar como cambiaba una variable respecto a la otra.
Decimos que est谩n correlacionadas si una varia de forma muy definida respecto a otra
.
驴Qu茅 es correlaci贸n?
La correlaci贸n es una medida estad铆stica que expresa hasta qu茅 punto dos variables est谩n relacionadas linealmente (esto es, cambian conjuntamente a una tasa constante).
.
驴Por qu茅 es importante la correlaci贸n?
Si se tienen 2 variables que est谩n correlacionadas entre s铆, no tiene sentido incluir ambas variables en un modelo de ML porque probablemente las 2 van a aportar la misma informaci贸n si la correlaci贸n es muy alta. En ese caso se elimina a una de las 2, b谩sicamente en eso consiste la reducci贸n de datos.
.
驴Qu茅 es la covarianza?
Es un valor que indica el grado de variaci贸n conjunta de dos variables aleatorias respecto a sus medias
.
驴Qu茅 es el coeficiente de correlaci贸n?
Es una medida de dependencia lineal entre 2 variables. A diferencia de la covarianza es independiente de la escala de medida de las variables.

  • Si las variables tienen un coeficiente de correlaci贸n muy alto las variables tienen una correlaci贸n muy elevada.
  • Si el coeficiente de correlaci贸n es muy bajo las variables tienen una correlaci贸n muy baja.

.
Frase:
"Cum hoc ergo propter hoc"
Causaci贸n no est谩 asociado don correlaci贸n
Correlaci贸n no implica causaci贸n

Spurious Correlations:

Hay muchos estudios que miden la correlaci贸n entre sucesos que no tienen ninguna relaci贸n, un ejemplo de ello se encuentra en la pagina Spurious Correlations: https://www.tylervigen.com/spurious-correlations , en esta encuentras variables fuertemente correlacionadas pero que no podemos decir que una influye o incide en las variaciones de la otra.

Correlaciones y covarianza

  • La covarianza en un valor que nos permite cuantificar el grado ce correlaci贸n (relaci贸n) entre dos variables.

cov = sum((x-X)(y-Y))
rho = cov/(stdx*stdy)

Notas

  • Mientas el valor (absoluto) de rho sea m谩s cercano a 1 m谩s correlacionados est谩n estos valores
  • Un valor negativo de rho implica correlaci贸n inversa (una variable disminuye mientras la otra aumenta)
  • Recuerda que correlaci贸n no implica causalidad

Correlaci贸n.

La correlaci贸n es una medida estad铆stica que indica la relaci贸n entre dos variables. Puede ser positiva (indicando que las variables aumentan o disminuyen juntas), negativa (indicando que a medida que una variable aumenta, la otra disminuye) o cero (indicando que no hay relaci贸n entre las variables). El coeficiente de correlaci贸n m谩s com煤n es el coeficiente de correlaci贸n de Pearson, que var铆a entre -1 y 1.

Correlaci贸n para reducci贸n de datos

En terminos de machine learning, usamos la correlaci贸n para la reducci贸n de datos. Esto sucede si dos o m谩s variables presentan una correlaci贸n alta, es decir, varian en la misma relaci贸n de forma definida. Porque no tendr铆a sentido incluir dos variables que, probablemente, esten aportando la misma informaci贸n.
Por otro lado, cuando convertimos variables categ贸ricas a num茅ricas expendimos el espacio de atributos numericos, dando como resultado muchas variables. En este caso, tambi茅n podemos emplear la correlaci贸n para reducir estas variables.

Varianza

Es una medida estad铆stica de la dispersi贸n de un conjunto de datos. Se calcula como el promedio de la desviaci贸n cuadr谩tica de cada valor del conjunto de datos respecto a la media aritm茅tica. Es una forma de medir cu谩n dispersos est谩n los datos alrededor de la media.
Para una muestra:

蟽^2= 鈭 ( Xi - 渭 )虏 / n-1 .

donde:
Xi es cada valor en el conjunto de datos
X虅 es la media aritm茅tica del conjunto de datos
鈭 indica que se deben sumar los valores obtenidos en cada paso
n es el n煤mero de elementos en el conjunto de datos.
蟽 = Desviaci贸n estandar
蟽^2 = Varianza

Covarianza

Es una medida que indica la relaci贸n lineal entre dos variables aleatorias. Se calcula como el promedio del producto de las desviaciones de cada valor de una variable respecto a su media, por la desviaci贸n de cada valor de la otra variable respecto a su media.

donde:
xi e yi son los valores correspondientes de cada variable en el conjunto de datos.
x虅 e y虅 son las medias aritm茅ticas de las variables x e y respectivamente
鈭 indica que se deben sumar los valores obtenidos en cada paso
n es el n煤mero de elementos en el conjunto de datos.
La covarianza es una medida de la relaci贸n lineal entre dos variables, pero no indica su intensidad. Por ello, a menudo se utiliza la correlaci贸n, que es una medida normalizada de la covarianza, que va de -1 a 1 y refleja la direcci贸n y sentido de la relaci贸n lineal.
鈿 Si las variables X e Y tienen unidades distintas, tendriamos que usar la siguiente formula para normalizar las variables a una misma escala. Coeficiente de correlaci贸n.

Coeficiente de correlaci贸n

Medida que indica la relaci贸n lineal y la intensidad de la relaci贸n entre dos variables aleatorias. El coeficiente de correlaci贸n mide el grado de similitud entre dos variables, indicando si es positiva o negativa, y su magnitud va desde -1 a 1.
El coeficiente de correlaci贸n m谩s com煤n es el coeficiente de Pearson:

蟻 = Cov(x,y) / (sx * sy)
donde:
Cov(x,y) es la covarianza entre las dos variables x e y
蟻x & 蟻y son las desviaciones est谩ndar de las variables x e y respectivamente.
Un valor de 蟻 cercano a 1 indica una alta correlaci贸n positiva entre las variables, es decir, que a medida que una variable aumenta, la otra tambi茅n lo hace. Por otro lado, un valor de 蟻 cercano a -1 indica una alta correlaci贸n negativa, es decir, que a medida que una variable aumenta, la otra disminuye. Un valor de 蟻 cercano a cero indica que no existe una relaci贸n lineal entre las variables.

Para aprender c贸mo se ven diferentes correlaciones en el diagrama de dispersi贸n les recomiendo esta visualizaci贸n: https://rpsychologist.com/correlation/

El coeficiente de correlaci贸n es una medida de dependencia lineal entre dos variables. A diferencia de la covarianza, la correlaci贸n es independiente de la escala de medida de las variables.

Muy buena la clase. No obstante, vale la pena remarcar el concepto de correlaci贸n esp煤rea. Correlaci贸n no implica causalidad.
Un sitio web con ejemplos divertidos es: https://www.tylervigen.com/spurious-correlations

Y para aquel interesado en indagar un poco m谩s, pueden revisar un paper cl谩sico SPURIOUS REGRESSIONS IN ECONOMETRICS escrito por los economistas C.W.J. Granger y P. Newbold.
https://www.sciencedirect.com/science/article/abs/pii/0304407674900347

Las correlaciones son una medida estad铆stica que describe la relaci贸n entre dos o m谩s variables. En t茅rminos simples, la correlaci贸n describe c贸mo cambian las variables juntas.

Cuando dos variables est谩n correlacionadas, significa que cuando una variable aumenta, la otra variable tambi茅n tiende a aumentar (correlaci贸n positiva) o disminuir (correlaci贸n negativa). Por otro lado, si las variables no est谩n correlacionadas, entonces no hay una relaci贸n clara entre ellas.

Las correlaciones se representan en t茅rminos de coeficientes de correlaci贸n, que pueden variar de -1 a 1. Un coeficiente de correlaci贸n de 1 indica una correlaci贸n perfecta positiva, lo que significa que las dos variables cambian juntas en la misma direcci贸n en todo momento. Por otro lado, un coeficiente de correlaci贸n de -1 indica una correlaci贸n perfecta negativa, lo que significa que las dos variables cambian juntas en direcciones opuestas en todo momento. Un coeficiente de correlaci贸n de 0 indica que no hay correlaci贸n entre las dos variables.

Las correlaciones son importantes en muchas 谩reas, como en la investigaci贸n cient铆fica, la psicolog铆a, la econom铆a, la ingenier铆a, entre otras. Se utilizan para analizar la relaci贸n entre diferentes variables y para predecir el comportamiento futuro de un sistema basado en patrones hist贸ricos.

Resumen hasta ahora:

Normalizacion: Se hace por cuestiones de optimizacion, adem谩s de que incluso puede llegar a ser mas intuitivo, consiste en mapear todos los valores de una variable a un rango por lo general de [-1, 1]:

Metodos para distribuciones normales o uniformes: 
* z-score
* min-max
* clipping
Metodos mas conocidos para distribuciones raras o sesgadas: 
* tanh (tangente  hiperbolica)
* logaritmica

Si la distribuci贸n de los datos es sesgada, el objetivo de las transformacion es 鈥渁placar鈥 los valores outliers para minimizar el sesgo y conseguir que cada vez sea mas normalmente distribuida, por ultimo se normaliza de nuevo para tener todos los datos en la misma dimensi贸n

Correlacion: Identificar el 鈥減atr贸n de relacion鈥 entre dos variables, esto se determina en base a calcular la covarianza que es la varianza conjunta de las dos variables, en base a esto si identificamos un patr贸n podemos pensar si existe alguna causa de fondo, y si es el caso podemos pensar en descartar una de las dos variables para evitar ese 鈥渆xceso鈥 de informacion.

Es decir, el objetivo de la reduccion de variables es:

"Pierdo precisi贸n, por ganar optimizaci贸n" Es como vender un poco de precisi贸n a cambio de recibir mas "r谩pidez" u optimizaci贸n.

El teorema del que habla el profesor (alrededor de 7:00) se llama 鈥渄esigualdad de Cauchy Schwarz鈥 Para quienes quieran profundizar en el tema.

Siento que hacen falta m谩s ejemplos para afianzar m谩s los conceptos, creo que las formulas se encuentran muy f谩cil en internet, pero su interpretaci贸n no, siento que hace falta ejemplos m谩s pr谩cticos

En este video explica muy bien el concepto de covarianza
https://www.youtube.com/watch?v=XW-yuLXX4PY

Informaci贸n resumida de esta clase
#EstudiantesDePlatzi

  • La gr谩fica de Scatter plot nos permite ver como se comporta cierta variable vs otra

  • Cuando estamos desarrollando un modelo de machine learning no tiene sentido agregar dos variables que tengan una muy buena correlaci贸n dentro de nuestro an谩lisis

  • Importante a nuestras variables categ贸ricas convertirlas en variables num茅ricas

  • La correlaci贸n tiene que medir las desviaciones o variaciones de una variable en relaci贸n a otra variable

  • Debemos tener cuidad en la magnitud del dato o los datos cuando realizamos una correlaci贸n

  • Es importante estandarizar las variables a una misma escala

  • Para esto usamos la formula llamada coeficiente de correlaci贸n

  • Cuando el coeficiente de correlaci贸n es cercano a 0 significa que los datos no tienen ninguna correlaci贸n

  • Cuando el coeficiente de correlaci贸n es cercano a 1, significa que los datos tienen una fuerte correlaci贸n

  • Podemos obtener correlacione indirectas y esto lo sabemos cuando el coeficiente de correlaci贸n es cercano a -1

  • El coeficiente de correlaci贸n tiene sus limites y va de -1 a 1

  • Correlaci贸n no implica causaci贸n

  • Es importante tener claro que cuando tengamos una fuerte correlaci贸n, esto no significa que una sea la causa de la otra

  • Tenemos que analizar m谩s a fondo

Es tan importante tener en cuenta el coeficiente de correlaci贸n ya que si se trabaja con muchas variables en una regresi贸n lineal, las variables independientes pueden generar un fen贸meno conocido como auto correlaci贸n y esto deriva en un efecto en la disminuci贸n de la capacidad explicativa del modelo y por ende en la predicci贸n o en su defecto a una forma funcional incorrecta.

https://www.youtube.com/watch?v=HUti6vGctQM Correlaci贸n y causa, video de minutephysics.

**La causalidad **implica una relaci贸n de causa y efecto, donde un cambio en una variable causa un cambio en la otra. Establecer la causalidad requiere una evaluaci贸n m谩s profunda y rigurosa que la simple observaci贸n de una correlaci贸n.

**La correlaci贸n **nos indica si existe una asociaci贸n estad铆stica entre las variables y qu茅 tan fuerte es esa asociaci贸n. Sin embargo, no podemos concluir que una variable causa directamente cambios en la otra solo por tener una correlaci贸n alta.

Excelente clase!

Correlaciones

驴Qu茅 es la correlaci贸n?

  • La correlaci贸n es una medida estad铆stica que expresa hasta qu茅 punto dos variables est谩n relacionadas linealmente (esto es, cambian conjuntamente a una tasa constante).

驴Qu茅 es la covarianza?

  • Es un valor que indica el grado de variaci贸n conjunta de dos variables aleatorias respecto a sus medias.

驴Qu茅 es el coeficiente de correlaci贸n?

  • El coeficiente de correlaci贸n es la medida espec铆fica que cuantifica la intensidad de la relaci贸n lineal entre dos variables en un an谩lisis de correlaci贸n.

.

Correlaci贸n gr谩ficamente:

.

Siempre debemos considerar que: Correlaci贸n no implica causalidad.

Buena clase.

no sabia que era heur铆stica:
La heur铆stica es vista como el arte de inventar por parte de los seres humanos, con la intenci贸n de procurar estrategias, m茅todos, criterios, que permitan resolver problemas a trav茅s de la creatividad, pensamiento divergente o lateral

******un breve ejemplo de correlaciones ******

  • La correlaci贸n es un sistema de hechos que puede mostrar si y c贸mo se conectan de forma inequ铆voca los factores. Por ejemplo, la altura y el peso est谩n conectados; los individuos m谩s altos ser谩n, en general, m谩s pesados que los m谩s bajos. La relaci贸n no es inmaculada. Los individuos de estatura similar fluct煤an en el peso, y se puede, sin mucho esfuerzo, considerar a dos individuos que se sabe que el m谩s bajo es m谩s pesado que el m谩s alto. Sin embargo, la carga normal de los individuos de 5鈥5鈥 no es exactamente la carga normal de los individuos de 5鈥6鈥, y su peso normal no es tanto como el de los individuos de 5鈥7鈥, y as铆 sucesivamente. La correlaci贸n puede decirte cu谩nto de la variaci贸n en el peso de las personas est谩 relacionado con sus alturas.

  • A pesar de que esta relaci贸n es genuinamente evidente, su informaci贸n puede contener conexiones insospechadas. Tambi茅n puede especular que hay conexiones, sin embargo, no se da cuenta de cu谩les son las m谩s s贸lidas. Un examen profundo de la relaci贸n puede llevar a una comprensi贸n m谩s prominente de su informaci贸n.

Entonces este grafico explicaria las Correlaciones?

Correlaci贸n significa que dos cosas se mueven en la misma direcci贸n