Aún no tienes acceso a esta clase

Crea una cuenta y continúa viendo este curso

Correlaciones

19/25
Recursos

Aportes 22

Preguntas 2

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad? Crea una cuenta o inicia sesión.

Si desean profundizar sobre la definicion del coeficiente de correlacion, les recomiendo leer a partir de la pagina 147 de este libro: https://cims.nyu.edu/~cfgranda/pages/stuff/probability_stats_for_DS.pdf

que fue uno de los libros guía para el curso.

Correlaciones

¿Qué es la correlación?

  • La correlación es una medida estadística que expresa hasta qué punto dos variables están relacionadas linealmente (esto es, cambian conjuntamente a una tasa constante).

¿Qué es la covarianza?

  • Es un valor que indica el grado de variación conjunta de dos variables aleatorias respecto a sus medias.

¿Qué es el coeficiente de correlación?

  • El coeficiente de correlación es la medida específica que cuantifica la intensidad de la relación lineal entre dos variables en un análisis de correlación.

.

Correlación gráficamente:


.

Siempre debemos considerar que: Correlación no implica causalidad.

Dato curioso:

Lo que meciona Pacho al inicio de la clase, en econometría se le conoce como multicolinealidad que es una situación en la que se presenta una fuerte correlación entre variables del modelo.

Hay 2 tipos de multicolinealidad:

  • Multicolinealidad exacta: Hay colinealidad exacta, cuando una o más variables, son una combinación lineal de otra, es decir, existe un coeficiente de correlación entre estas dos variables de 1.

  • Multicolinealidad aproximada: Hay colinealidad aproximada, cuando una o más variables, no son exactamente una combinación lineal de la otra, pero existe un coeficiente de determinación entre estas variables muy cercano al uno.

correlation doesn’t imply causation

Never forget that.

Ecuaciones

Covarianza

Coeficiente de correlación


Escribí un blog tutorial sobre el algoritmo de regresión lineal en el que trato también sobre la deducción del coeficiente de correlación. Puedes leer el artículo aquí. 💡

Un detalle

La formula de varianza que se muestra, es la varianza de una muestra de los datos.

No es la poblacional

La correlación de variables no implica causalidad.

A esto se le conoce como la Falacia "Cum hoc ergo propter hoc"
Varios ejemplos de esto se pueden ver en la siguiente pagina:
Spurious Correlations

Como el siguiente, donde se muestra una correlación entre el numero de personas que se ahogaron en una piscina y las películas en donde apareció Nicolas Cage, lo cual es una correlación absurda 🤣

Hay una clase en Platzi del Curso de Introducción al Pensamiento Probabilístico que habla sobre este tema, pueden acceder aquí

La correlación de variables no implica causalidad.

Excelente explicación y notable la aclaración de que correlación no necesariamente significa causalidad de una variable sobre la otra.

Spurious Correlations:

Hay muchos estudios que miden la correlación entre sucesos que no tienen ninguna relación, un ejemplo de ello se encuentra en la pagina Spurious Correlations: https://www.tylervigen.com/spurious-correlations , en esta encuentras variables fuertemente correlacionadas pero que no podemos decir que una influye o incide en las variaciones de la otra.

Notas de la clase:
La grafica splot nos permitía visualizar como cambiaba una variable respecto a la otra.
Decimos que están correlacionadas si una varia de forma muy definida respecto a otra
.
¿Qué es correlación?
La correlación es una medida estadística que expresa hasta qué punto dos variables están relacionadas linealmente (esto es, cambian conjuntamente a una tasa constante).
.
¿Por qué es importante la correlación?
Si se tienen 2 variables que están correlacionadas entre sí, no tiene sentido incluir ambas variables en un modelo de ML porque probablemente las 2 van a aportar la misma información si la correlación es muy alta. En ese caso se elimina a una de las 2, básicamente en eso consiste la reducción de datos.
.
¿Qué es la covarianza?
Es un valor que indica el grado de variación conjunta de dos variables aleatorias respecto a sus medias
.
¿Qué es el coeficiente de correlación?
Es una medida de dependencia lineal entre 2 variables. A diferencia de la covarianza es independiente de la escala de medida de las variables.

  • Si las variables tienen un coeficiente de correlación muy alto las variables tienen una correlación muy elevada.
  • Si el coeficiente de correlación es muy bajo las variables tienen una correlación muy baja.

.
Frase:
"Cum hoc ergo propter hoc"
Causación no está asociado don correlación
Correlación no implica causación

El coeficiente de correlación es una medida de dependencia lineal entre dos variables. A diferencia de la covarianza, la correlación es independiente de la escala de medida de las variables.

Para aprender cómo se ven diferentes correlaciones en el diagrama de dispersión les recomiendo esta visualización: https://rpsychologist.com/correlation/

Es tan importante tener en cuenta el coeficiente de correlación ya que si se trabaja con muchas variables en una regresión lineal, las variables independientes pueden generar un fenómeno conocido como auto correlación y esto deriva en un efecto en la disminución de la capacidad explicativa del modelo y por ende en la predicción o en su defecto a una forma funcional incorrecta.

Muy buena la clase. No obstante, vale la pena remarcar el concepto de correlación espúrea. Correlación no implica causalidad.
Un sitio web con ejemplos divertidos es: https://www.tylervigen.com/spurious-correlations

Y para aquel interesado en indagar un poco más, pueden revisar un paper clásico SPURIOUS REGRESSIONS IN ECONOMETRICS escrito por los economistas C.W.J. Granger y P. Newbold.
https://www.sciencedirect.com/science/article/abs/pii/0304407674900347

En este video explica muy bien el concepto de covarianza
https://www.youtube.com/watch?v=XW-yuLXX4PY

Siento que hacen falta más ejemplos para afianzar más los conceptos, creo que las formulas se encuentran muy fácil en internet, pero su interpretación no, siento que hace falta ejemplos más prácticos

Entonces este grafico explicaria las Correlaciones?

Correlación significa que dos cosas se mueven en la misma dirección

Resumen hasta ahora:

Normalizacion: Se hace por cuestiones de optimizacion, además de que incluso puede llegar a ser mas intuitivo, consiste en mapear todos los valores de una variable a un rango por lo general de [-1, 1]:

Metodos para distribuciones normales o uniformes: 
* z-score
* min-max
* clipping
Metodos mas conocidos para distribuciones raras o sesgadas: 
* tanh (tangente  hiperbolica)
* logaritmica

Si la distribución de los datos es sesgada, el objetivo de las transformacion es “aplacar” los valores outliers para minimizar el sesgo y conseguir que cada vez sea mas normalmente distribuida, por ultimo se normaliza de nuevo para tener todos los datos en la misma dimensión

Correlacion: Identificar el “patrón de relacion” entre dos variables, esto se determina en base a calcular la covarianza que es la varianza conjunta de las dos variables, en base a esto si identificamos un patrón podemos pensar si existe alguna causa de fondo, y si es el caso podemos pensar en descartar una de las dos variables para evitar ese “exceso” de informacion.

Es decir, el objetivo de la reduccion de variables es:

"Pierdo precisión, por ganar optimización" Es como vender un poco de precisión a cambio de recibir mas "rápidez" u optimización.