No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

No se trata de lo que quieres comprar, sino de quién quieres ser. Aprovecha el precio especial.

Antes: $249

Currency
$209

Paga en 4 cuotas sin intereses

Paga en 4 cuotas sin intereses
Suscríbete

Termina en:

14 Días
11 Hrs
40 Min
16 Seg

Correlaciones

19/25
Recursos

Aportes 37

Preguntas 5

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

Correlaciones

¿Qué es la correlación?

  • La correlación es una medida estadística que expresa hasta qué punto dos variables están relacionadas linealmente (esto es, cambian conjuntamente a una tasa constante).

¿Qué es la covarianza?

  • Es un valor que indica el grado de variación conjunta de dos variables aleatorias respecto a sus medias.

¿Qué es el coeficiente de correlación?

  • El coeficiente de correlación es la medida específica que cuantifica la intensidad de la relación lineal entre dos variables en un análisis de correlación.

.

Correlación gráficamente:


.

Siempre debemos considerar que: Correlación no implica causalidad.

Dato curioso:

Lo que meciona Pacho al inicio de la clase, en econometría se le conoce como multicolinealidad que es una situación en la que se presenta una fuerte correlación entre variables del modelo.

Hay 2 tipos de multicolinealidad:

  • Multicolinealidad exacta: Hay colinealidad exacta, cuando una o más variables, son una combinación lineal de otra, es decir, existe un coeficiente de correlación entre estas dos variables de 1.

  • Multicolinealidad aproximada: Hay colinealidad aproximada, cuando una o más variables, no son exactamente una combinación lineal de la otra, pero existe un coeficiente de determinación entre estas variables muy cercano al uno.

correlation doesn’t imply causation

Never forget that.

Ecuaciones

Covarianza

Coeficiente de correlación


Escribí un blog tutorial sobre el algoritmo de regresión lineal en el que trato también sobre la deducción del coeficiente de correlación. Puedes leer el artículo aquí. 💡

Un detalle

La formula de varianza que se muestra, es la varianza de una muestra de los datos.

No es la poblacional

La correlación de variables no implica causalidad.

Excelente explicación y notable la aclaración de que correlación no necesariamente significa causalidad de una variable sobre la otra.

Notas de la clase:
La grafica splot nos permitía visualizar como cambiaba una variable respecto a la otra.
Decimos que están correlacionadas si una varia de forma muy definida respecto a otra
.
¿Qué es correlación?
La correlación es una medida estadística que expresa hasta qué punto dos variables están relacionadas linealmente (esto es, cambian conjuntamente a una tasa constante).
.
¿Por qué es importante la correlación?
Si se tienen 2 variables que están correlacionadas entre sí, no tiene sentido incluir ambas variables en un modelo de ML porque probablemente las 2 van a aportar la misma información si la correlación es muy alta. En ese caso se elimina a una de las 2, básicamente en eso consiste la reducción de datos.
.
¿Qué es la covarianza?
Es un valor que indica el grado de variación conjunta de dos variables aleatorias respecto a sus medias
.
¿Qué es el coeficiente de correlación?
Es una medida de dependencia lineal entre 2 variables. A diferencia de la covarianza es independiente de la escala de medida de las variables.

  • Si las variables tienen un coeficiente de correlación muy alto las variables tienen una correlación muy elevada.
  • Si el coeficiente de correlación es muy bajo las variables tienen una correlación muy baja.

.
Frase:
"Cum hoc ergo propter hoc"
Causación no está asociado don correlación
Correlación no implica causación

Spurious Correlations:

Hay muchos estudios que miden la correlación entre sucesos que no tienen ninguna relación, un ejemplo de ello se encuentra en la pagina Spurious Correlations: https://www.tylervigen.com/spurious-correlations , en esta encuentras variables fuertemente correlacionadas pero que no podemos decir que una influye o incide en las variaciones de la otra.

El teorema del que habla el profesor (alrededor de 7:00) se llama “desigualdad de Cauchy Schwarz” Para quienes quieran profundizar en el tema.

Muy buena la clase. No obstante, vale la pena remarcar el concepto de correlación espúrea. Correlación no implica causalidad.
Un sitio web con ejemplos divertidos es: https://www.tylervigen.com/spurious-correlations

Y para aquel interesado en indagar un poco más, pueden revisar un paper clásico SPURIOUS REGRESSIONS IN ECONOMETRICS escrito por los economistas C.W.J. Granger y P. Newbold.
https://www.sciencedirect.com/science/article/abs/pii/0304407674900347

Siento que hacen falta más ejemplos para afianzar más los conceptos, creo que las formulas se encuentran muy fácil en internet, pero su interpretación no, siento que hace falta ejemplos más prácticos

En este video explica muy bien el concepto de covarianza
https://www.youtube.com/watch?v=XW-yuLXX4PY

Correlaciones y covarianza

  • La covarianza en un valor que nos permite cuantificar el grado ce correlación (relación) entre dos variables.

cov = sum((x-X)(y-Y))
rho = cov/(stdx*stdy)

Notas

  • Mientas el valor (absoluto) de rho sea más cercano a 1 más correlacionados están estos valores
  • Un valor negativo de rho implica correlación inversa (una variable disminuye mientras la otra aumenta)
  • Recuerda que correlación no implica causalidad

Correlación.

La correlación es una medida estadística que indica la relación entre dos variables. Puede ser positiva (indicando que las variables aumentan o disminuyen juntas), negativa (indicando que a medida que una variable aumenta, la otra disminuye) o cero (indicando que no hay relación entre las variables). El coeficiente de correlación más común es el coeficiente de correlación de Pearson, que varía entre -1 y 1.

Correlación para reducción de datos

En terminos de machine learning, usamos la correlación para la reducción de datos. Esto sucede si dos o más variables presentan una correlación alta, es decir, varian en la misma relación de forma definida. Porque no tendría sentido incluir dos variables que, probablemente, esten aportando la misma información.
Por otro lado, cuando convertimos variables categóricas a numéricas expendimos el espacio de atributos numericos, dando como resultado muchas variables. En este caso, también podemos emplear la correlación para reducir estas variables.

Varianza

Es una medida estadística de la dispersión de un conjunto de datos. Se calcula como el promedio de la desviación cuadrática de cada valor del conjunto de datos respecto a la media aritmética. Es una forma de medir cuán dispersos están los datos alrededor de la media.
Para una muestra:

σ^2= ∑ ( Xi - μ )² / n-1 .

donde:
Xi es cada valor en el conjunto de datos
X̄ es la media aritmética del conjunto de datos
∑ indica que se deben sumar los valores obtenidos en cada paso
n es el número de elementos en el conjunto de datos.
σ = Desviación estandar
σ^2 = Varianza

Covarianza

Es una medida que indica la relación lineal entre dos variables aleatorias. Se calcula como el promedio del producto de las desviaciones de cada valor de una variable respecto a su media, por la desviación de cada valor de la otra variable respecto a su media.

donde:
xi e yi son los valores correspondientes de cada variable en el conjunto de datos.
x̄ e ȳ son las medias aritméticas de las variables x e y respectivamente
∑ indica que se deben sumar los valores obtenidos en cada paso
n es el número de elementos en el conjunto de datos.
La covarianza es una medida de la relación lineal entre dos variables, pero no indica su intensidad. Por ello, a menudo se utiliza la correlación, que es una medida normalizada de la covarianza, que va de -1 a 1 y refleja la dirección y sentido de la relación lineal.
⚡ Si las variables X e Y tienen unidades distintas, tendriamos que usar la siguiente formula para normalizar las variables a una misma escala. Coeficiente de correlación.

Coeficiente de correlación

Medida que indica la relación lineal y la intensidad de la relación entre dos variables aleatorias. El coeficiente de correlación mide el grado de similitud entre dos variables, indicando si es positiva o negativa, y su magnitud va desde -1 a 1.
El coeficiente de correlación más común es el coeficiente de Pearson:

ρ = Cov(x,y) / (sx * sy)
donde:
Cov(x,y) es la covarianza entre las dos variables x e y
ρx & ρy son las desviaciones estándar de las variables x e y respectivamente.
Un valor de ρ cercano a 1 indica una alta correlación positiva entre las variables, es decir, que a medida que una variable aumenta, la otra también lo hace. Por otro lado, un valor de ρ cercano a -1 indica una alta correlación negativa, es decir, que a medida que una variable aumenta, la otra disminuye. Un valor de ρ cercano a cero indica que no existe una relación lineal entre las variables.

Para aprender cómo se ven diferentes correlaciones en el diagrama de dispersión les recomiendo esta visualización: https://rpsychologist.com/correlation/

El coeficiente de correlación es una medida de dependencia lineal entre dos variables. A diferencia de la covarianza, la correlación es independiente de la escala de medida de las variables.

no sabia que era heurística:
La heurística es vista como el arte de inventar por parte de los seres humanos, con la intención de procurar estrategias, métodos, criterios, que permitan resolver problemas a través de la creatividad, pensamiento divergente o lateral

Las correlaciones son una medida estadística que describe la relación entre dos o más variables. En términos simples, la correlación describe cómo cambian las variables juntas.

Cuando dos variables están correlacionadas, significa que cuando una variable aumenta, la otra variable también tiende a aumentar (correlación positiva) o disminuir (correlación negativa). Por otro lado, si las variables no están correlacionadas, entonces no hay una relación clara entre ellas.

Las correlaciones se representan en términos de coeficientes de correlación, que pueden variar de -1 a 1. Un coeficiente de correlación de 1 indica una correlación perfecta positiva, lo que significa que las dos variables cambian juntas en la misma dirección en todo momento. Por otro lado, un coeficiente de correlación de -1 indica una correlación perfecta negativa, lo que significa que las dos variables cambian juntas en direcciones opuestas en todo momento. Un coeficiente de correlación de 0 indica que no hay correlación entre las dos variables.

Las correlaciones son importantes en muchas áreas, como en la investigación científica, la psicología, la economía, la ingeniería, entre otras. Se utilizan para analizar la relación entre diferentes variables y para predecir el comportamiento futuro de un sistema basado en patrones históricos.

Resumen hasta ahora:

Normalizacion: Se hace por cuestiones de optimizacion, además de que incluso puede llegar a ser mas intuitivo, consiste en mapear todos los valores de una variable a un rango por lo general de [-1, 1]:

Metodos para distribuciones normales o uniformes: 
* z-score
* min-max
* clipping
Metodos mas conocidos para distribuciones raras o sesgadas: 
* tanh (tangente  hiperbolica)
* logaritmica

Si la distribución de los datos es sesgada, el objetivo de las transformacion es “aplacar” los valores outliers para minimizar el sesgo y conseguir que cada vez sea mas normalmente distribuida, por ultimo se normaliza de nuevo para tener todos los datos en la misma dimensión

Correlacion: Identificar el “patrón de relacion” entre dos variables, esto se determina en base a calcular la covarianza que es la varianza conjunta de las dos variables, en base a esto si identificamos un patrón podemos pensar si existe alguna causa de fondo, y si es el caso podemos pensar en descartar una de las dos variables para evitar ese “exceso” de informacion.

Es decir, el objetivo de la reduccion de variables es:

"Pierdo precisión, por ganar optimización" Es como vender un poco de precisión a cambio de recibir mas "rápidez" u optimización.

Información resumida de esta clase
#EstudiantesDePlatzi

  • La gráfica de Scatter plot nos permite ver como se comporta cierta variable vs otra

  • Cuando estamos desarrollando un modelo de machine learning no tiene sentido agregar dos variables que tengan una muy buena correlación dentro de nuestro análisis

  • Importante a nuestras variables categóricas convertirlas en variables numéricas

  • La correlación tiene que medir las desviaciones o variaciones de una variable en relación a otra variable

  • Debemos tener cuidad en la magnitud del dato o los datos cuando realizamos una correlación

  • Es importante estandarizar las variables a una misma escala

  • Para esto usamos la formula llamada coeficiente de correlación

  • Cuando el coeficiente de correlación es cercano a 0 significa que los datos no tienen ninguna correlación

  • Cuando el coeficiente de correlación es cercano a 1, significa que los datos tienen una fuerte correlación

  • Podemos obtener correlacione indirectas y esto lo sabemos cuando el coeficiente de correlación es cercano a -1

  • El coeficiente de correlación tiene sus limites y va de -1 a 1

  • Correlación no implica causación

  • Es importante tener claro que cuando tengamos una fuerte correlación, esto no significa que una sea la causa de la otra

  • Tenemos que analizar más a fondo

Es tan importante tener en cuenta el coeficiente de correlación ya que si se trabaja con muchas variables en una regresión lineal, las variables independientes pueden generar un fenómeno conocido como auto correlación y esto deriva en un efecto en la disminución de la capacidad explicativa del modelo y por ende en la predicción o en su defecto a una forma funcional incorrecta.

https://www.youtube.com/watch?v=HUti6vGctQM Correlación y causa, video de minutephysics.

### 📊 ¿Sabías esto sobre las correlaciones en Estadística Descriptiva? En el mundo del análisis de datos, es crucial entender que **correlación no significa causalidad**. Aunque dos variables estén correlacionadas, esto no implica que una cause a la otra. Por ejemplo, durante el verano, las ventas de helados y los crímenes aumentan. Esto no significa que los helados causen crímenes; simplemente hay un tercer factor (el calor) que influye en ambos. Este tipo de análisis es esencial en Data Science, ya que nos ayuda a identificar relaciones entre variables, pero siempre debemos ser cuidadosos al interpretar los resultados para evitar conclusiones incorrectas. Aprender a identificar correlaciones y entender sus limitaciones es clave en cualquier estudio de datos. ¡Recuerda, más datos no siempre significan más claridad!

Me sorprende el uso de la correlacion. Sera interesante el como aplicarla. Ahora queda entenderlo mejor por codigo.

Que buena clase, y que buen curso oye, si prestas atención a todo lo que ha dicho el profesor en las clases anteriores entiendes perfectamente esta clase, y eso que estoy trasnochada jaja, muy buen trabajo por parte del profesor 💚 terminé esta clase contenta

la actitud del instructor es buena, se le nota manejo de la información pero me parece que no es muy efectiva la forma de hacer llegar la información. muy paila cómo pronuncia casos que si bien son útiles para ejemplificar algo pero que no ayuda a la construcción de conocimiento. les explico: imagínense el caso de que están en la universidad y el profesor empieza a explicar, de repente un estudiante menciona un caso que solo el profesor y él conoce. todos be like: 🫥, what? ya el profesor y él estudiante del caso: 🥰. en fin.

En estadistica Existe un lema Causación no esta asociado con correlación, Correlacion no implica Causación

**La causalidad **implica una relación de causa y efecto, donde un cambio en una variable causa un cambio en la otra. Establecer la causalidad requiere una evaluación más profunda y rigurosa que la simple observación de una correlación.

**La correlación **nos indica si existe una asociación estadística entre las variables y qué tan fuerte es esa asociación. Sin embargo, no podemos concluir que una variable causa directamente cambios en la otra solo por tener una correlación alta.

Excelente clase!

Correlaciones

¿Qué es la correlación?

  • La correlación es una medida estadística que expresa hasta qué punto dos variables están relacionadas linealmente (esto es, cambian conjuntamente a una tasa constante).

¿Qué es la covarianza?

  • Es un valor que indica el grado de variación conjunta de dos variables aleatorias respecto a sus medias.

¿Qué es el coeficiente de correlación?

  • El coeficiente de correlación es la medida específica que cuantifica la intensidad de la relación lineal entre dos variables en un análisis de correlación.

.

Correlación gráficamente:

.

Siempre debemos considerar que: Correlación no implica causalidad.

Buena clase.

******un breve ejemplo de correlaciones ******

  • La correlación es un sistema de hechos que puede mostrar si y cómo se conectan de forma inequívoca los factores. Por ejemplo, la altura y el peso están conectados; los individuos más altos serán, en general, más pesados que los más bajos. La relación no es inmaculada. Los individuos de estatura similar fluctúan en el peso, y se puede, sin mucho esfuerzo, considerar a dos individuos que se sabe que el más bajo es más pesado que el más alto. Sin embargo, la carga normal de los individuos de 5’5” no es exactamente la carga normal de los individuos de 5’6”, y su peso normal no es tanto como el de los individuos de 5’7”, y así sucesivamente. La correlación puede decirte cuánto de la variación en el peso de las personas está relacionado con sus alturas.

  • A pesar de que esta relación es genuinamente evidente, su información puede contener conexiones insospechadas. También puede especular que hay conexiones, sin embargo, no se da cuenta de cuáles son las más sólidas. Un examen profundo de la relación puede llevar a una comprensión más prominente de su información.

Entonces este grafico explicaria las Correlaciones?

Correlación significa que dos cosas se mueven en la misma dirección