Correlación y covarianza en análisis de datos
Clase 19 de 24 • Curso de Matemáticas para Data Science: Estadística Descriptiva
Contenido del curso
Estadística descriptiva para analítica
- 4
Uso de Deepnote para Jupyter Notebooks en Ciencia de Datos
01:19 min - 5

Tipos de Datos en Ciencia de Datos: Categóricos y Numéricos
16:06 min - 6

Medidas de Tendencia Central: Media, Mediana y Moda
09:47 min - 7

Media vs. Mediana: Diferencias y Aplicaciones Prácticas
17:17 min - 8

"Estadística Descriptiva con Pandas: Medidas de Tendencia Central"
20:58 min - 9

Rango y Rango Intercuartil en Medidas de Dispersión
05:25 min - 10

Desviación Estándar y Varianza en Estadística Descriptiva
14:29 min - 11

Cálculo y Visualización de Medidas de Dispersión en Python
11:14 min - 12

Visualización de Datos: Catálogo y Uso de Diagramas en Python
08:48 min - 13

Diagramas de Dispersión y su Análisis con Seaborn
12:32 min
Estadística en la ingesta de datos
- 14

Escalamiento Lineal de Datos Numéricos para Machine Learning
10:54 min - 15

Transformaciones No Lineales para Datos Sesgados en Machine Learning
08:51 min - 16

Procesamiento y Escalamiento de Datos Numéricos en Python
14:55 min - 17

Mapeo de Variables Categóricas en Python: Dumi y OneHot
05:00 min - 18

Codificación de Variables Categóricas en Python con Pandas y Scikit-Learn
12:58 min - 19

Correlación y covarianza en análisis de datos
Viendo ahora - 20

Construcción y Análisis de la Matriz de Covarianza en Python
13:09 min
Proyecto de aplicación
Despedida
¿Qué es la correlación en estadística?
El mundo de la estadística nos sorprende con conceptos esenciales que nos ayudan a entender mejor los datos y sus relaciones. Un ejemplo claro es la correlación, una herramienta poderosa que nos permite evaluar cómo dos variables están conectadas. En este contexto, si te has preguntado alguna vez si dos variables están relacionadas y cómo esta relación puede afectar tus análisis, investigar el concepto de correlación es crucial. Además, explorar la covarianza y entender cómo modelar utilizando estas medidas es parte integral del aprendizaje en ciencias de datos.
¿Cómo se calcula la covarianza y por qué es importante?
La covarianza es la base para entender lo que comúnmente llamamos correlación. Su cálculo implica comparar las desviaciones de cada dato con respecto al promedio en dos variables. ¿Cómo es esto útil? Aquí te muestro un paso a paso:
-
Varianza y desviación estándar: La varianza de una variable x es la suma cuadrática de las desviaciones respecto al promedio, dividida por la cantidad de datos menos uno. La desviación estándar es la raíz cuadrada de la varianza y es crucial para entender las dispersiones de los datos.
-
Cálculo de covarianza: Multiplica las variaciones de cada elemento de la variable x con las variaciones de cada elemento de la variable y respecto a sus promedios respectivos. Luego, divide todo esto por n-1. Esto resulta en la covarianza, que indica la variación conjunta de las dos variables.
La covarianza puede indicar el grado de interrelación entre dos variables, pero puede verse afectada por las unidades de medida de cada variable, lo que lleva a la necesidad de un ajuste: el coeficiente de correlación.
¿Qué es el coeficiente de correlación?
Para superar el problema de unidades diferentes de las variables, se utiliza el coeficiente de correlación. Esta medida estándar permite cuantificar la relación entre dos variables sin preocuparnos por las diferencias en las unidades de medida.
El coeficiente de correlación se calcula dividiendo la covarianza entre la desviación estándar de la variable x y la desviación estándar de la variable y. El resultado es un número entre -1 y 1:
- Cercano a 1: Indica una correlación positiva fuerte: mientras una variable aumenta, la otra también lo hace.
- Cercano a -1: Indica una correlación negativa fuerte: mientras una variable aumenta, la otra disminuye.
- Cercano a 0: Significa falta de correlación entre las variables.
¿Por qué la correlación no implica causalidad?
Un principio universal en estadística es que la correlación no implica causalidad. Aunque dos variables puedan estar altamente correlacionadas, esto no significa que una cause a la otra. Este malentendido puede llevar a conclusiones erradas si no se considera cuidadosamente el contexto de los datos.
Es clave usar la correlación como una herramienta para identificar relaciones, pero siempre con un enfoque crítico hacia las posibles causas subyacentes. En análisis de modelos de machine learning, esta distinción es crucial, pues nos ayuda a elegir variables relevantes sin caer en la trampa de la causalidad desacertada.
¿Cómo aplicar la correlación en la reducción de variables?
En ciencia de datos, cuando se lidia con un gran número de variables, es fundamental reducirlas eficazmente. La correlación puede ser una herramienta vital para esto:
- Identificar variables redundantes: Si dos variables muestran una correlación alta, es probable que contengan información similar, lo cual permite eliminar una de ellas del análisis sin perder valor informativo.
- Simplificación del modelo: Al reducir el número de variables, se facilita la construcción de modelos más simples y eficaces, mejorando la interpretación y predicción.
A medida que avanza en tus estudios de estadística y ciencia de datos, continúe profundizando en estos conceptos y aplíquelos a su análisis de datos para mejorar tanto la comprensión de los mismos como la calidad de sus modelos predictivos.