Introducción al análisis exploratorio de datos

1

¿Qué es y para qué sirve el análisis exploratorio de datos?

2

¿Cómo hacer un análisis exploratorio de datos?

3

Tipos de análisis de datos

4

Tipos de datos y análisis de variables

5

Herramientas de software para el análisis exploratorio de datos

6

Conociendo nuestros datos: palmerpenguins

7

Recolección de datos, limpieza y validación

8

Ejercicio de validación de datos

Quiz: Introducción al análisis exploratorio de datos

Análisis univariado

9

Explorando una variable categórica: conteos y proporciones

10

Estadística descriptiva aplicada: medidas de tendencia central

11

Estadística descriptiva aplicada: medidas de dispersión

12

Ejercicio de obtención de medidas de dispersión

13

Estadística descriptiva aplicada: distribuciones

14

Estadística descriptiva aplicada: funciones de densidad de probabilidad

15

Bonus: Teorema del límite central

Quiz: Análisis univariado

Análisis bivariado

16

Estableciendo relaciones: gráficos de puntos

17

Estableciendo relaciones: gráficos de violín y boxplots

18

Estableciendo relaciones: matrices de correlación

19

Limitantes de los coeficientes de correlación lineal

20

Estableciendo relaciones: análisis de regresión simple

21

Limitaciones del análisis de regresión simple

Quiz: Análisis bivariado

Análisis multivariado

22

Análisis de regresión múltiple

23

Visualización del análisis de regresión múltiple

24

Análisis de regresión logística

25

Paradoja de Simpson

26

¿Qué hacer cuando tengo muchas variables?

Quiz: Análisis multivariado

Conclusiones

27

Diversidad de gráficas al explorar datos

28

Continúa aprendiendo sobre EDA

No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

Paradoja de Simpson

25/28
Recursos

Aportes 20

Preguntas 0

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

Me gustó conocer la paradoja. Un resumen que me pareció sencillo sobre la paradoja de Simpson es:

Una tendencia que aparece en varios grupos de datos desaparece cuando estos grupos se combinan y en su lugar aparece la tendencia contraria para los datos agregados.

Paradoja de Simpson

Fenomeno en el cual es posible concluir dos cosas totalmente opuestas a partir de los mismos datos, dependiendo el como se clasifican estos

Visualiza siempre los datos para tener una mejor idea de las variables que estan relacionadas.

Utiliza pairplot de la libreria Seaborn para obtener un resumen visual de las graficas de par de variables y tener una idea desde el inicio de la EDA sobre la relacion de las variables

#Exploracion visual de los datos con seaborn
sns.pairplot(
    data=preprocessed_penguins_df,
    hue='species',
    palette=penguin_color
)

Les comparto mi gráfica donde las separe por la variables “sex”. Podemos ver claramente que el sexo masculino tiene los picos más profundos. Además se observa como la regresión lineal cambia para cada sexo

Es sin duda la gráfica más linda de este curso hasta ahora, y puesto que ofrece tanta información sin ningún tipo de procesamiento previo, no convendría comenzar nuestros análisis con este tipo de gráficas?

Este video me ayudo a entender mejor la Paradoja de Simpson:
https://www.youtube.com/watch?v=hpbXkrm68rI&ab_channel=MinutoDeFisica

Dejo más data por aquí:
https://es.wikipedia.org/wiki/Paradoja_de_Simpson

  • La paradoja de Simpson es un fenómeno en el que una tendencia o relación aparente entre dos variables en un nivel de agregación desaparece o incluso se invierte cuando se examinan los datos a un nivel más detallado. Esto puede ocurrir cuando las variables están relacionadas con una tercera variable confusa.
import seaborn as sns

sns.pairplot(data=penguins, hue='species')

  • Todas las variables en el conjunto de datos de pingüinos, dividido por especie. El argumento “hue” se utiliza para diferenciar cada especie con diferentes colores. Esto nos permite visualizar si hay diferencias entre las especies en términos de la relación entre las variables y si hay alguna paradoja de Simpson presente.

  • Por ejemplo, podemos observar que en la especie de pingüinos Adelia, hay una correlación positiva entre la longitud de la aleta y la longitud del pico, así como entre la longitud de la aleta y la masa corporal. Sin embargo, cuando combinamos todas las especies juntas, esta correlación se invierte y se vuelve negativa.
sns.pairplot(data=penguins, vars=['bill_length_mm', 'body_mass_g', 'flipper_length_mm'], hue='species')

  • Este código crea un pairplot de las variables “bill_length_mm”, “body_mass_g” y “flipper_length_mm” para cada especie de pingüino. Podemos observar que en la especie Adelia, la longitud del pico y la masa corporal están positivamente correlacionadas con la longitud de la aleta. Sin embargo, cuando se combinan todas las especies juntas, la relación se invierte y se vuelve negativa.

  • Esto ilustra la paradoja de Simpson, donde una tendencia positiva en cada grupo de datos se invierte cuando se combinan los grupos. En este caso, la variable de confusión podría ser la especie de pingüino, que afecta la relación entre las variables. Es importante tener en cuenta la paradoja de Simpson al analizar datos y asegurarse de que las relaciones observadas sean válidas para todo el conjunto de datos y no solo para subconjuntos específicos.


La paradoja de Simpson lleva el nombre del matemático británico Edward Simpson, quien la describió por primera vez en un artículo en 1951. En su artículo, Simpson presentó un ejemplo hipotético que mostraba cómo una relación aparente entre dos variables en un conjunto de datos se revertía cuando se desagregaban los datos en subgrupos.

Desde entonces, la paradoja de Simpson se ha identificado en una variedad de campos, desde la medicina hasta la economía, y se ha convertido en un tema importante en la estadística y la ciencia de datos. La paradoja de Simpson demuestra cómo es crucial tener en cuenta las variables relevantes y cómo los datos se agrupan antes de sacar conclusiones.

ChatGPT

Mi fuente es Wikipedia:
Paradoja de Simpson

Muy buenos consejos, como el de visualizar siempre tus datos eres un crack Jesús 🥇

Una solución que me viene a la mente al momento de hacer modelos de regresión, después del análisis exploratorio, es con R con `purr` y `map` que permite, por ejemplo seccionar el tibble en este caso por 'species' en unas cuantas líneas a fin de evitar problemas con nuestros modelos: `<` modelos <- 'tibble'%>% split(.$'categoría para seccionar el 'tibble') %>% map(~lm('variable dependiente' ~ 'variable independiente 1' + 'variable independiente 2' + 'variable independiente 3' + 'etc', data = .)) View(modelos) summary(modelos) Es muy interesante entre lenguajes de programación tener alternativas; sin dudas, Python me fascina.
Que buen fin :D
Chicos, alguien tiene el repositorio del curso? gracias.

Conclusion del curso:
con pairplot y con lmplot podemos ir al grano para conocer que variable(s) debemos considerar para realizar un analices.
solo que el curso se enfocó en como explorar los datos desde A hasta la Z(a grandes y pocos rasgos).
Por lo que entendí, es que la paradoja de simpson no es mas que la doble contrarias entre si que puedes tener bajo el mismo dataset.

Es algo que pasa en el mundo laboral muy comunmente en mi experiencia

25. Paradoja de Simpson

“Fenómeno en el cual es posible concluir dos cosas totalmente opuestas a partir de los mismos datos, dependiendo el cómo se clasifican estos.”

sns.pairplot( # Grafico de pares de variables con regresion lineal por especie **
    data=processed_penguins_df,
    hue='species',
    palette=penguin_color
)

De mi lado la hice con boddy mass vs bill deph. aparentemente habia una relacion indirecta entre las variables pero al analxar las especies vemos un resultado opuesto

Yo encontre

Que los Adelie y Chinstrap tienen altura de picos dentro del mismo rango mientras que los Gentoo tienen un rango mas bajo…

Excelente clase, muchas gracias por darnos a conocer de una manera tan amena la Paradoja de Simpson