Introducci贸n al an谩lisis exploratorio de datos

1

驴Qu茅 es y para qu茅 sirve el an谩lisis exploratorio de datos?

2

驴C贸mo hacer un an谩lisis exploratorio de datos?

3

Tipos de an谩lisis de datos

4

Tipos de datos y an谩lisis de variables

5

Herramientas de software para el an谩lisis exploratorio de datos

6

Conociendo nuestros datos: palmerpenguins

7

Recolecci贸n de datos, limpieza y validaci贸n

8

Ejercicio de validaci贸n de datos

Quiz: Introducci贸n al an谩lisis exploratorio de datos

An谩lisis univariado

9

Explorando una variable categ贸rica: conteos y proporciones

10

Estad铆stica descriptiva aplicada: medidas de tendencia central

11

Estad铆stica descriptiva aplicada: medidas de dispersi贸n

12

Ejercicio de obtenci贸n de medidas de dispersi贸n

13

Estad铆stica descriptiva aplicada: distribuciones

14

Estad铆stica descriptiva aplicada: funciones de densidad de probabilidad

15

Bonus: Teorema del l铆mite central

Quiz: An谩lisis univariado

An谩lisis bivariado

16

Estableciendo relaciones: gr谩ficos de puntos

17

Estableciendo relaciones: gr谩ficos de viol铆n y boxplots

18

Estableciendo relaciones: matrices de correlaci贸n

19

Limitantes de los coeficientes de correlaci贸n lineal

20

Estableciendo relaciones: an谩lisis de regresi贸n simple

21

Limitaciones del an谩lisis de regresi贸n simple

Quiz: An谩lisis bivariado

An谩lisis multivariado

22

An谩lisis de regresi贸n m煤ltiple

23

Visualizaci贸n del an谩lisis de regresi贸n m煤ltiple

24

An谩lisis de regresi贸n log铆stica

25

Paradoja de Simpson

26

驴Qu茅 hacer cuando tengo muchas variables?

Quiz: An谩lisis multivariado

Conclusiones

27

Diversidad de gr谩ficas al explorar datos

28

Contin煤a aprendiendo sobre EDA

No tienes acceso a esta clase

隆Contin煤a aprendiendo! 脷nete y comienza a potenciar tu carrera

Paradoja de Simpson

25/28
Recursos

Aportes 14

Preguntas 0

Ordenar por:

驴Quieres ver m谩s aportes, preguntas y respuestas de la comunidad?

o inicia sesi贸n.

Me gust贸 conocer la paradoja. Un resumen que me pareci贸 sencillo sobre la paradoja de Simpson es:

Una tendencia que aparece en varios grupos de datos desaparece cuando estos grupos se combinan y en su lugar aparece la tendencia contraria para los datos agregados.

Les comparto mi gr谩fica donde las separe por la variables 鈥渟ex鈥. Podemos ver claramente que el sexo masculino tiene los picos m谩s profundos. Adem谩s se observa como la regresi贸n lineal cambia para cada sexo

Es sin duda la gr谩fica m谩s linda de este curso hasta ahora, y puesto que ofrece tanta informaci贸n sin ning煤n tipo de procesamiento previo, no convendr铆a comenzar nuestros an谩lisis con este tipo de gr谩ficas?

Paradoja de Simpson

Fenomeno en el cual es posible concluir dos cosas totalmente opuestas a partir de los mismos datos, dependiendo el como se clasifican estos

Visualiza siempre los datos para tener una mejor idea de las variables que estan relacionadas.

Utiliza pairplot de la libreria Seaborn para obtener un resumen visual de las graficas de par de variables y tener una idea desde el inicio de la EDA sobre la relacion de las variables

#Exploracion visual de los datos con seaborn
sns.pairplot(
    data=preprocessed_penguins_df,
    hue='species',
    palette=penguin_color
)

Este video me ayudo a entender mejor la Paradoja de Simpson:
https://www.youtube.com/watch?v=hpbXkrm68rI&ab_channel=MinutoDeFisica

Dejo m谩s data por aqu铆:
https://es.wikipedia.org/wiki/Paradoja_de_Simpson

  • La paradoja de Simpson es un fen贸meno en el que una tendencia o relaci贸n aparente entre dos variables en un nivel de agregaci贸n desaparece o incluso se invierte cuando se examinan los datos a un nivel m谩s detallado. Esto puede ocurrir cuando las variables est谩n relacionadas con una tercera variable confusa.
import seaborn as sns

sns.pairplot(data=penguins, hue='species')

  • Todas las variables en el conjunto de datos de ping眉inos, dividido por especie. El argumento 鈥渉ue鈥 se utiliza para diferenciar cada especie con diferentes colores. Esto nos permite visualizar si hay diferencias entre las especies en t茅rminos de la relaci贸n entre las variables y si hay alguna paradoja de Simpson presente.

  • Por ejemplo, podemos observar que en la especie de ping眉inos Adelia, hay una correlaci贸n positiva entre la longitud de la aleta y la longitud del pico, as铆 como entre la longitud de la aleta y la masa corporal. Sin embargo, cuando combinamos todas las especies juntas, esta correlaci贸n se invierte y se vuelve negativa.
sns.pairplot(data=penguins, vars=['bill_length_mm', 'body_mass_g', 'flipper_length_mm'], hue='species')

  • Este c贸digo crea un pairplot de las variables 鈥渂ill_length_mm鈥, 鈥渂ody_mass_g鈥 y 鈥渇lipper_length_mm鈥 para cada especie de ping眉ino. Podemos observar que en la especie Adelia, la longitud del pico y la masa corporal est谩n positivamente correlacionadas con la longitud de la aleta. Sin embargo, cuando se combinan todas las especies juntas, la relaci贸n se invierte y se vuelve negativa.

  • Esto ilustra la paradoja de Simpson, donde una tendencia positiva en cada grupo de datos se invierte cuando se combinan los grupos. En este caso, la variable de confusi贸n podr铆a ser la especie de ping眉ino, que afecta la relaci贸n entre las variables. Es importante tener en cuenta la paradoja de Simpson al analizar datos y asegurarse de que las relaciones observadas sean v谩lidas para todo el conjunto de datos y no solo para subconjuntos espec铆ficos.

Mi fuente es Wikipedia:
Paradoja de Simpson

La paradoja de Simpson lleva el nombre del matem谩tico brit谩nico Edward Simpson, quien la describi贸 por primera vez en un art铆culo en 1951. En su art铆culo, Simpson present贸 un ejemplo hipot茅tico que mostraba c贸mo una relaci贸n aparente entre dos variables en un conjunto de datos se revert铆a cuando se desagregaban los datos en subgrupos.

Desde entonces, la paradoja de Simpson se ha identificado en una variedad de campos, desde la medicina hasta la econom铆a, y se ha convertido en un tema importante en la estad铆stica y la ciencia de datos. La paradoja de Simpson demuestra c贸mo es crucial tener en cuenta las variables relevantes y c贸mo los datos se agrupan antes de sacar conclusiones.

ChatGPT

Muy buenos consejos, como el de visualizar siempre tus datos eres un crack Jes煤s 馃

Es algo que pasa en el mundo laboral muy comunmente en mi experiencia

25. Paradoja de Simpson

鈥淔en贸meno en el cual es posible concluir dos cosas totalmente opuestas a partir de los mismos datos, dependiendo el c贸mo se clasifican estos.鈥

sns.pairplot( # Grafico de pares de variables con regresion lineal por especie **
    data=processed_penguins_df,
    hue='species',
    palette=penguin_color
)

De mi lado la hice con boddy mass vs bill deph. aparentemente habia una relacion indirecta entre las variables pero al analxar las especies vemos un resultado opuesto

Yo encontre

Que los Adelie y Chinstrap tienen altura de picos dentro del mismo rango mientras que los Gentoo tienen un rango mas bajo鈥

Excelente clase, muchas gracias por darnos a conocer de una manera tan amena la Paradoja de Simpson