Podemos ver mejor el patron que existe en la primera grafica, (bill_depth_mm y bill_length_mm): segmentandolo por especie:
Introducción al análisis exploratorio de datos
¿Qué es y para qué sirve el análisis exploratorio de datos?
¿Cómo hacer un análisis exploratorio de datos?
Tipos de análisis de datos
Tipos de datos y análisis de variables
Herramientas de software para el análisis exploratorio de datos
Conociendo nuestros datos: palmerpenguins
Recolección de datos, limpieza y validación
Ejercicio de validación de datos
Quiz: Introducción al análisis exploratorio de datos
Análisis univariado
Explorando una variable categórica: conteos y proporciones
Estadística descriptiva aplicada: medidas de tendencia central
Estadística descriptiva aplicada: medidas de dispersión
Ejercicio de obtención de medidas de dispersión
Estadística descriptiva aplicada: distribuciones
Estadística descriptiva aplicada: funciones de densidad de probabilidad
Bonus: Teorema del límite central
Quiz: Análisis univariado
Análisis bivariado
Estableciendo relaciones: gráficos de puntos
Estableciendo relaciones: gráficos de violín y boxplots
Estableciendo relaciones: matrices de correlación
Limitantes de los coeficientes de correlación lineal
Estableciendo relaciones: análisis de regresión simple
Limitaciones del análisis de regresión simple
Quiz: Análisis bivariado
Análisis multivariado
Análisis de regresión múltiple
Visualización del análisis de regresión múltiple
Análisis de regresión logística
Paradoja de Simpson
¿Qué hacer cuando tengo muchas variables?
Quiz: Análisis multivariado
Conclusiones
Diversidad de gráficas al explorar datos
Continúa aprendiendo sobre EDA
No tienes acceso a esta clase
¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera
Jesús Vélez Santiago
Aportes 34
Preguntas 1
Podemos ver mejor el patron que existe en la primera grafica, (bill_depth_mm y bill_length_mm): segmentandolo por especie:
Las relaciones entre dos variables puede analizarse mediante un grafico de puntos o scatterplot. Nos da una idea de la tendencia o agrupamiento de los datos. Algunas sugerencias para construir un scatterplot son:
Aquí podemos ver la relación entre la masa del pingüino y la longitud de las alas:
Por otro lado. Las mismas variables pero esta vez con la isla:
para comprobar esto decidí hacer un histplot:
sns.scatterplot(
data=dataFrame,
x='nombre_variable1',
y='nombre_variable2',
alpha = 1/2, #transparencia
s=100 #tamaño de los puntos
)
sns.displot(
data= preprocessed_penguins_df,
x='bill_length_mm',
y='bill_depth_mm',
rug=True #muestra una linea de distribucion para cada variable
)
sns.displot(
data= preprocessed_penguins_df,
x='bill_length_mm',
y='bill_depth_mm',
rug=True, #muestra una linea de distribucion para cada variable,
kind='kde'
)
#multiples graficos
#scatterplot + histograma
sns.jointplot(
data= preprocessed_penguins_df,
x= 'bill_length_mm',
y= 'bill_depth_mm',
)
fig1 = px.scatter(processed_penguins_df,
x='bill_length_mm',
y='bill_depth_mm',
hover_data=['sex'],
color='species',
color_discrete_map=penguin_color,
marginal_x='box',
marginal_y='box',
opacity=0.5,
trendline='ols')
fig1.update_traces(marker_size=12)
fig1.show()
Agregue un parametro stryle para hacer una diferencia entre sexo. Los machos estan “corridos” hacia la izquierda y arriba. Algo esperado, creo, porque en la mayoria de especies animales se da que los machos sean mas grandes que las hembras.
<code>
sns.scatterplot(
data = process_penguins_df,
x = 'bill_length_mm',
y = 'bill_depth_mm',
style='sex',
hue= 'species',
palette=penguin_color,
s = 100
)
Para que cada uno de estos gráficos se vea mejor pueden agregar dentro de cada uno de estos el parámetro
hu=“species” como en la figura que se muestra a contnuación:
Aqui nos muestra la relacion que existe entre body mass y flipper length, con una segmentacion por islas.
sns.jointplot(
data= procesdf,
x= 'body_mass_g',
y= 'flipper_length_mm',
hue= 'island',
# rug= True
);
Estaba tratando de relacionar el body_mass_g con el sex de los pingüinos . Mi teoría es que los male tienen un body_mass_g mayor al de las female.
Estas son las gráficas que obtuve, aunque creo que hay mejores formas de hacer este tipo de gráficas.
sns.jointplot(
data=process_penguins_df,
x='body_mass_g',
y='species',
hue='sex'
)
sns.displot(
data=process_penguins_df,
x='body_mass_g',
y='sex'
)
sns.jointplot(
data=process_penguins_df,
x='bill_length_mm',
y='bill_depth_mm',
hue='sex'
)
No habia entendido la utilidad del parametro alpha hasta ahora. Buena clase.
sns.scatterplot(
data=processed_penguins_df,
x=‘bill_length_mm’,
y=‘bill_depth_mm’,
alpha=1/2,
s=100
)
sns.displot(
data=processed_penguins_df,
x=‘bill_length_mm’,
y=‘bill_depth_mm’,
rug=True,
kind=‘kde’ // para ver densidades
)
sns.jointplot(
data=processed_penguins_df,
x=‘bill_length_mm’,
y=‘bill_depth_mm’,
Prueben a todas las gráficas de esta clase agregar el siguiente parámetro:
hue='species'
Sin dudas que les va a dar una visión mucho más enriquecida.
Si primero dividimos por especie obtenemos grupos por pares de variables que nos hacen más faćil separar machos y hembras
sns.displot(data=processed_penguins_df,
x='bill_length_mm',
y='bill_depth_mm',
rug=True,
kind='kde',
fill=True,
palette='YlOrBr',
hue='species')
Segun mi interpretacion la especie Adelie presenta una mayor profundidad del pico y en su mayoria un pico mas pequeno o corto, la especie gentoo presenta un pico mas largo pero menos profundo y la especie chinstrap es la que presenta una mayor simetria entre la profundidad y el largo de su pico, sin embargo hay una parte de esa poblacion que tiene una profundidad mayor, en conclusion si se busca simetria la especie chinstrap es la que mas se ajusta, si es por profundidad del pico la especie adelie es la correcta y si es por el largo del pico la especie gentoo es la adecuada.
Los pairplot sirven para los análisis exploratorios iniciales ya que se genera un subplot con varios scatterplots entre todas las variables numéricas del Dataframe, es útil cuando hay pocas
categorías numéricas.
sns.jointplot(
data=processed_penguins_df,
x="bill_length_mm",
y="bill_depth_mm"
)
Se puede ver que en general la especie ‘Gentoo’ tiene una mayor longitud de pico y menor profundidad que las otras especies.
Pasa lo contrario con la especie ‘Adeline’.
sns.jointplot(
data=processed_penguins_df,
x='bill_length_mm',
y='bill_depth_mm',
hue = 'species'
)
Segmentando por sexo se puede ver que en general los machos tienen mayor profundidad y longitud de pico que las hembras
sns.jointplot(
data=processed_penguins_df,
x='bill_length_mm',
y='bill_depth_mm',
hue = 'sex'
)
sns.jointplot(
data = preprocess_penguins_df,
x= 'bill_length_mm',
y= 'bill_depth_mm',
kind = 'kde',
palette=penguin_color,
hue='species'
)
sns.jointplot(
data=processed_penguins_df,
x='flipper_length_mm',
y='body_mass_g',
hue='species'
)
En este grafico puedo validar que para todas las especies existe una tendencia lineal que a mayor longitud de aleta, mayor es el peso.
Y que las hembras suelen tener menor peso y longitud de aleta que los machos.
Separando lo pinguinos por especies se intulee por que esa forma en la grafica de dencidad general, es la agrupacion donde cada centro dencidad es de una especie de pinguino difrente.
Y agrego otro:
style='island'
La importancia de aprender a relacionar los datos entre sí y utilizar los diferentes tipos de gráficos para el análisis de datos.
¿Quieres ver más aportes, preguntas y respuestas de la comunidad?