Comparación entre las siguientes variables: Islan, and body_mass_g
Como se puede apreciar en el gráfico de scatterplot, muchos datos se sobrelapan en la isla: Dream entre las especies: Adelie y Chinstrap. Además, en las isla Biscoe se nota que la especie Gentoo es mucho más pesada en que la especie Adelie. Por último, en la isla Torgensen, solamente habitan pinguinos de la especie Adelie, aunque esta especie tiene presencia en todas las islas, mientras que Gentoo solamente tiene presencia en la isla Biscoe, y en cambio, Chinstrap tiene presencia solamente en la isla Dream.
Ahora en la gráfica de cajas y bigotes podemos observar que las especies Adelie, y Chinstrap pesan casi lo mismo en cualquier isla, mientras que la espeice Gentoo es la más pesada como se dijo anteriormente.
Por último, en la gráfica de violín y de scatter, podemos deducir que Chinstrap se acerca a una distribución normal, lo mismo con Adelie en las islas de Torgensen y Biscoe, pero en Dream se encuentra un poco hacia la izquierda.
Tenia la duda si los investigadores dedicaron un año a cada isla para tomar los datos, pero no, quizás había equipos en cada isla trabajando simultáneamente durante los 3 años (o hicieron visitas periódicas durante los 3 años a cada isla).
Muy buena clase! Pero me surgió una duda. Al agregar puntos aleatorio para visualizar mejor la distribución no corro el riesgo de alterar el comportamiento de los datos? Agradezco quien pueda aclarar mi duda.
Hola compañero, entiendo que te refieres al uso del stripplot. En la documentación de la pág web dice esto:
"Draw a categorical scatterplot using jitter to reduce overplotting."
O sea que no agrega/crea puntos aletoria o proporcionalmente sino que simplemente los desordena para que no esten tan uno encima de otro. Comparando graficamente stripplot y swarmplot me juego a que muestran la misma cantidad de puntos.
Entonces no alteran la cantidad de puntos sino solo los desordenan, al menos aquí que si tratamos con variables categoricas como la especie no habría ningún problema de malinterpretarlos.
Graficos de violin y boxplots
Cuando las variables son discretas los puntos se acumulan en linea vertical en un scatterplot lo que entrega poca informacion sobre la distribucion de los puntos.
Cuando analizas la relacion entre una variable numerica y una variable discreta conviene utilizar los graficos de boxplots. Para este caso, la variable discreta va representada en el eje de las x y las variable numerica en el eje de las y.
!
Gráfico y código
fig,(ax1, ax2)= plt.subplots(1,2, figsize=(10,6))sns.violinplot( data=dfnn, x='island', y='body_mass_g', ax=ax1
)sns.swarmplot( data=dfnn, x='island', y='body_mass_g', hue='sex', palette=sex_colour, ax=ax1
)ax1.set_title('Violin Plot and Swarm Plot')sns.boxplot( data=dfnn, x='island', y='body_mass_g', hue='sex', palette=sex_colour, ax=ax2
)ax2.set_title('Box Plot')# Ajustar el diseño de la figura
plt.tight_layout()plt.show()
Me gusto mucho tu resolución.
Noten que desde que utilizamos una variable categórica (o
variable cualitativa) automáticamente debemos pensar en las gráficas que se utilizan para este tipo de variable:
countplot
barplot
boxplot
violinplot
stripplot
swarmplot
factorplot
Eligiendo entonces los plots vistos en clase para ver la relación con una variable cuantitativa.
Conclusion: los pinguinos hembra son menos pesados que los machos y ademas los Gentoo son la especie con mayor peso.
como lo pusiste con el sexo
Isla Biscoe:
En la isla Biscoe se encuentran los pingüinos Gentoo y Adelie
Se registraron pingüinos 119 de la especie Gentoo, son los mas pesados dentro de las tres especies con una media de 5050 gr y pesos máximos de 6300 gr.
Se registraron pingüinos 44 de la especie Adelie, se destacan por su peso promedio de 3750 gr que es ligeramente superior en comparación a su misma especie en las 2 otras islas.
La isla Biscoe consta del mayor registro de pinguinos (163), destaca por tener los pinguinos con peso promedio mas alto.
Isla Dream:
En la isla Dream se encuentran los pinguinos Chinstrap y Adelie
Se registraron pingüinos 68 de la especie Chinstrap sobrepasa su peso promedio (3700 g) y primer cuartil (3487) en comparación a los Adelie. Su distribución es la que más se asemeja a una distribución normal.
Se registraron pingüinos 55 de la especie Adelie presentan un peso promedio (3600 g) y peso máximo (4650 g) inferior a su misma especie en las 2 otras islas.
La isla Dream consta 123 registros de pingüinos.
Isla Torgersen:
En la isla Torgersen se encuentran solo los pingüinos Adelie
Se registraron pingüinos 47 de la especie Adelie presentan la distribución mas semejante a una normal en comparación de las otras especies y de su misma especie en las otras islas.
La especie Adelie no tiene cambios significativos en su masa.
17. Estableciendo relaciones: gráficos de violín y boxplots
¿Qué pasa si tengo una variable discreta?
Se agrega un ruido aleatorio para visualizar mejor los datos
Según los resultados de la función que dejo aquí abajo, encuentro que la especie Adelie se encuentra en las 3 islas, la especie Gentoo solo en la isla Biscoe y la especie Chinstrap solo en la isla Dream.
Los gráficos me muestran que las especies adelie y chinstrap tienen una misma distribución de pesos, mientras que la especie gentoo pesa más que el resto, lo que hace la isla Biscoe se suba el promedio de pesos, ya que solo allí están los Gentoo.
defplot_penguins_weight(data): unique_islands = data['island'].unique()# Obtener las islas únicas fig, axes = plt.subplots(nrows=2, ncols=2, figsize=(12,10))# Gráfico 1: Swarmplot ax = sns.swarmplot(data=data, x='island', y='body_mass_g', hue='species', palette='Set1', ax=axes[0,0]) ax.set_title('Swarmplot')# Gráfico 2: Violinplot ax = sns.violinplot(data=data, x='island', y='body_mass_g', color='.8', ax=axes[0,1]) ax.set_title('Violinplot')# Gráfico 3: Stripplot ax = sns.stripplot(data=data, x='island', y='body_mass_g', palette='Set1', ax=axes[1,0]) ax.set_title('Stripplot')# Gráfico 4: Boxplot ax = sns.boxplot(data=data, x='body_mass_g', y='island', palette='Set1', ax=axes[1,1]) ax.set_title('Boxplot')# Ajustar los espacios entre los subgráficos plt.tight_layout()# Mostrar el gráfico combinado plt.show()# Utilizar la función para graficar por islaplot_penguins_weight(processed_penguins_df)
Excelente aporte
Los gráficos de violín y los boxplots son dos tipos de gráficos utilizados en estadística y visualización de datos para representar distribuciones de datos y detectar valores atípicos.
Un gráfico de violín es un gráfico que muestra la distribución de los datos mediante una curva simétrica que se asemeja a un violín. Este gráfico combina un histograma o un gráfico de densidad en la parte central con dos brazos que representan la densidad de los datos en ambos lados. El grosor del violín en cualquier punto representa la densidad de los datos en ese punto.
Un boxplot, por otro lado, muestra la distribución de los datos mediante una caja con dos líneas que se extienden desde ella, conocidos como bigotes. La caja representa el rango intercuartil (IQR) de los datos, es decir, el rango entre el primer y tercer cuartil. La línea que divide la caja en dos partes iguales representa la mediana de los datos. Los bigotes se extienden hasta los valores mínimo y máximo dentro de 1,5 veces el rango intercuartil de los datos. Los valores que están más allá de los bigotes se consideran valores atípicos.
Esto probablemente muestra primero que, la especie que mas tiende a pesa son los Gentoo y que justo solo se encuentran en la isla "Biscoe" , lo que demuestra tambien que son la isla con mayor peso de forma general, ademas, los "Chinstrap" se ven de forma muy acumulada entre los 3000g y 4500g de mada corporal lo que demuestra que su media es mucha mas baja con respecto a las otras especies de hecho si vemos otra visualizacion mas general como un boxplot veremos claramente estas metricas de tendencia central así de forma mas general:
Vemos como esto corrobora aun mas nuestro analisis de que la especie que en promedio mas peso tiene son los gentoo y los mas acumulados dentro de una zona son los Chinstrap
Llegué a éste interesante gráfico para el desafío, el cual creo es bastante legible y entendible; Donde podemos observar la distribución del peso de los pingüinos en cada isla y como ésta se ve influenciada por las especies que se encuentran en cada isla según su densidad de población.
Gráfica:
Use conocimientos previos para tratar de llegar a algunas conclusiones relacionadas con la localización de las diferentes especies y sus pesos.
Suponiendo que los datos no presentan sesgos en cuanto a la captura de estos mismos, podríamos decir que:
La isla Biscoe es la mas poblada
La distribución de las especies no es igual en todas las islas
Existen especies que únicamente habitan una sola isla de las que están presentes en los datos
La especie Adelie parece ser muy exitosa pues es la única que tiene presencia en las 3 islas consideradas
Nuestra especie de interés Adelie no presenta cambios significativos en su masa entre las diferentes islas, esto lo podemos apreciar porque en todas sus distribuciones son muy similares
En cuanto a la isla Biscoe, no solo podemos decir que es la isla mas habitada, si no que también posee a los pingüinos de mayor peso, los pertenecientes a la especie Gentoo, esto podria estar indicando una isla de mayor tamaño y/o un acceso a recursos mucho mayor
De todo esto me queda una pregunta, si las condiciones en la isla Biscoe son tan favorables como insinúa mi análisis, por que no hay presencia de la especie Chinstrap en esta?
Tengo una pregunta, con la IA en estos días que esta tan evolucionado no se puede desarrollar un código del mejor lenguaje que se adapte a la ciencia de datos y logre predecir los futuros movimientos del Trading, pero no del Bitcoin porque es imposible.... Pero si de los índices sintéticos de Deriv? o también es imposible??
yo opino que se es posible
Comparando con el boxplot y swarmplot, en este caso para mi el mejor grafico fue el scatterplot. Lo que encontramos es que los Gentoo son los pinguinos mas pesados, siendo los segundo los Chisntrap y por ultimo los Adelie. Ahora es muy interesante interpretar que los Gentoo solo habitan en una isla (Biscoe Island) y los Chisntraps solo es la isla Dream, mientras que los Adelie que son los menos pesados habitan en las 3 islas y se encuentran solos en la isla Torgensen.