Tambièn con jointplot nos dice más sobre la distribución por tipo de pinguino
Estableciendo Relaciones: Graficos de puntos
Las relaciones entre dos variables puede analizarse mediante un grafico de puntos o scatterplot. Nos da una idea de la tendencia o agrupamiento de los datos. Algunas sugerencias para construir un scatterplot son:
Cuando hay muchos puntos en la grafica no se perciben de forma correcta. Puedes mejorar la visualizacion modificando la transparencia de los puntos con el parametro alpha. Un alpha de 1/30 implica que se necesitan 30 datos para que el punto sea totalmente del color negro.
!
Utilizar histogramas de dos dimensiones. Cuenta los valores que quedan dentro de un intervalo de la variable x y un intervalo de la variable ‘y’ y muestra la frecuencia utilizando una barra de colores.
!
Cambio de color de los puntos. Ayuda a visualizar las zonas donde se concentra la mayor cantidad de datos
Gracias por el aporte.
Gracias..!
Aquí podemos ver la relación entre la masa del pingüino y la longitud de las alas:
Los Gento tienen una mayor masa corporal y longitud de alas.
Podríamos inferir que la longitud del ala depende de la masa del pingüino.
Por otro lado. Las mismas variables pero esta vez con la isla:
En la isla Biscoe viendo la densidad y conociendo la longitud de ala por especie, podríamos decir que hay una mayor cantidad de especies de pingüinos que en las otras dos.
para comprobar esto decidí hacer un histplot:
Tiene mayor proporción de pingüinos y dos de cada especie. Sin embargo, la isla Dream también.
Al parecer la isla Torgensen es la única con una especie de pingüinos.
Me gusto mucho tu análisis!
Ya que usaste los ejemplos la clase y también diste un análisis a los estadísticos que se ven.
Toma un sanguchito por tu aporte
Código de los gráficos
Grafico de puntos
sns.scatterplot( data=dataFrame, x='nombre_variable1', y='nombre_variable2', alpha =1/2,#transparencia s=100#tamaño de los puntos)
histograma 2D
sns.displot( data= preprocessed_penguins_df, x='bill_length_mm', y='bill_depth_mm', rug=True#muestra una linea de distribucion para cada variable)
Grafico de contorno
sns.displot( data= preprocessed_penguins_df, x='bill_length_mm', y='bill_depth_mm', rug=True,#muestra una linea de distribucion para cada variable, kind='kde')
Agregue un parametro stryle para hacer una diferencia entre sexo. Los machos estan “corridos” hacia la izquierda y arriba. Algo esperado, creo, porque en la mayoria de especies animales se da que los machos sean mas grandes que las hembras.
<code>sns.scatterplot( data = process_penguins_df, x ='bill_length_mm', y ='bill_depth_mm', style='sex', hue='species', palette=penguin_color, s =100)
Excelente aporte. Gracias!.
Para que cada uno de estos gráficos se vea mejor pueden agregar dentro de cada uno de estos el parámetro
hu="species" como en la figura que se muestra a contnuación:
Interesante aporte! Gracias
Aqui nos muestra la relacion que existe entre body mass y flipper length, con una segmentacion por islas.
Estaba tratando de relacionar el body_mass_g con el sex de los pingüinos . Mi teoría es que los male tienen un body_mass_g mayor al de las female.
Estas son las gráficas que obtuve, aunque creo que hay mejores formas de hacer este tipo de gráficas.
Y pues según estas gráficas podemos concluir que los pingüinos macho en general tienen mas masa corporal que las hembras.
son 3 distribuciones, una por cada especia
Segun mi interpretacion la especie Adelie presenta una mayor profundidad del pico y en su mayoria un pico mas pequeno o corto, la especie gentoo presenta un pico mas largo pero menos profundo y la especie chinstrap es la que presenta una mayor simetria entre la profundidad y el largo de su pico, sin embargo hay una parte de esa poblacion que tiene una profundidad mayor, en conclusion si se busca simetria la especie chinstrap es la que mas se ajusta, si es por profundidad del pico la especie adelie es la correcta y si es por el largo del pico la especie gentoo es la adecuada.
Para los nuevos que están experimentando errores con el parámetro rug es porque éste se removió del método histplot() de Seaborn. En su lugar, grafiquen por encima del histograma de la siguiente forma:
Prueben a todas las gráficas de esta clase agregar el siguiente parámetro:
hue='species'
Sin dudas que les va a dar una visión mucho más enriquecida.
Si primero dividimos por especie obtenemos grupos por pares de variables que nos hacen más faćil separar machos y hembras
Claramente se observa que a medida que aumenta el ingreso (median_income) es mas probable que el valor de la casa (median_house_value) sea mayor.
encotnre que los machos tienen los picos mas grandes que las hembras no improta la especie
ANÁLISIS BIVARIADO: INTRODUCCIÓN AL GRÁFICO DE PUNTOS
¿Qué es un gráfico de puntos?
Un gráfico de puntos (o scatter plot) nos permite visualizar la relación entre dos variables al representarlas en un plano cartesiano. Cada punto del gráfico corresponde a una combinación de valores de estas dos variables.
Ejemplo: Longitud de las alas de pingüinos contra su peso. Al graficar estos datos, los puntos tienden a subir, lo que sugiere una posible relación entre ambas variables.
Ventajas del gráfico de puntos
Visualización inicial de relaciones: Ayuda a identificar si las variables parecen estar relacionadas y cómo cambian juntas.
Distribución de datos: Permite observar patrones como separación, acumulación o formas específicas en los puntos.
Desafíos con gráficos de puntos
Pocos datos: Los puntos suelen ser claros y fáciles de distinguir.
Demasiados datos: Puede haber áreas negras (mucha acumulación) o áreas sin puntos (vacías), lo que dificulta la interpretación.
MEJORA DEL GRÁFICO DE PUNTOS: TRANSPARENCIA
Ajuste del parámetro "alfa"
Definición: El parámetro "alfa" controla la transparencia de los puntos en el gráfico.
Ventaja: Permite visualizar mejor zonas con diferentes niveles de concentración de datos.
Ejemplo: Si el alfa se establece en 1/30, se necesitan 30 puntos superpuestos para formar un punto negro.
Beneficio de la transparencia
Identifica patrones de acumulación y zonas con menos datos.
Resalta áreas específicas de alta densidad en gráficos con grandes cantidades de datos.
USO DE HISTOGRAMAS EN DOS DIMENSIONES
Extensión del análisis univariado
Definición: Un histograma bidimensional calcula la frecuencia de datos en intervalos de dos variables (x e y).
Ventaja: Muestra la densidad de puntos en diferentes áreas del gráfico.
Ejemplo
En un gráfico oscuro, un histograma puede revelar concentraciones de puntos usando colores como azul (baja densidad) o rojo (alta densidad).
Interpretación con colores
Colores facilitan identificar patrones de acumulación.
Pregunta clave: ¿Por qué los datos se acumulan en ciertas zonas?