Diagramas de Dispersión y su Análisis con Seaborn

Clase 13 de 24 • Curso de Matemáticas para Data Science: Estadística Descriptiva

Contenido del curso

¿Para qué sirve la estadística descriptiva?

Estadística descriptiva para analítica

Estadística en la ingesta de datos

Proyecto de aplicación

Despedida

24
Estadística Descriptiva: Claves para el Análisis de Datos
03:06 min

Tomar examen

Resumen

¿Qué es un diagrama de dispersión y cómo puede ayudarte en el análisis de datos?

Los diagramas de dispersión son herramientas visuales poderosas en la ciencia de datos, permitiéndonos entender mejor los patrones y relaciones dentro de un conjunto de datos. Se utilizan para mostrar la relación entre dos variables, ayudándonos a visualizar cómo se distribuyen los datos en función de sus atributos específicos. Esto es esencial para identificar posibles correlaciones, tendencias o anomalías que podrían no ser evidentes en una simple tabla de datos.

Los diagramas de dispersión se representan mediante puntos que indican las coordenadas de un par de valores en los ejes x e y. En el contexto de datos como el famoso dataset de iris, cada punto podría representar una flor con la longitud de su sépalo y pétalo. Esta visualización rica y detallada permite no solo ver todas las observaciones a la vez, sino también evaluar su distribución y relación.

¿Cómo crear diagramas de dispersión con Seaborn?

Crear diagramas de dispersión con la librería Seaborn en Python es sencillo y eficiente. Esta herramienta ofrece una forma intuitiva de realizar visualizaciones complejas mediante código compacto y fácil de entender.

Para comenzar a trabajar con diagramas de dispersión en Seaborn, utilizamos la función scatterplot(). Aquí un ejemplo básico:

import seaborn as sns
import pandas as pd

# Cargamos el dataset iris
iris = sns.load_dataset("iris")

# Creamos un diagrama de dispersión
sns.scatterplot(data=iris, x='sepal_length', y='petal_length')

Este ejemplo sencillo muestra cómo definir las variables en los ejes x e y para visualizar los datos de longitud de sépalo y pétalo del dataset de iris.

¿Cómo agregar parámetros categóricos?

Agregar colores distintivos para diferenciar categorías hace que los diagramas de dispersión sean aún más informativos. En Seaborn, esto se logra fácilmente con el parámetro hue. Aquí un ejemplo que diferencia las especies de flores:

sns.scatterplot(data=iris, x='sepal_length', y='petal_length', hue='species')

Esta implementación permite ver rápidamente diferencias significativas entre las especies, destacando cómo ciertos atributos pueden variar entre ellas.

¿Qué es un joint plot y qué beneficios aporta?

Los joint plots ofrecen una ventaja adicional al combinar diagramas de dispersión con histogramas, proporcionando una visión más completa de la distribución de los datos y las relaciones inter-ejes.

En Seaborn, crear un joint plot es igualmente sencillo:

sns.jointplot(data=iris, x='sepal_length', y='petal_length', hue='species')

Este tipo de visualización no solo muestra los puntos de dispersión, sino también las distribuciones marginales de cada variable. Los joint plots son ideales para detectar patrones más sutiles en la distribución de los datos, además de proporcionar una visión general de cuáles parámetros podrían seguir una distribución normal.

¿Cuáles son otros tipos de visualizaciones útiles en Seaborn?

Además de los diagramas de dispersión y joint plots, hay otros tipos de visualizaciones que pueden proporcionar diferentes perspectivas y niveles de detalle. Dos ejemplos son:

Boxplots: Útiles para resumir la distribución de una variable, mostrando la mediana, cuartiles y posibles valores atípicos.
```
sns.boxplot(data=iris, x='species', y='sepal_length')
```
Barplots: Permiten visualizar el promedio de una variable categorizada.
```
sns.barplot(data=iris, x='species', y='petal_length')
```

¿Cómo seguir explorando y mejorando tus visualizaciones?

La mejor forma de dominar estas técnicas es practicar creando visualizaciones personalizadas con tus conjuntos de datos. Experimenta con diferentes parámetros y estilos para encontrar aquellas representaciones que mejor transmitan la información que deseas mostrar. No olvides referirte a la amplia documentación de Seaborn para descubrir los múltiplos atributos y características que puedes incorporar a tus gráficos.

Inicia tu exploración y desarrolla tus habilidades en visualización de datos. Recuerda que las herramientas son tan poderosas como tú las utilices. La práctica y la curiosidad son claves para convertirte en un analista de datos eficaz.

Francisco José Bohórquez Torres

student•

Para el reto intenté hacer un código que permitiera fácilmente cambiar las variables que se estaban analizando y a su vez que me permitiera ver la ecuación de regresión que se estaba dibujando.

Para este análisis tomé los datos de los pétalos. Más abajo les cuento el proceso para hacer la gráfica, lo que me pareció interesante es poder sacar algunas conclusiones preliminares, por ejemplo:

En la especie setosa la variación de tamaños de pétalo es muy pequeña a comparación de las otras especies.
En la especie versicolor es cuando, entre más largo el pétalo, más ancho este (la pendiente en la regresión es mayor)
La especie virginica, si bien es la que más grande tiene sus pétalos, también es la que tiene mayor dispersión de todas (ver los boxplot, donde se ve que la caja más grande es la de esta especie, tanto para largo y ancho del pétalo.
La especie setosa es la más consistente en el tamaño de sus pétalos (es la que menor dispersión tiene) .

) . Ahora sí, cómo fue el proceso de hacer las gráficas:

Lo primero que tuve que averiguar fue cómo dibujar las líneas de regresión diferentes para cada una de las especies. Así fue como llegué a lmplot. Según la documentación de seaborn esta gráfica sirve conviene cuando se desea ver las líneas de regresión de múltiples subconjuntos de datos al mismo tiempo. . Lo siguiente que quise hacer fue mostrar en la gráfica las ecuaciones de regresión. Lastimosamente seaborn no ofrece la funcionalidad built-in por lo que hay que hacer uso de otra librería para hacer estos cálculos. Esto, claramente, puede traer pequeñas discordancias entre la gráfica y la ecuación, pero para usar seaborn (que era la idea del reto) no había de otra. Lo mejor sería ver si alguna otra librería gráfica nos permite obtener este información al tiempo. . Buscando cómo hacer esto llegué a la librería Scipy. Esta tiene un método llamado linregress que nos devuelve la pendiente, el intercepto, y otros valores que se verán más adelante en el curso. Con este método se logra sacar las ecuaciones y con un poco de documentación de seaborn encontré cómo poner una leyenda en la cual se puede mostrar la ecuación de cada línea de regresión. . El código es el siguiente:

from scipy import stats

var_y = 'petal_length'
var_x = 'petal_wiidth'

iris_setosa = iris[iris['species']=='setosa'] 
iris_versicolor = iris[iris['species']=='versicolor'] 
iris_virginica = iris[iris['species']=='virginica'] 

slope_setosa, intercept_setosa, r_value_setosa, p_value_setosa, std_err_setosa = stats.linregress(iris_setosa[var_x], iris_setosa[var_y])
slope_versicolor, intercept_versicolor, r_value_versicolor, p_value_versicolor, std_err_versicolor = stats.linregress(iris_versicolor[var_x], iris_versicolor[var_y])
slope_virginica, intercept_virginica, r_value_virginica, p_value_virginica, std_err_virginica = stats.linregress(iris_virginica[var_x], iris_virginica[var_y])

lm = sns.lmplot(x=var_x, y=var_y, data=iris, hue='species')

ax = lm.axes[0, 0]
ax.legend()
leg = ax.get_legend()
L_labels = leg.get_texts()

label_setosa = f'setosa={slope_setosa:.2f}x+{intercept_setosa:.2f}'
label_versicolor = f'versicolor={slope_versicolor:.2f}x+{intercept_versicolor:.2f}'
label_virginica = f'virginica={slope_virginica:.2f}x+{intercept_virginica:.2f}'
L_labels[0].set_text(label_setosa)
L_labels[1].set_text(label_versicolor)
L_labels[2].set_text(label_virginica)

Puse un par de variables para definir las columnas a usar.
Separé el dataset en diferentes datasets para tener la información de cada especie y poder hacer la regresión (habría que buscar si es posible hacerlo con el mismo dataset)
Usé el método linregress para hallar los valores de la ecuación de regresión de cada dataset por especie.
El gráfico con seaborn es lo más sencillo (gracias seaborn) donde solo se le dice las variables a tomar y el valor por el cual se quiere separar (hue)
Posteriormente hay que obtener la leyenda y el texto que esta tiene, para poderla modificar y añadir cada una de las ecuaciones de regresión.

Carlos Alfredo Chire Chanji

student•

Gracias muchas gracias. :)

Javier Pajarito Caicedo

Andres López

Paul Soria

Marco Alvarado

Roberto Carlos Cardenas Sosa

Sebastian Calderón Araque

Alex Antonio Angulo Luna

Marco Carmona

Carlos Pacheco

Andrea Aranda

María Requenes Ramos

Miguel Angel Reyes Moreno

Brayan Alexis Lechon Andrango

Pablo Cano Franch

Osvaldo Olguín

Bryan

Jesús Andrés Báez Pérez

Axel Yaguana

Team Platzi•

Mauricio Rojas Nova

Cristian Enrique Cuevas Mercado

clint martinez

Wilder Wilches

Sebastián Andrade

Pablo José Ramos Wilkins

Esteban Vallejos

Juan David Suarez

Manuel Mendoza

Rene Rosas

Pablo Hernández Torres

Diagramas de Dispersión y su Análisis con Seaborn

¿Para qué sirve la estadística descriptiva?

Fundamentos de Estadística Descriptiva y sus Aplicaciones Prácticas

Estadística Descriptiva en el Flujo de Ciencia de Datos

Estadística Descriptiva Aplicada a Ciencia de Datos

Estadística descriptiva para analítica

Uso de Deepnote para Jupyter Notebooks en Ciencia de Datos

Tipos de Datos en Ciencia de Datos: Categóricos y Numéricos

Medidas de Tendencia Central: Media, Mediana y Moda

Media vs. Mediana: Diferencias y Aplicaciones Prácticas

"Estadística Descriptiva con Pandas: Medidas de Tendencia Central"

Rango y Rango Intercuartil en Medidas de Dispersión

Desviación Estándar y Varianza en Estadística Descriptiva

Cálculo y Visualización de Medidas de Dispersión en Python

Visualización de Datos: Catálogo y Uso de Diagramas en Python