Introducción al análisis exploratorio de datos

1

¿Qué es y para qué sirve el análisis exploratorio de datos?

2

¿Cómo hacer un análisis exploratorio de datos?

3

Tipos de análisis de datos

4

Tipos de datos y análisis de variables

5

Herramientas de software para el análisis exploratorio de datos

6

Conociendo nuestros datos: palmerpenguins

7

Recolección de datos, limpieza y validación

8

Ejercicio de validación de datos

Quiz: Introducción al análisis exploratorio de datos

Análisis univariado

9

Explorando una variable categórica: conteos y proporciones

10

Estadística descriptiva aplicada: medidas de tendencia central

11

Estadística descriptiva aplicada: medidas de dispersión

12

Ejercicio de obtención de medidas de dispersión

13

Estadística descriptiva aplicada: distribuciones

14

Estadística descriptiva aplicada: funciones de densidad de probabilidad

15

Bonus: Teorema del límite central

Quiz: Análisis univariado

Análisis bivariado

16

Estableciendo relaciones: gráficos de puntos

17

Estableciendo relaciones: gráficos de violín y boxplots

18

Estableciendo relaciones: matrices de correlación

19

Limitantes de los coeficientes de correlación lineal

20

Estableciendo relaciones: análisis de regresión simple

21

Limitaciones del análisis de regresión simple

Quiz: Análisis bivariado

Análisis multivariado

22

Análisis de regresión múltiple

23

Visualización del análisis de regresión múltiple

24

Análisis de regresión logística

25

Paradoja de Simpson

26

¿Qué hacer cuando tengo muchas variables?

Quiz: Análisis multivariado

Conclusiones

27

Diversidad de gráficas al explorar datos

28

Continúa aprendiendo sobre EDA

No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

Prepárate para tu próximo empleo comprando hoy a precio especial

Antes: $249

Currency
$209
Suscríbete

Termina en:

7 Días
1 Hrs
18 Min
40 Seg

Ejercicio de obtención de medidas de dispersión

12/28
Recursos

Aportes 57

Preguntas 5

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

Es interesante ver la distribución del conjunto de datos de las tres especies. 🤔

Ciertamente, parece bimodal, aunque posiblemente al normalizar la data, encontraremos algún factor influyente que cambie este panorama 📊


var_flipper_len = processed_penguins_df['flipper_length_mm']

g=sns.histplot(
    data=processed_penguins_df,
    x='flipper_length_mm',
    binwidth=1,
    hue='species',
    alpha=.5
)
g.set_title('Penguins Flipper Length Distribution', y=1.03)

# Mean(Red)
plt.axvline(
    x =var_flipper_len.mean(),
    linestyle="dashed",
    color="r",
    linewidth=2
)

# Median(Green)
plt.axvline(
    x=var_flipper_len.median(),
    linestyle="dashed",
    color="g",
    linewidth=2
)

# Q_75(Black)
plt.axvline(
    x=var_flipper_len.quantile(0.75),
    linestyle="dashed",
    color="k",
    linewidth=2
)

# Q_25(Black)
plt.axvline(
    x=var_flipper_len.quantile(0.25),
    linestyle="dashed",
    color="k",
    linewidth=2
)

plt.text(184.7,17.5, 'Q(25%)', fontsize=12)
plt.text(192,17.5, 'median', fontsize=12, color='g')
plt.text(201.5,17.5, 'mean', fontsize=12, color='r')
plt.text(213.5,17.5, 'Q(75%)', fontsize=12)

plt.show()

En este caso, la distribución pareciera bimodal pero se debe a que las 3 especies tienen distribuciones distintas, sin embargo, cada especie pareciera tener una distribución normal.
Las lineas rojas y azules marcan la media y desviación estandar de toda la población:

Aca visualizamos la distribucion de las distintas caracteristicas por especie

numeric_columns = penguins_df.select_dtypes(include=np.number).columns

fig,ax = plt.subplots(1,len(numeric_columns), figsize=(15,5))

for i in range(len(numeric_columns)):
    sns.histplot( 
        ax=ax[i],
        data=penguins_df,
        x=numeric_columns[i],
        multiple='stack',
        hue='species',
        bins=15,
        palette=penguin_color,
        kde=True,
        )

Aca visualizamos una caracteristica en especifico con su media respectiva, cuantiles y ya separadas las especies

species = penguins_df.species.unique()

adelie_df = penguins_df.query("species == 'Adelie'")
gentoo_df = penguins_df.query("species == 'Gentoo'")
chinstrap_df = penguins_df.query("species == 'Chinstrap'")

list = [adelie_df,gentoo_df,chinstrap_df]
fig,ax = plt.subplots(1,len(list), figsize=(15,5), sharey=True)

for i in range(len(list)):
    sns.histplot( 
        ax=ax[i],
        data=list[i],
        x='flipper_length_mm',
        multiple='layer',
        hue='species',
        bins=15,
        kde=True,
        palette=penguin_color,
        )

    ax[i].axvline(
        x=list[i]['flipper_length_mm'].mean(),
        color='red'
        )

    ax[i].axvline(
        x=list[i]['flipper_length_mm'].quantile(.25),
        color='blue'
        )

    ax[i].axvline(
        x=list[i]['flipper_length_mm'].quantile(.75),
        color='blue'
        )```

¿Cuál es el valor Freedman-Diaconis?

Después de la función la declaramos.
Para Flipper_length_mm: 3.3 👇

Las gráficas boxenplot nos ayudan a identificar un poco mejor la distribución de nuestros datos sin necesidad de hacer un histplot. Es tan versatil que podemos ajustar la cantidad de quantiles que queremos relfejar.
Aunque es más útil cuando hay mayor cantidad de datos puede influir en una mejor interpretación:

sns.boxenplot(
    data=preprocess_penguins_df,
    x="flipper_length_mm",
    y="species",
    palette=penguin_color,
    k_depth=4
);

Un plus sería analizarlos por sexo:

El profesor en el minuto 5:20 indica que el valor del cuartil 50% es igual al valor de la media, pero creo que se refiere a la mediana. Porque esos valores corresponde a la mediana.

Menos codigo mas accion.

sns.histplot(
    data=processed_penguins_df,
    x='flipper_length_mm'
)
x_stats = [
    [processed_penguins_df.flipper_length_mm.mean(),'r',2],
    [processed_penguins_df.flipper_length_mm.median(),'g',2],
    [processed_penguins_df.flipper_length_mm.mode().max(),'y',2],
    [processed_penguins_df.flipper_length_mm.quantile(0.75),'k',2],
    [processed_penguins_df.flipper_length_mm.quantile(0.25),'k',1]
    ]
 
[plt.axvline(
    x=value[0], 
    color=value[1],
    linestyle='dashed',
    linewidth=value[2]
    ) for value in x_stats]
    
heigth = 75
plt.text(processed_penguins_df.flipper_length_mm.quantile(0.25)+ 0.25,heigth, 'Q(25%)', fontsize=12)
plt.text(processed_penguins_df.flipper_length_mm.mode().max() + 0.25,heigth-3, 'mode', fontsize=12, color='y')
plt.text(processed_penguins_df.flipper_length_mm.median() + 0.25,heigth-6, 'median', fontsize=12, color='g')
plt.text(processed_penguins_df.flipper_length_mm.mean()+ 0.25,heigth-9, 'mean', fontsize=12, color='r')
plt.text(processed_penguins_df.flipper_length_mm.quantile(0.75)+0.25,heigth, 'Q(75%)', fontsize=12)

Para poder hacer una comparación rápida entre las variables de los pinguineins

species = penguins_df.species.unique()

adelie_df = penguins_df.query("species == 'Adelie'")
gentoo_df = penguins_df.query("species == 'Gentoo'")
chinstrap_df = penguins_df.query("species == 'Chinstrap'")

list = [adelie_df,gentoo_df,chinstrap_df]
numeric_columns = penguins_df.select_dtypes(include=np.number).columns
fig,ax = plt.subplots(len(numeric_columns),len(list),sharey=True, figsize=(15,12))

for j in range(len(numeric_columns)):
    for i in range(len(list)):
        sns.histplot( 
            ax=ax[j][i],
            data=list[i],
            x=numeric_columns[j],
            multiple='stack',
            hue='species',
            bins=15,
            kde=True,
            palette=penguin_color,
            )
        

        ax[j][i].set_ylabel(f'{numeric_columns[j]}')
        ax[j][i].set_xlabel(f'{species[i]}')

        ax[j][i].get_legend().remove()

Determinación el tamaño de binwidth del histograma mediante la regla de Freedman-Diaconis

Los histogramas se utilizan para estimar la distribución de probabilidad de una variable aleatoria continua. Se utilizan con frecuencia como punto de partida del análisis exploratorio de datos y proporcionan información sobre la forma y la variabilidad de los datos en cuestión. Uno de los desafíos en la construcción de histogramas es seleccionar el número óptimo de contenedores (o, análogamente, el ancho de cada contenedor). Para ayudar a determinar un ancho de intervalo razonable, podemos aprovechar la regla de Freedman-Diaconis, que fue diseñada para minimizar la diferencia entre el área bajo la distribución de probabilidad empírica y el área bajo la distribución de probabilidad teórica.

Formalmente, la regla toma como entrada el rango intercuartílico IQR(x) y el número de observaciones n en el conjunto de datos empíricos, y devuelve una estimación del ancho del intervalo. La regla se puede expresar como:

$$Bin~width = 2 \frac{IQR(x)}{\sqrt{n}}$$

sns.histplot(data=penguins_df_final, x="flipper_length_mm", kde=True, binwidth=freedman_diaconis_bindwidth(penguins_df_final.bill_length_mm));
plt.axvline(x=penguins_df_final.flipper_length_mm.mean(), color = 'red', linestyle='dashed', linewidth=2); 

Medidas de Dispersion Notebook

  • max() arroja los valores maximos de las variables del dataset. Utiliza el parametro numeric_only para obtener el maximo solo de las variables numericas
dataFrame.max(numeric_only=True)
  • min() arroja los valores minimos de las variables del dataset
dataFrame.min(numeric_only=True)
  • Calculo del rango intercuartil mostrado en una tabla
(
    dataFrame
    .quantile(q=[0.75,0.50,0.25])
    .transpose()
    .rename_axis('variable')
    .reset_index()
    .assign(
        iqr=lambda df: df[0.75] - df[0.25]
    )
)
  • Histograma de una variable del dataset
#histograma
sns.histplot(
    data=preprocessed_penguins_df,
    x='flipper_length_mm'
)

#trazar la media en la grafica
plt.axvline(
    x=preprocessed_penguins_df.flipper_length_mm.mean(),
    color='red',
    linestyle='dashed',
    linewidth=2
)
  • Diagrama de caja de una variable del dataset
sns.boxplot(
    data=preprocessed_penguins_df,
    x='flipper_length_mm',
)
  • Funcion Freedman Diaconis. Permite calcular el bin mas adecuado basados en el rango intercuartil

Con la longitud del pico pingüinesco:

*La Isla Biscoe es la más densamente poblada: En ella, los pingüinos suelen tener una longitud del pico promedio, también es donde podemos encontrar la mayor cantidad de pingüinos con el pico más grande, aunque no es una cantidad significativa

Aquí mi histograma con bins=3 y haciendo hue=‘species’:

sns.histplot(
    data = preprocess_penguins_df,
    x='flipper_length_mm',
    hue='species',
    palette=penguin_color,
    binwidth=3
)

plt.axvline(
    x=preprocess_penguins_df.flipper_length_mm.mean(),
    color = 'red',
    linestyle = 'dashed',
    linewidth=3
)
plt.axvline(
    x=preprocess_penguins_df.flipper_length_mm.median(),
    color = 'green',
    linestyle = 'dashed',
    linewidth=3
)

plt.text(preprocess_penguins_df.flipper_length_mm.median(),30, 'median', fontsize=12, color='g')
plt.text(preprocess_penguins_df.flipper_length_mm.mean(), 30, 'mean', fontsize=12, color='r')

plt.show()```
fig = px.histogram(processed_penguins_df, x="flipper_length_mm",
                   marginal="box", color='species', opacity=0.8,
                   hover_data=processed_penguins_df.columns)
fig.show()
fig = px.box(processed_penguins_df, y="flipper_length_mm", color='species', points="all")
fig.show()

Para complementar el ultimo comentario de la clase, les comparto el Anscombe’s Quartet:

Never trust summary statistics alone; always visualize your data

La proporción de los pinguinos por isla:

Luego, hice un hist para comparar la masa en cada isla.
Al parecer también muchas comparaciones serán bimodales ya que serán pinguinos de islas distintas, pero al parecer los pinguinos en la isla biscoe son más gorditos

También si corregimos el boxplot por especie da lo siguiente: ![](https://static.platzi.com/media/user_upload/image-5891b30b-3977-4def-8254-1ec6cc2bd71f.jpg) ```js sns.boxplot( data=penguins_df, x='flipper_length_mm', y='species', palette=penguin_color ) ```sns.boxplot(    data=penguins\_df,    x='flipper\_length\_mm',    y='species',    palette=penguin\_color)

Se nota que hay que llegar aquí con bases mas sólidas… No tengo interiorizado el funcionamiento de funciones lambda.

Minuto 7:56 si les aparece key 0.25 error, aqui esta la solucion

result = (
    data
    .quantile(q=[0.75, 0.50, 0.20])
    .transpose()
    .rename_axis("variable")
    .reset_index()
)

if 0.25 in result.columns and 0.75 in result.columns:
    result = result.assign(iqr=lambda df: df[0.75] - df[0.25])

result

Con la funcion describe() de pandas tambien podemos tener las medidas de dispersion por lo que use estos datos para ya graficarlos en el histograma 😉

sns.histplot(
        data=df,
        x='flipper_length_mm',
        bins=6)

colors = ['red', 'blue', 'green', 'orange', 'yellow', 'brown']
df_metrics = df.describe()[['flipper_length_mm']].transpose()

i = 0
for metric in df_metrics.columns:
    if metric != 'std' and metric != 'count': 
        plt.axvline(x=df_metrics[metric].values, 
                    color=colors[i], 
                    label=metric, 
                    linestyle='dashed', 
                    linewidth = 2)
        i = i+1
    else: pass

plt.legend()

desviación estándar:
1σ Incluye el 68% de los datos
2σ Incluye el 95% de los datos
3σ Incluye el 99.7% de los datos

Otra forma de hacer la tabla usando la función apply:

Para ver de forma gráfica la media de cada especie hice lo siguiente:

ys = processed_penguins_df.groupby(['species']).flipper_length_mm.mean()

sns.histplot(processed_penguins_df,
             x='flipper_length_mm',
             binwidth=1,
             hue='species',
             alpha=.5
             )
plt.axvline(
    x=ys[0],
    linestyle="dashed",
    color="blue",
    linewidth=2
)
plt.axvline(
    x=ys[1],
    linestyle="dashed",
    color="green",
    linewidth=2
)
plt.axvline(
    x=ys[2],
    linestyle="dashed",
    color="orange",
    linewidth=2
)

plt.show()

Para ver de forma gráfica la media de cada especie hice lo siguiente:

ys = processed_penguins_df.groupby(['species']).flipper_length_mm.mean()

sns.histplot(processed_penguins_df,
             x='flipper_length_mm',
             binwidth=1,
             hue='species',
             alpha=.5
             )
plt.axvline(
    x=ys[0],
    linestyle="dashed",
    color="blue",
    linewidth=2
)
plt.axvline(
    x=ys[1],
    linestyle="dashed",
    color="green",
    linewidth=2
)
plt.axvline(
    x=ys[2],
    linestyle="dashed",
    color="orange",
    linewidth=2
)

plt.show()
Hay distribuciones bimodales aún dentro del mismo pinguino. ![](https://static.platzi.com/media/user_upload/image-041debab-3478-4cde-a28d-1e4f305d498d.jpg)
```js sns.set_theme() fig3,ax3 = plt.subplots(1,len(numeric_columns)-1, figsize=(15,5)) for i in range(len(numeric_columns)-1): g=sns.violinplot( ax=ax3[i], data=pen_df, hue='species', legend= True if i == 3 else False, x=numeric_columns[i], palette = "inferno" ) sns.move_legend(g, 'lower center', bbox_to_anchor=(-1.3, 1.05), ncol=6, title='Especie') plt.show() ```Hay distribuciones bimodales aún entre el mismo tipo de pinguino. ![](https://static.platzi.com/media/user_upload/image-19505144-7ce7-47a9-bc69-6385c20c2463.jpg)
```js sns.set_theme() fig2,ax2 = plt.subplots(1,len(numeric_columns)-1, figsize=(15,5)) for i in range(len(numeric_columns)-1): g=sns.boxplot( ax=ax2[i], data=pen_df, hue='species', legend= True if i == 3 else False, x=numeric_columns[i], notch = True, palette = "inferno" ) sns.move_legend(g, 'lower center', bbox_to_anchor=(-1.3, 1.05), ncol=6, title='Especie') plt.plot() sns.reset_orig() ```Aquí muestro por una prueba no paramétrica que la diferencia entre cada especie en todos los datos numéricos es estadísticamente significativa. ![](https://static.platzi.com/media/user_upload/image-3759e8d1-d633-4cc9-b99f-1a37f2b5fbde.jpg)
Se están observando distribuciones con más de un punto crítico máximo gracias a la combinación de especies. ![](https://static.platzi.com/media/user_upload/image-48699b2f-4469-4758-ac4a-98756df922ea.jpg)
```python ```def freedman\_diaconis\_binwidth(x: pd.Series) -> float:    IQR = x.quantile(0.75) - x.quantile(0.25)    N = x.size    return 2 \* IQR / N\*\*(1/3) data = penguin\_dfbinwidth = freedman\_diaconis\_binwidth(data) bins = (penguin\_df.flipper\_length\_mm.max() - penguin\_df.flipper\_length\_mm.min())/binwidth\[2] sns.histplot(data = penguin\_df, x = 'flipper\_length\_mm',             bins = math.ceil(bins)) quantiles = penguin\_df.flipper\_length\_mm.quantile(\[0, 0.25, 0.5, 0.75, 1])desv = \[penguin\_df.flipper\_length\_mm.mean() + penguin\_df.flipper\_length\_mm.std(), penguin\_df.flipper\_length\_mm.mean() - penguin\_df.flipper\_length\_mm.std()]desv2 = \[penguin\_df.flipper\_length\_mm.mean() + penguin\_df.flipper\_length\_mm.std()\*2, penguin\_df.flipper\_length\_mm.mean() - penguin\_df.flipper\_length\_mm.std()\*2] plt.axvline(x = penguin\_df.flipper\_length\_mm.mean(),            color = 'red',            linewidth=2) for d in desv:    plt.axvline(x = d,                color = 'green',                linewidth = 2) for d2 in desv2:    plt.axvline(x = d2,                color = 'blue',                linewidth = 2) for q in quantiles:    plt.axvline(x=q,                 color='brown',                 linestyle='dashed') plt.show()
Aqui mi aportacion, creo que no es lo mejor para presentar los datos pero puse la media, los cuartiles 0.25 y 0.75 el valor maximo y minimo y la media mas/menos desviacion estandar y calculo el numero de bins. def freedman\_diaconis\_binwidth(x: pd.Series) -> float:    IQR = x.quantile(0.75) - x.quantile(0.25)    N = x.size    return 2 \* IQR / N\*\*(1/3) data = penguin\_dfbinwidth = freedman\_diaconis\_binwidth(data) bins = (penguin\_df.flipper\_length\_mm.max() - penguin\_df.flipper\_length\_mm.min())/binwidth\[2] sns.histplot(data = penguin\_df, x = 'flipper\_length\_mm',             bins = math.ceil(bins)) quantiles = penguin\_df.flipper\_length\_mm.quantile(\[0, 0.25, 0.5, 0.75, 1])desv = \[penguin\_df.flipper\_length\_mm.mean() + penguin\_df.flipper\_length\_mm.std(), penguin\_df.flipper\_length\_mm.mean() - penguin\_df.flipper\_length\_mm.std()]desv2 = \[penguin\_df.flipper\_length\_mm.mean() + penguin\_df.flipper\_length\_mm.std()\*2, penguin\_df.flipper\_length\_mm.mean() - penguin\_df.flipper\_length\_mm.std()\*2] plt.axvline(x = penguin\_df.flipper\_length\_mm.mean(),            color = 'red',            linewidth=2) for d in desv:    plt.axvline(x = d,                color = 'green',                linewidth = 2) for d2 in desv2:    plt.axvline(x = d2,                color = 'blue',                linewidth = 2) for q in quantiles:    plt.axvline(x=q,                 color='brown',                 linestyle='dashed') plt.show() ![](https://static.platzi.com/media/user_upload/fc0277f5-85b0-4f80-9cf4-6da704224832-b3c73fd9-9bd3-46e9-969f-12af0d301c77.jpg) ```python ```
La variable a la cual le saque los histogramas fue la de 'bill\_depth\_mm', en esta no se llega a ver una distribución binomial. ![](https://static.platzi.com/media/user_upload/Sin%20t%C3%ADtulo-744a01f7-1c61-4109-af9f-04befc60158c.jpg)
La diferencia en el histograma sucede por las diferencia entre especies, se pude ver en el siguiente histograma: ![](https://static.platzi.com/media/user_upload/Sin%20t%C3%ADtulo-2f676b14-32e5-405a-9bbd-2c8efd91bf0b.jpg)
mi hipótesis es que la longitud de las aletas de los pingüinos varían de acuerdo a la isla donde habitan ![]()
Con el código me dio error en la función del minuto 8:50. Para ello cambié el código a: ```js numeric_columns = processed_penguins_df.select_dtypes(include=[np.number]).columns ( processed_penguins_df[numeric_columns] .quantile(q=[0.75, 0.50, 0.25]) .transpose() .rename_axis('metric') .reset_index() .assign( iqr = lambda df: df[0.75] - df[0.25] ) ) ```

Es interesante esta forma de usar la estadistica descriptiva con los codigos. Al final si fue util llevar ese curso para entender los conceptos y no estar perdido.

Lo que causa esta distribución bimodal de la longitud de las alas de pingüinos es que estamos observando superpuestos los datos de varias especies de pingüinos a la vez. Si tomamos en cuenta la variable de especie, esta distribución se normaliza un poco. ![](https://static.platzi.com/media/user_upload/image-e96b12d6-cf5a-47f2-a2d5-e24aa03b5e17.jpg)
Entre la clase y los comentarios, hay una cantidad sorprendete de buena informacion y cosas por aprender. Este curso es 10/10.

Comparto un histograma sobre la variable bill_length_mm con las medidas de tendencia central .

Boxplot:

  • los bigotes deberían de mostrar el límite inferior y superior,
  • la linea de la mitad es la mediana no la media,
  • el rectángulo chico indica más concentración de los valores de los datos y el grande indica mayor dispersión de los valores de los datos,
  • en ambos rectángulos existen la misma cantidad de datos.

 

 

indice = df_num.columns.tolist()
# => indice = ['bill_length_mm', 'bill_depth_mm', 'flipper_length_mm', 'body_mass_g']

# pick me..!
var = indice[2]

# Calcula el IQR para cada columna (para el calculo de los bigotes)
IQR = df_num.quantile(0.75) - df_num.quantile(0.25)

# Cálculo de los límites de los bigotes
lower_limit = df_num.quantile(0.25) - 1.5 * IQR
upper_limit = df_num.quantile(0.75) + 1.5 * IQR

# Ajusta el ancho del gráfico
plt.figure(figsize=(12, 6))

sns.boxplot(
    x=df_num[var]
)

# Línea vertical punteada en la posición de la MEDIANA
plt.axvline(x=df_num[var].median(), 
            color='black', 
            linestyle='dashed', 
            linewidth=1)

# Línea vertical punteada en la posición de la MEDIA
plt.axvline(x=dfnn[var].mean(), 
            color='blue', 
            linestyle='dashed', 
            linewidth=1)

# Línea vertical punteada en la posición del MINIMO
plt.axvline(x=dfnn[var].min(), 
            color='red', 
            linestyle='dashed', 
            linewidth=1)

# Línea vertical punteada en la posición del MAXIMO
plt.axvline(x=dfnn[var].max(), 
            color='red', 
            linestyle='dashed', 
            linewidth=1)

# LIMITE INFERIOR (acá debería llegar el bigote)
plt.axvline(x=lower_limit[var], 
            color='purple', 
            linestyle='--', 
            linewidth=3)

# LIMITE SUPERIOR (acá debería llegar el bigote)
plt.axvline(x=upper_limit[var], 
            color='purple', 
            linestyle='--', 
            linewidth=3)

# Salidas de pantalla
print('\033[95m' + f'Límite inferior -> {lower_limit[var]}' + '\033[0m')
print('\033[91m' + f'Valor mínimo    -> {df_num[var].min()}' + '\033[0m')
print()
print('\033[91m' + f'Valor máximo    -> {df_num[var].max()}' + '\033[0m')
print('\033[95m' + f'Límite superior -> {upper_limit[var]}' + '\033[0m')

plt.show()

![](

Los bins es importante, véanlo como la resolución, a menor longitud de bin, mayor resolución y apreciaremos mejor la distribución e información. Si ya hiciste el hue de colores por especie, ayuda a comprender mejor.

def freedman_diaconis_binwidth(x: pd.Series) -> float:

    IQR = x.quantile(0.75) - x.quantile(0.25)
    N = x.size

    return 2 * IQR / N **(1/3)

sns.histplot(data=processed_penguins_df, x="flipper_length_mm", kde=True, binwidth=freedman_diaconis_binwidth(processed_penguins_df.bill_length_mm));
plt.axvline(x=processed_penguins_df.flipper_length_mm.mean(), color = 'red', linestyle='dashed', linewidth=2)

Me basé en la información compartida por María Eugenia Pereira Chévez para completarlo.

12. Ejercicio de obtención de medidas de dispersión

sns.histplot(
    data=processed_penguins_df, 
    x='bill_depth_mm',
    binwidth=freedman_diaconis_bindwidth(processed_penguins_df['bill_depth_mm'])
    )

mean = processed_penguins_df['bill_depth_mm'].mean()
median = processed_penguins_df['bill_depth_mm'].median()
mode = processed_penguins_df['bill_depth_mm'].mode().values[0]
quantiles = np.percentile(processed_penguins_df['bill_depth_mm'], [25, 50, 75])

plt.axvline(mean, color='red', linestyle='--', linewidth=2, label='Mean')
plt.axvline(median, color='blue', linestyle='--', linewidth=2, label='Median')
plt.axvline(mode, color='green', linestyle='--', linewidth=2, label='Mode')

for i, quantile in enumerate(quantiles):
    plt.axvline(quantile, color='purple', linestyle='--', linewidth=2, label=f'Quantile {i+1}')

plt.legend()
plt.show()
<sns.histplot(
    data = preproced_penguins_df,
    x = "flipper_length_mm",
    hue = "species",
    kde = True,
    bins = 25
)
plt.axvline(
    x = preproced_penguins_df.flipper_length_mm.mean(),
    color = "red",
    ls = "dashed",
    linewidth = 2,
    label = "mean"
    )
plt.axvline(
    x = preproced_penguins_df.flipper_length_mm.median(),
    color = "green",
    ls = "dashed",
    linewidth = 2
)
plt.axvline(
    x = preproced_penguins_df.flipper_length_mm.mode().item(),
    color = "black",
    ls = "dashed",
    linewidth = 2
)
plt.text(201.5,20, "mean", fontsize =12, color = "red")
plt.text(192,20, "median", fontsize =12, color = "green")
plt.text(186,20, "mode", fontsize =12, color = "k")
plt.show()> 

Esta distribución bimodal cuenta con un sesgo positivo ya que cumple la condición “media > mediana > moda”.

El diagrama que tiene 2 picos, para estimarlo, sera necesario utilizar la “estimacion no paramétrica”. Se puede representar como la suma de 2 funciones gaussianas.

Muy buen curso, recomendado!

sns.histplot(df, x='flipper_length_mm')

plt.axvline(x=df['flipper_length_mm'].mean(), color='red', linestyle='dashed',linewidth=2, label='Mean' )

plt.axvline(
    x=df['flipper_length_mm'].median(),
    color='red',
    linestyle='solid',
    linewidth=2,
    label='Median'
)

plt.axvline(
    x=df.flipper_length_mm.mode()[0],
    color='yellow',
    linestyle='solid',
    linewidth=2,
    label='Mode'

)

my_quant = [0.25,0.5,0.75]

for i in my_quant:
    plt.axvline(
        x=df['flipper_length_mm'].quantile(i),
        color='blue',
        linestyle='dashed',
        linewidth=2,
        label=f'Q{int(i/0.25)}'
    )

plt.axvline(
    x=df.flipper_length_mm.max(),
    color='green',
    linestyle='solid',
    linewidth=2,
    label='Max value'

)

plt.axvline(
    x=df.flipper_length_mm.min(),
    color='green',
    linestyle='solid',
    linewidth=2,
    label='Min value'

)

plt.legend()

Ojo: la línea que atraviesa el boxplot en su interior es la mediana, no la media.

OJO, Hay un error conceptual, el cuartil 0.50 NO es la MEDIA, es la MEDIANA.
Pueden comprobarlo con el resultado obtenido al calcular la mediana del dataset.

  • los rangos intercartiles son muchos mas robustos nos dan mas información porque se basan en percentiles


que consiste en dividir nuestros datos en partes iguales

preprossed_penguins_df.quantile()
  • imprimiendo la media de las variables

count      bill_length_mm  bill_depth_mm  flipper_length_mm  body_mass_g
count      342.000000     342.000000         342.000000   342.000000
mean        43.921930      17.151170         200.915205  4201.754386
std          5.459584       1.974793          14.061714   801.954536
min         32.100000      13.100000         172.000000  2700.000000
25%         39.225000      15.600000         190.000000  3550.000000
50%         44.450000      17.300000         197.000000  4050.000000
75%         48.500000      18.700000         213.000000  4750.000000
max         59.600000      21.500000         231.000000  6300.000000

Por ejemplo, podemos ver que la longitud promedio del pico de los pingüinos es de 43,9 mm, con una desviación estándar de 5,5 mm. Esto nos da una idea de la conservación en las medidas de longitud del pico de los pingüinos en nuestro conjunto de datos.

🤔🧠🧑‍🏫👩‍🏫

sns.histplot(x=df.flipper_length_mm,hue=df.species,multiple='stack')

aquí se ve porque se ve esa distribución

Utilizando plotly.graph_objects y plotly.subplots podemos hacer sub gráficos de manera muy detallada, ya que plotly.graph_objects te permite jugar con muchísimos parámetros que puedes cambiar dentro de cada gráfica.

import plotly.graph_objects as go
from plotly.subplots import make_subplots

fig = make_subplots(1,3)

flipper_length_mm = go.Histogram(x=df_limpio.flipper_length_mm, name='Longitud Aleta')
bill_depth_mm = go.Histogram(x=df_limpio.bill_depth_mm, name='Profundidad Pico')
bill_length_mm = go.Histogram(x=df_limpio.bill_length_mm, name='Longitud Pico')

fig.append_trace(flipper_length_mm,1,1)
fig.append_trace(bill_depth_mm,1,2)
fig.append_trace(bill_length_mm,1,3)

fig.update_layout(bargap=0.1)

fig.show()

sns.histplot(
data=processed_penguins_df,
x=‘flipper_length_mm’,
binwidth= freedman_diaconis_bindwidth(preprocess_penguins_df.flipper_length_mm),
kde=True

)
plt.axvline(
x=processed_penguins_df.flipper_length_mm.median(),
color=‘red’,
linestyle=‘dashed’,
linewidth=2

)