Cálculo y Visualización de Medidas de Dispersión en Python

Clase 11 de 24 • Curso de Matemáticas para Data Science: Estadística Descriptiva

Contenido del curso

¿Para qué sirve la estadística descriptiva?

Estadística descriptiva para analítica

Estadística en la ingesta de datos

Proyecto de aplicación

Despedida

24
Estadística Descriptiva: Claves para el Análisis de Datos
03:06 min

Tomar examen

Resumen

Calcular la desviación estándar, el rango, los cuartiles y construir diagramas de caja son habilidades esenciales para cualquier persona que trabaje con datos. En esta práctica con Python y la librería Pandas, se recorre paso a paso cada una de estas operaciones sobre un dataset de precios de automóviles, revelando patrones que los números por sí solos no siempre muestran.

¿Cómo se calcula la desviación estándar y el rango con Pandas?

La desviación estándar se obtiene de forma directa aplicando el atributo .std() sobre una columna del dataframe [0:57]. Para la variable de precio en dólares, el resultado ronda los seis mil cuatrocientos veintiocho dólares, lo que indica cuánto se dispersan los datos respecto al promedio.

El rango es simplemente la diferencia entre el valor máximo y el mínimo de la distribución [1:28]. En Pandas se usa .max() y .min() sobre la misma columna. Para este conjunto de datos el rango resulta de aproximadamente cincuenta mil dólares, lo cual ya anticipa una distribución con valores muy extendidos hacia la derecha.

¿Qué son los cuartiles y cómo se relacionan con el cuantil?

Los cuartiles dividen la distribución en cuatro partes iguales [2:22]. En Python se calculan con la función .quantile(), pasando como parámetro q un valor entre cero y uno:

Q1 (primer cuartil): quantile(q=0.25) → dos mil cien dólares.
Mediana (Q2): se obtiene con .median() → cuatro mil ochocientos dólares.
Q3 (tercer cuartil): quantile(q=0.75) → ocho mil novecientos noventa dólares.

Este método proviene de un concepto estadístico más general llamado cuantil (quantile), que permite subdividir cualquier distribución en partes iguales [3:02]. Cuando se divide en cuatro partes se habla de cuartiles; cuando se divide en cien partes, de percentiles. Ambos son casos particulares del cuantil.

Un detalle interesante: si se usa quantile(q=0) se obtiene el valor mínimo y con quantile(q=1) el máximo [3:38], confirmando que el parámetro q recorre toda la distribución de extremo a extremo.

¿Qué es el rango intercuartil y cómo detecta valores atípicos?

El rango intercuartil (IQR) es la resta entre Q3 y Q1 [4:37]. En este caso resulta seis mil ochocientos noventa dólares. Este valor se usa habitualmente para identificar outliers mediante la regla de 1.5 × IQR:

Límite inferior: Q1 − 1.5 × IQR.
Límite superior: Q3 + 1.5 × IQR.

Al aplicar esta fórmula, el límite inferior da un valor negativo de menos ocho mil doscientos treinta y cinco dólares [5:19]. Esto no tiene sentido para una variable que solo admite valores positivos, y es exactamente la evidencia de que la distribución es sesgada (no simétrica). La regla de 1.5 × IQR está diseñada para distribuciones simétricas, por lo que su aplicación directa en distribuciones asimétricas produce resultados incoherentes.

¿Cómo construir histogramas y diagramas de caja con Seaborn?

Para visualizar la distribución se utilizan dos librerías: Matplotlib y Seaborn [0:44]. Con sns.histplot() se genera el histograma de la variable de precios, confirmando visualmente el sesgo hacia la derecha [5:56].

El diagrama de caja (boxplot) se construye con sns.boxplot() [6:14]. En él se observa claramente:

La mediana desplazada hacia la izquierda.
Q1 más cerca de la mediana que Q3.
Todos los datos por encima de aproximadamente veinte mil dólares marcados como outliers.

Seaborn aplica internamente un criterio de detección de valores atípicos que se ajusta a la dispersión real de los datos.

¿Por qué el diagrama de caja es ideal para comparar variables categóricas?

Una ventaja decisiva del boxplot frente al histograma es su capacidad para comparar variables categóricas con variables numéricas en un solo gráfico [7:00]. Al pasar en el eje X el tipo de motor y en el eje Y el precio, se obtiene una caja por cada categoría.

Esto permite identificar patrones rápidamente. Por ejemplo, los autos eléctricos tienden a ser los más caros entre todas las categorías [7:30]. También se visualizan fácilmente la cantidad de outliers en cada grupo y se comparan medianas, rangos y dispersión entre categorías de forma mucho más limpia que con histogramas superpuestos.

¿Por qué las medidas de dispersión complementan la tendencia central?

Las medidas de dispersión —desviación estándar, rango, rango intercuartil— son un complemento fundamental de las medidas de tendencia central como la media y la mediana [8:04]. La estadística descriptiva opera en dos dimensiones: por un lado, resúmenes numéricos concretos (cuartiles, máximos, mínimos, promedios); por otro, visualizaciones como histogramas y diagramas de caja que permiten captar la forma y el comportamiento de los datos de un vistazo.

Si ya dominas estas herramientas, el siguiente paso natural es explorar otras categorías de visualización que amplían tu capacidad de describir y comunicar lo que los datos revelan. ¿Qué tipo de gráfico te ha resultado más útil para presentar resultados? Comparte tu experiencia en los comentarios.

Comentarios

Miguel Angel Velazquez Romero

student•

Asimetría en distribuciones

Como vimos en la clase, el hecho de que nuestra distribución tenga una tendencia a la derecha o a izquierda nos representa un problema, ya que no a acorde con una distribución y eso puede afectar a nuestros análisis si no tomamos en cuenta ese sesgo. No siempre hay que confiar en nuestra intuición o lo que vemos a simple vista, hay métodos como:

Primer coeficiente de asimetría de Pearson (asimetría de modo)
Segundo coeficiente de asimetría de Pearson (asimetría mediana)
Coeficiente de Groeneveld y Meeden
Coeficiente de Fisher

Por mencionar algunos. .

Y por último, no hay que olvidar la curtosis:

Una curtosis grande implica una mayor concentración de valores de la variable tanto muy cerca de la media de la distribución (pico) como muy lejos de ella (colas), al tiempo que existe una relativamente menor frecuencia de valores intermedios. Esto explica una forma de la distribución de frecuencias/probabilidad con colas más gruesas, con un centro más apuntado y una menor proporción de valores intermedios entre el pico y colas. Una mayor curtosis no implica una mayor varianza, ni viceversa.

Angel David Corredor

student•

Hola MIguel, puedes ampliar un poco el tema de la curstosis? como se calcula o como usarla?

Miguel Angel Velazquez Romero

student•

Veo complicado desarrollar más el tema en esta área de aportes y no tendría mucho sentido ya que la curtosis es un tema clásico en estadística descriptiva, lo que sobra es información en internet. Solo deje este apartado para despertar la curiosidad y dudas de las personas, para que a partir de esa duda lo pudieran investigar, así que mejor te dejo un video para que te empapes del tema con calma:

Curtosis para datos agrupados, curtosis desde un cuadro de frecuencias

Manuel Mendoza

student•

Otra cosa que pueden hacer si quieren tener un vistaso rápido de las medidtas de dispersión es usar la función y les regresa los valores vistos en la clase, se puede aplicar sobre una columna o toda la tabla:

df['price_usd'].describe()

count    38531.000000
mean      6639.971021
std       6428.152018
min          1.000000
25%       2100.000000
50%       4800.000000
75%       8990.000000
max      50000.000000
Name: price_usd, dtype: float64

Giancarlo Arturo Cespedes Mas

student•

EXCELENTE! una forma rápida y muy resumida de obtener una lista con todas las medidas de dispersión relevantes! Muy buen aporte!

Joel Blanco

student•

Lo pasas a tupla y lo guardas con varias variables. Lo demás es pedal y bomba.

Alfonso Andres Zapata Guzman

student•

Usando plotly.

clint martinez

student•

fantásticos gráficos con plotly, gracias

Alfonso Andres Zapata Guzman

student•

Gracias man, recuerda instalar en anaconda plotly para que te permita usarlo, porque no viene integrada, en deepnote si corres plotly sin instalar nada.

Es potente, aunque trastabilla en cosas para las cuales hay que usar si o si seaborn, si quieres visualiza este proyecto que desarrolle usando unicamente plotly, e interactua con las graficas, ve que puedes usar zoom multiples veces, si hay legendas puedes deseleccionarlas. Y permite cambiar el fondo de nuestros graficos a dark u otros, en fin, checa el link de deepnote: https://deepnote.com/@aazg/Proyecto-DataScience-Steam-8a13d638-38aa-4308-b29a-b030e00ced39

Juan David Suarez

student•

Si se van directamente a la base de datos, en cada columna es fácil visualizar el tipo de distribución que continete. En este dataset no hay ninguna que sea normal xd

Aaron Fabrizio Calderon Guillermo

student•

df['price_usd'].std(ddof=1) # muestral

df['price_usd'].std(ddof=0) # poblacional

Andrés Felipe Sierra Álvarez

student•

En mi caso, he estado trabajando con la variable odometer_value, así qué analicemos lo siguiente:

Haciendo una descripción general de la variable observamos los valores de los siguientes estadísticos:

df['odometer_value'].describe()

count      38531.000000
mean      248864.638447
std       136072.376530
min            0.000000
25%       158000.000000
50%       250000.000000
75%       325000.000000
max      1000000.000000

Ahora bien, observemos si esta variable presenta una distribución simétrica:

De la gráfica podemos notar que no representa una districuión simétrica

Ahora podemos observar con un boxplot cómo están disperso los datos:
De la caja, podemos observar que si bien los datos no son una representación simétrica, los valores mínimos, máximos y cuartiles no están muy alejados o al menos no los cuartiles.

Pero si comparamos de forma categórica las variables engine_fuel y odometer_value obtenemos el siguiente gráfico:

De éste boxplot podemos observar, por ejemplo, que los autos que son híbridos-diesel y los de diesel, tienden a ser los más usados o con más kilometrajes de recorrido. Y a diferencia del análisis con la variable price_usd, podemos observar qué los carros eléctricos son los que menos kilómetros recorridos tienen, esto puede deberse a su 1) costo superior en comparación con los otros autos y 2) a su autonomía en carretera.

***(Si consideras que algo d elo dicho aquí está mal, por favor hazmelo saber)

Joel Blanco

student•

Muy interesante, pero creo que está algo sesgado, pues solo hay dos datos con hybrid-diesel. Con eso no puedes sacar una buena conclusión.

!solo dos

Joel Blanco

student•

Lo otro es evaluar lo mismo que evaluaste tú pero por región. Allí verás que son pocas las regiones que presentan ese vehículo. Puede ser porque se vende mucho o porque es poco comprado. !por_region

edisson fabian tovar castro

student•

En el momento de realizar el calculo de la desviación estándar hay que tener en cuenta que al momento de llamar la función .std(), la libreria realiza la operacion con la formula de muestra N-1, si desean realizar la operacion con todos los datos usen: df['price_usd].std(ddof=0) Referencia: https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.std.html

david alvarez

student•

Decir que el Cuantil es tomar el x% de los datos no me parece conceptualmente correcto. El cuantil solo toma un solo dato ubicado en el punto x%. No se está tomando x área de la distribución sino un solo punto(dato) de ella.

Usuario anónimo

user•

Infiero que siempre será el valor que esté más pegado a la "frontera" del cuartil siguiente ...

Cristian Enrique Cuevas Mercado

student•

Curtosis la distribución se desplaza entre el eje Y, (muy achatada o apuntalada) mientras que la asimetría el gráfico se desplaza en el eje X (izquierda o derecha).

Luis Carlos Tornería Ramírez

student•

Hola! alguien sabe como hacer que los gráficos queden más grandes en deepnote? Estoy viendo el repositorio que subió el profesor y los graficos que muestra en la clase 10 se ven mejor y mas grandes que los que me aparecen a mi y eso que tengo el mismo codigo. Hablo especificamente de el ultimo

sns.boxplot(x = 'engine_fuel', y = 'price_usd', data = df)

Gracias!!!

Miguel Rodríguez

student•

Usa, antes del código de seaborn:

plt.subplots(figsize=(10,7))

x=10, y=7, puedes modificar los números hasta que quede al tamaño que quieras.

Saludos.

Edwight Antonio Delgado Lugo

student•

los quartiles permiten comparar los datos de la distribución. ejemplo si mi sueldo es 500 $. es poco o es mucho ?. si estoy debajo de la media. la mitad de la población gana más que yo. si estoy en el primer quartil. el 75 % gana más que yo. y si estoy en el tercer Qualtil soy del 75% que más gana

fabio gomez guzman

student•

Diagrama de cajas por fabricante

fabio gomez guzman

student•


plt.figure(figsize=(18,18))
sns.boxplot(x =  'price_usd' , y = 'manufacturer_name', data = df, orient="h", palette="Set2" )
plt.show()

Miguel Angel Reyes Moreno

student•

Otra de las librerías de visualización de datos en Python es matplotlib.

Un diagrama que se usa muchísimo con los cuartiles son los diagramas de caja o en inglés Box Plot.

Por cierto, una forma más sencilla de escribir el código para 'Límites para detección de outliers' es:

minlimit = Q1 - 1.5*iqr
maxlimit = Q3 + 1.5*iqr
print(f'rango para detección de outliers: {minlimit}, {maxlimit}')

Vídeo sobre Diagrama de cajas y bigotes | Boxplot

Carlos Enrique Zumaran Delgado

student•

Si quieren aumentar el tamaño de las figuras pueden usar este código:

sns.boxplot(x = "engine_fuel",
            y = "price_usd", 
            data = df)
plt.rcParams["figure.figsize"] = (7.5, 7.5)

daniel sierra

student•

En el 7:50 dice que la distribución es completamente NO sesgada, se equivocó, cierto?

Axel Yaguana

Team Platzi•

¡Hola! Acabo de ver el video y parece que fue un error que se le escapó al profesor. Si te das cuenta, más adelante hace un diagrama de caja de la misma variable y dice "está sesgada".

Andersson Bustos Padilla

student•

me parece que tener tantos valores atípicos es raro, mi pregunta esto talvez no sucedería si utilizo otro tipo de distribución que se acomode mejor a los datos y a partir de ahí analizar, si alguien sabe a que tipo de distribución se acerca mas

Alejandra Gonzalez Sosa

student•

Creo que seria una distribucion Log-normal. La distribucion Log-normal es aplicable a variables aleatorias que estan limitadas por cero, pero que tienen pocos valores grandes.

Alirio Andres Rico Valderrama

student•

No entiendo por qué en la clase anterior mencionó que no tiene sentido utilizar el rango intercuartílico cuando la distribución es sesgada (asimétrica) pero sin embargo trabajo con ese ejemplo

Dionicio Perez

student•

Es un ejemplo ilustrativo.

Carlos Rodrigo Arce Villa

student•

Por que utiliza como segundo cuartil la mediana? no deberia ser la media? es posible que la media y la media coincidan pero son conceptos diferentes.

Daniel Stiven Amador Arias

student•

Q2 será siempre la mediana, la media (promedio) es una estimación algebráica, sin embargo la mediana, en un dataset con cantidad de datos impares, será un número localizado. En el caso de un dataset con datos pares, será el promedio de los dos números mas centrales por lo que posiciona el Q2 perfectamente en la mitad del dataset.

Espero haber resuelto tu duda.

Marcelo Soto Moreno

student•

La mediana siempre corresponderá al percentil 50, o lo que es lo mismo segundo cuartil, el rango interquartil en un sns.boxplot(x=" ", y=" ", data=df, palette=(my_palette)) ubica al centro de la caja a la mediana o lo que es lo mismo al percentil 50, mientras que los extremos de la caja corresponden al primer cuartil y tercer cuartil o lo que es lo mismo percentil 25 y 75, por ende los "bigotes" corresponderán al inicio y termino de la distribución de datos, datos por fuera de esre rango corresponderán a outliers o datos atípicos.

Mario Alexander Vargas Celis

student•

# Rango = valor max -valor min
rango = df['price_usd'].max()-df['price_usd'].min()
rango

# quartiles
median = df['price_usd'].median()
Q1 = df['price_usd'].quantile(q=0.25)
Q3 =df['price_usd'].quantile(q=0.75)
min_val =df['price_usd'].quantile(q=0)
max_val = df['price_usd'].quantile(q=1.0)
print(min_val , Q1, median, Q3, max_val)

Emanuel Schemberger

student•

de vez en cuando en platzi te cruzas con cursos que valen oro, este es uno de ellos, entra fácil en mi top5 cursos de platzi, y eso que llevo como 70 creo.

Cálculo y Visualización de Medidas de Dispersión en Python

¿Para qué sirve la estadística descriptiva?

Fundamentos de Estadística Descriptiva y sus Aplicaciones Prácticas

Estadística Descriptiva en el Flujo de Ciencia de Datos

Estadística Descriptiva Aplicada a Ciencia de Datos

Estadística descriptiva para analítica

Uso de Deepnote para Jupyter Notebooks en Ciencia de Datos

Tipos de Datos en Ciencia de Datos: Categóricos y Numéricos

Medidas de Tendencia Central: Media, Mediana y Moda

Media vs. Mediana: Diferencias y Aplicaciones Prácticas

"Estadística Descriptiva con Pandas: Medidas de Tendencia Central"

Rango y Rango Intercuartil en Medidas de Dispersión

Desviación Estándar y Varianza en Estadística Descriptiva