Calcular la desviación estándar, el rango, los cuartiles y construir diagramas de caja son habilidades esenciales para cualquier persona que trabaje con datos. En esta práctica con Python y la librería Pandas, se recorre paso a paso cada una de estas operaciones sobre un dataset de precios de automóviles, revelando patrones que los números por sí solos no siempre muestran.
¿Cómo se calcula la desviación estándar y el rango con Pandas?
La desviación estándar se obtiene de forma directa aplicando el atributo .std() sobre una columna del dataframe [0:57]. Para la variable de precio en dólares, el resultado ronda los seis mil cuatrocientos veintiocho dólares, lo que indica cuánto se dispersan los datos respecto al promedio.
El rango es simplemente la diferencia entre el valor máximo y el mínimo de la distribución [1:28]. En Pandas se usa .max() y .min() sobre la misma columna. Para este conjunto de datos el rango resulta de aproximadamente cincuenta mil dólares, lo cual ya anticipa una distribución con valores muy extendidos hacia la derecha.
¿Qué son los cuartiles y cómo se relacionan con el cuantil?
Los cuartiles dividen la distribución en cuatro partes iguales [2:22]. En Python se calculan con la función .quantile(), pasando como parámetro q un valor entre cero y uno:
- Q1 (primer cuartil):
quantile(q=0.25) → dos mil cien dólares.
- Mediana (Q2): se obtiene con
.median() → cuatro mil ochocientos dólares.
- Q3 (tercer cuartil):
quantile(q=0.75) → ocho mil novecientos noventa dólares.
Este método proviene de un concepto estadístico más general llamado cuantil (quantile), que permite subdividir cualquier distribución en partes iguales [3:02]. Cuando se divide en cuatro partes se habla de cuartiles; cuando se divide en cien partes, de percentiles. Ambos son casos particulares del cuantil.
Un detalle interesante: si se usa quantile(q=0) se obtiene el valor mínimo y con quantile(q=1) el máximo [3:38], confirmando que el parámetro q recorre toda la distribución de extremo a extremo.
¿Qué es el rango intercuartil y cómo detecta valores atípicos?
El rango intercuartil (IQR) es la resta entre Q3 y Q1 [4:37]. En este caso resulta seis mil ochocientos noventa dólares. Este valor se usa habitualmente para identificar outliers mediante la regla de 1.5 × IQR:
- Límite inferior: Q1 − 1.5 × IQR.
- Límite superior: Q3 + 1.5 × IQR.
Al aplicar esta fórmula, el límite inferior da un valor negativo de menos ocho mil doscientos treinta y cinco dólares [5:19]. Esto no tiene sentido para una variable que solo admite valores positivos, y es exactamente la evidencia de que la distribución es sesgada (no simétrica). La regla de 1.5 × IQR está diseñada para distribuciones simétricas, por lo que su aplicación directa en distribuciones asimétricas produce resultados incoherentes.
¿Cómo construir histogramas y diagramas de caja con Seaborn?
Para visualizar la distribución se utilizan dos librerías: Matplotlib y Seaborn [0:44]. Con sns.histplot() se genera el histograma de la variable de precios, confirmando visualmente el sesgo hacia la derecha [5:56].
El diagrama de caja (boxplot) se construye con sns.boxplot() [6:14]. En él se observa claramente:
- La mediana desplazada hacia la izquierda.
- Q1 más cerca de la mediana que Q3.
- Todos los datos por encima de aproximadamente veinte mil dólares marcados como outliers.
Seaborn aplica internamente un criterio de detección de valores atípicos que se ajusta a la dispersión real de los datos.
¿Por qué el diagrama de caja es ideal para comparar variables categóricas?
Una ventaja decisiva del boxplot frente al histograma es su capacidad para comparar variables categóricas con variables numéricas en un solo gráfico [7:00]. Al pasar en el eje X el tipo de motor y en el eje Y el precio, se obtiene una caja por cada categoría.
Esto permite identificar patrones rápidamente. Por ejemplo, los autos eléctricos tienden a ser los más caros entre todas las categorías [7:30]. También se visualizan fácilmente la cantidad de outliers en cada grupo y se comparan medianas, rangos y dispersión entre categorías de forma mucho más limpia que con histogramas superpuestos.
¿Por qué las medidas de dispersión complementan la tendencia central?
Las medidas de dispersión —desviación estándar, rango, rango intercuartil— son un complemento fundamental de las medidas de tendencia central como la media y la mediana [8:04]. La estadística descriptiva opera en dos dimensiones: por un lado, resúmenes numéricos concretos (cuartiles, máximos, mínimos, promedios); por otro, visualizaciones como histogramas y diagramas de caja que permiten captar la forma y el comportamiento de los datos de un vistazo.
Si ya dominas estas herramientas, el siguiente paso natural es explorar otras categorías de visualización que amplían tu capacidad de describir y comunicar lo que los datos revelan. ¿Qué tipo de gráfico te ha resultado más útil para presentar resultados? Comparte tu experiencia en los comentarios.