Posición y forma de los datos
Clase 16 de 27 • Curso de Estadística Descriptiva
Resumen
La exploración de datos va más allá de las medidas centrales y de dispersión: para entender la anatomía completa de nuestra información necesitamos saber exactamente dónde se ubica cada valor. Los cuartiles y percentiles son herramientas poderosas que nos permiten profundizar en el análisis de datos y obtener una visión más precisa de su distribución, facilitando la toma de decisiones informadas en cualquier investigación o proyecto.
¿Qué son los cuartiles y percentiles y para qué sirven?
Los cuartiles y percentiles son medidas de posición que nos ayudan a dividir nuestros datos en partes iguales, permitiéndonos determinar exactamente dónde se encuentra cada valor dentro de la distribución. Imagina que tienes 500 candidatos para un puesto y necesitas concentrarte solo en el 10% o 20% superior - estas herramientas te permiten identificar precisamente esos puntos de corte.
La relación entre cuartiles y percentiles es directa:
- Cuartil 1 (Q1): Corresponde al percentil 25, es decir, el valor por debajo del cual se encuentra el 25% de los datos.
- Cuartil 2 (Q2): Equivale al percentil 50 y coincide exactamente con la mediana.
- Cuartil 3 (Q3): Representa el percentil 75, el valor por debajo del cual se encuentra el 75% de los datos.
Técnicamente existe un cuartil 4, pero como representaría el 100% de los datos (que coincide con el valor máximo), generalmente no se considera en los análisis específicos.
¿Cómo calcular cuartiles en hojas de cálculo?
Para aplicar estos conceptos, podemos crear una tabla con la siguiente estructura:
- Variable (tiempo en celular o apps descargadas)
- Valor mínimo
- Cuartil 1
- Cuartil 2
- Cuartil 3
- Valor máximo
En Google Sheets, podemos calcular los cuartiles usando la función CUARTIL:
=CUARTIL(rango_de_datos, número_de_cuartil)
Por ejemplo, para el tiempo en celular:
- Valor mínimo: Calculado directamente
- Q1: 4.1 horas (25% de los datos están por debajo)
- Q2: 5.15 horas (mediana - 50% de los datos)
- Q3: Correspondiente al 75% de los datos
Es importante verificar que el cuartil 2 coincida con la mediana previamente calculada para confirmar que nuestros cálculos son correctos.
¿Cómo evaluamos la forma de la distribución?
Para profundizar en el análisis, dos conceptos fundamentales nos ayudan a entender la forma de la distribución de nuestros datos:
¿Qué es el sesgo o asimetría?
El sesgo nos indica si la distribución de los datos está inclinada hacia algún lado:
- Sesgo positivo: La distribución está inclinada hacia la derecha.
- Sesgo negativo: La distribución está inclinada hacia la izquierda.
- Sesgo cero: Distribución perfectamente simétrica (como una campana normal).
En nuestro ejemplo del tiempo en celular, obtuvimos un sesgo de 0.11, lo que indica una ligera inclinación, pero muy cercana a una distribución normal, lo cual es positivo para nuestro análisis.
¿Qué representa la curtosis?
La curtosis mide qué tan "picuda" o "aplanada" es nuestra distribución en comparación con una distribución normal:
- Curtosis = 0: Distribución mesocúrtica (normal)
- Curtosis > 0: Distribución leptocúrtica (más picuda que la normal)
- Curtosis < 0: Distribución platicúrtica (más aplanada que la normal)
Para nuestros datos de tiempo en celular, la curtosis resultó -0.7, indicando que nuestra distribución es ligeramente más aplanada que una distribución normal.
En Google Sheets, podemos calcular la curtosis con la función:
=CURTOSIS(rango_de_datos)
¿Por qué son importantes estas medidas para el análisis de datos?
Estas medidas nos permiten:
- Identificar puntos de corte precisos para tomar decisiones basadas en percentiles específicos
- Detectar anomalías en la distribución de los datos
- Comprender mejor la forma de nuestros datos, más allá de las medidas centrales
Con cuartiles, sesgo y curtosis, tenemos un panorama completo de nuestros datos, lo que nos permite no solo entender lo que ya existe, sino también prepararnos para dar el siguiente paso: la predicción basada en probabilidades.
Los conceptos que hemos analizado forman el puente entre la estadística descriptiva y la probabilidad, permitiéndonos movernos del análisis del presente hacia la predicción del futuro basada en datos concretos, tema que se profundizará en próximas lecciones.
¿Has utilizado alguna vez los cuartiles o percentiles para analizar datos en tu trabajo o estudios? Comparte tus experiencias y cualquier duda sobre estos conceptos tan útiles para el análisis de datos.