La exploración de datos va más allá de las medidas centrales y de dispersión: para entender la anatomía completa de nuestra información necesitamos saber exactamente dónde se ubica cada valor. Los cuartiles y percentiles son herramientas poderosas que nos permiten profundizar en el análisis de datos y obtener una visión más precisa de su distribución, facilitando la toma de decisiones informadas en cualquier investigación o proyecto.
¿Qué son los cuartiles y percentiles y para qué sirven?
Los cuartiles y percentiles son medidas de posición que nos ayudan a dividir nuestros datos en partes iguales, permitiéndonos determinar exactamente dónde se encuentra cada valor dentro de la distribución. Imagina que tienes 500 candidatos para un puesto y necesitas concentrarte solo en el 10% o 20% superior - estas herramientas te permiten identificar precisamente esos puntos de corte.
La relación entre cuartiles y percentiles es directa:
Cuartil 1 (Q1): Corresponde al percentil 25, es decir, el valor por debajo del cual se encuentra el 25% de los datos.
Cuartil 2 (Q2): Equivale al percentil 50 y coincide exactamente con la mediana.
Cuartil 3 (Q3): Representa el percentil 75, el valor por debajo del cual se encuentra el 75% de los datos.
Técnicamente existe un cuartil 4, pero como representaría el 100% de los datos (que coincide con el valor máximo), generalmente no se considera en los análisis específicos.
¿Cómo calcular cuartiles en hojas de cálculo?
Para aplicar estos conceptos, podemos crear una tabla con la siguiente estructura:
Variable (tiempo en celular o apps descargadas)
Valor mínimo
Cuartil 1
Cuartil 2
Cuartil 3
Valor máximo
En Google Sheets, podemos calcular los cuartiles usando la función CUARTIL:
=CUARTIL(rango_de_datos, número_de_cuartil)
Por ejemplo, para el tiempo en celular:
Valor mínimo: Calculado directamente
Q1: 4.1 horas (25% de los datos están por debajo)
Q2: 5.15 horas (mediana - 50% de los datos)
Q3: Correspondiente al 75% de los datos
Es importante verificar que el cuartil 2 coincida con la mediana previamente calculada para confirmar que nuestros cálculos son correctos.
¿Cómo evaluamos la forma de la distribución?
Para profundizar en el análisis, dos conceptos fundamentales nos ayudan a entender la forma de la distribución de nuestros datos:
¿Qué es el sesgo o asimetría?
El sesgo nos indica si la distribución de los datos está inclinada hacia algún lado:
Sesgo positivo: La distribución está inclinada hacia la derecha.
Sesgo negativo: La distribución está inclinada hacia la izquierda.
Sesgo cero: Distribución perfectamente simétrica (como una campana normal).
En nuestro ejemplo del tiempo en celular, obtuvimos un sesgo de 0.11, lo que indica una ligera inclinación, pero muy cercana a una distribución normal, lo cual es positivo para nuestro análisis.
¿Qué representa la curtosis?
La curtosis mide qué tan "picuda" o "aplanada" es nuestra distribución en comparación con una distribución normal:
Curtosis = 0: Distribución mesocúrtica (normal)
Curtosis > 0: Distribución leptocúrtica (más picuda que la normal)
Curtosis < 0: Distribución platicúrtica (más aplanada que la normal)
Para nuestros datos de tiempo en celular, la curtosis resultó -0.7, indicando que nuestra distribución es ligeramente más aplanada que una distribución normal.
En Google Sheets, podemos calcular la curtosis con la función:
=CURTOSIS(rango_de_datos)
¿Por qué son importantes estas medidas para el análisis de datos?
Estas medidas nos permiten:
Identificar puntos de corte precisos para tomar decisiones basadas en percentiles específicos
Detectar anomalías en la distribución de los datos
Comprender mejor la forma de nuestros datos, más allá de las medidas centrales
Con cuartiles, sesgo y curtosis, tenemos un panorama completo de nuestros datos, lo que nos permite no solo entender lo que ya existe, sino también prepararnos para dar el siguiente paso: la predicción basada en probabilidades.
Los conceptos que hemos analizado forman el puente entre la estadística descriptiva y la probabilidad, permitiéndonos movernos del análisis del presente hacia la predicción del futuro basada en datos concretos, tema que se profundizará en próximas lecciones.
¿Has utilizado alguna vez los cuartiles o percentiles para analizar datos en tu trabajo o estudios? Comparte tus experiencias y cualquier duda sobre estos conceptos tan útiles para el análisis de datos.
Les recomiendo investigar sobre el coeficiente de asimetria de Fisher . De manera práctica se puede decir que si el sesgo < 0.5 la asimetría es pequeña, si sesgo está en [0.5, 1) la asimetría es moderada y si sesgo >= 1 la asimetría es grande
También existen criterios objetivos para evaluar que tan grande es la curtosis como el error estandar de la curtosis (SEK) y el test de Normalidad (D'Agostino-Pearson) para probar si la distribución es o no normal
Una distribución asimétrica puede generar sesgo en ciertos estimadores (como la media), pero no todo sesgo proviene de la asimetría.
El sesgo es más un concepto de error sistemático, mientras que la asimetría es una característica de la forma de los datos.
En pocas palabras, en estadística inferencial, el sesgo se refiere a la diferencia sistemática entre un estimador y el valor verdadero del parámetro que se quiere estimar.
que bien amigo!! Hacerlo en python es lo mejor. Comparto que hago lo mismo que tú y es genial. Saludos
Mis apuntes de la clase 📝
Cuartiles: Dividen los datos en 4 partes (Q1, Q2 y Q3, último no se utiliza, pues abarca todos los datos.)
Percentiles: Divide los datos en 100 partes (porcentajes).
Resumen
Q1 = Percentil 25 = 25% de los datos.
Q2= Percentil 50 = 50% de los datos (mediana).
Q2 = Percentil 75 = 75% de los datos.
Sesgo (asimetría): Nos dice hacia donde se inclina la distribución de los datos.
Sesgo < 0 (negativo ➖), la cola de la distribución se extiende hacia la izquierda, el valor de la media es menor que el de la mediana.
Sesgo > 0 (positivo ➕) ,la cola de la distribución se extiende hacia la derecha, el valor de la media es mayor que el de la mediana.
Sesgo = 0, la distribución es normal/asimetrica y las tres medidas de tendencia central son iguales
Curtosis: Describe la forma de la distribución
curtosis > 0: Curtosis positiva también llamada “leptocúrtica”, tiene una forma más puntiaguda que la distribución normal. Los datos estan más concentrados al rededor de la media.
curtosis < 0: Curtosis negativa también llamada “platicúrtica”, tiene una forma más aplanada. Los datos estan más dispersos respecto de la media.
curtosis = 0: Distribución normal, también llamada “mesocúrtica”, es la tradicional distribución en forma de campana (campana de Gauss).
Estoy viendo un error en cuanto a las definiciones de sesgo positivo y negativo, ya que encuentro que las gráficas con sesgo positivo tienen inclinación hacia la izquierda y viceversa
📊 Cuartiles, Percentiles y Distribución
🔹 ¿Qué son?
📍 Dividen los datos en partes iguales.
📍 Permiten ubicar cada valor en la distribución.
👉 Ejemplo: Seleccionar el 10% o 20% superior de un grupo de candidatos.
🔹 Cuartiles ↔ Percentiles
🟦 Q1 = P25 → 25% de los datos debajo.
🟩 Q2 = P50 → Mediana (50%).
🟨 Q3 = P75 → 75% de los datos debajo.
🟥 Q4 = P100 → Máximo (no se usa en análisis).
🔹 Cálculo en Google Sheets
✏️ Función:
=CUARTIL(rango, número_cuartil)
📌 Ejemplo (tiempo en celular):
🔻 Mínimo: valor más bajo
🟦 Q1: 4.1 h
🟩 Q2 (Mediana): 5.15 h
🟨 Q3: valor del 75%
👉 Siempre comprobar que Q2 = Mediana.
🔹 Forma de la Distribución
📈 Sesgo (asimetría)
➡️ Positivo: inclinación a la derecha.
⬅️ Negativo: inclinación a la izquierda.
⚖️ Cero: simétrica (campana).
👉 Ejemplo: 0.11 → casi normal.
📉 Curtosis (picuda o plana)
⚪ 0: normal (mesocúrtica).
🔺 Mayor a 0: picuda (leptocúrtica).
🔻 Menor a 0: plana (platicúrtica).
👉 Ejemplo: -0.7 → un poco más plana que la normal.
✏️ Función en Sheets:
=CURTOSIS(rango)
🔹 ¿Por qué importan?
✔️ Encuentran puntos de corte (ej. top 10%).
✔️ Detectan anomalías.
✔️ Muestran la forma real de los datos.
✔️ Conectan análisis descriptivo → predicción.
Mi aporte de los valores al momento desde Excel:
Funciones usadas:
MIN(), CUARTIL.EXC(), MAX(), COEFICIENTE.ASIMETRIA() y CURTOSIS()