Medidas de Tendencia Central: Media, Mediana y Moda
Clase 6 de 25 • Curso de Matemáticas para Data Science: Estadística Descriptiva
Resumen
¿Qué son las medidas de tendencia central?
Las medidas de tendencia central son una herramienta fundamental en estadística descriptiva para resumir información. Imagina un salón de clase donde los estudiantes tienen diferentes edades. Si te digo que la edad promedio es de siete años, inmediatamente comprendes que se trata de estudiantes jóvenes. Sin embargo, este promedio no implica que todos tengan siete años, sino que sus edades son cercanas a ese valor promedio. Así, las medidas de tendencia central nos ayudan a condensar un conjunto de datos en una sola cifra, facilitando su interpretación y análisis.
¿Cuáles son las medidas más importantes?
-
La media o promedio: Constituye la idea de centralidad en los datos, dando una idea aproximada de la ubicación de un conjunto de datos. No obstante, es una representación resumida que podría perder información específica sobre valores extremos.
-
La mediana: No es lo mismo que la media. Se refiere al dato que está en la mitad de un conjunto ordenado, asegurando un balance porque tiene la misma cantidad de datos a cada lado. En un conjunto de datos ordenados, la mediana es el valor central o el promedio de los dos valores centrales.
-
La moda: Es el valor más frecuente en un conjunto de datos. Por ejemplo, en una clase podríamos preguntarnos cuál es la edad más común entre los estudiantes. Al identificar la moda, comprendemos qué valor se repite con mayor frecuencia.
¿Cómo se construye una tabla de frecuencias?
Una tabla de frecuencias nos muestra con qué frecuencia aparece cada valor en un conjunto de datos. Supongamos que tenemos un grupo de 20 estudiantes con edades entre 15 y 19 años. Para construir la tabla:
- Contamos la frecuencia de estudiantes con cada edad.
- Registramos estas frecuencias en una tabla.
- Representamos gráficamente esta información usando un diagrama de frecuencias, que facilita la visualización de la distribución.
La tabla de frecuencias y su diagrama gráfico se convierten en una herramienta valiosa para visualizar patrones en un conjunto de datos.
Impacto de los valores atípicos en la media
La media es susceptible a valores atípicos, es decir, valores que están significativamente alejados del resto del conjunto. Por ejemplo, si un grupo de personas tiene edades cercanas unas de otras, pero de repente incluimos a alguien con una edad extremadamente alta, la media se verá influenciada por este valor extremo. Como resultado, la media podría no reflejar el verdadero centro de los datos en este contexto.
Cuándo utilizar cada medida
La elección entre la media y la mediana depende del contexto:
- Media: Útil para datos sin valores atípicos y distribuidos uniformemente.
- Mediana: Prefiere utilizarse cuando los datos incluyen outliers o no están distribuidos simétricamente.
Por último, la moda es más útil para datos categóricos o discretos.
En nuestra siguiente clase, exploraremos más a fondo cuándo es mejor utilizar la media o la mediana, tomando como referencia una interesante metáfora del libro "Naked Statistics". Esperamos que esta discusión te motive a seguir profundizando en el emocionante mundo de la estadística descriptiva. ¡A seguir aprendiendo!