Medidas de Tendencia Central: Media, Mediana y Moda
Clase 6 de 25 • Curso de Matemáticas para Data Science: Estadística Descriptiva
Contenido del curso
- 4
Uso de Deepnote para Jupyter Notebooks en Ciencia de Datos
01:19 - 5

Tipos de Datos en Ciencia de Datos: Categóricos y Numéricos
16:06 - 6

Medidas de Tendencia Central: Media, Mediana y Moda
09:47 - 7

Media vs. Mediana: Diferencias y Aplicaciones Prácticas
17:17 - 8

"Estadística Descriptiva con Pandas: Medidas de Tendencia Central"
20:58 - 9

Rango y Rango Intercuartil en Medidas de Dispersión
05:25 - 10

Desviación Estándar y Varianza en Estadística Descriptiva
14:29 - 11

Cálculo y Visualización de Medidas de Dispersión en Python
11:14 - 12

Visualización de Datos: Catálogo y Uso de Diagramas en Python
08:48 - 13

Diagramas de Dispersión y su Análisis con Seaborn
12:32
- 14

Escalamiento Lineal de Datos Numéricos para Machine Learning
10:54 - 15

Transformaciones No Lineales para Datos Sesgados en Machine Learning
08:51 - 16

Procesamiento y Escalamiento de Datos Numéricos en Python
14:55 - 17

Mapeo de Variables Categóricas en Python: Dumi y OneHot
05:00 - 18

Codificación de Variables Categóricas en Python con Pandas y Scikit-Learn
12:58 - 19

Correlación y covarianza en análisis de datos
09:09 - 20

Construcción y Análisis de la Matriz de Covarianza en Python
13:09
¿Qué son las medidas de tendencia central?
Las medidas de tendencia central son una herramienta fundamental en estadística descriptiva para resumir información. Imagina un salón de clase donde los estudiantes tienen diferentes edades. Si te digo que la edad promedio es de siete años, inmediatamente comprendes que se trata de estudiantes jóvenes. Sin embargo, este promedio no implica que todos tengan siete años, sino que sus edades son cercanas a ese valor promedio. Así, las medidas de tendencia central nos ayudan a condensar un conjunto de datos en una sola cifra, facilitando su interpretación y análisis.
¿Cuáles son las medidas más importantes?
-
La media o promedio: Constituye la idea de centralidad en los datos, dando una idea aproximada de la ubicación de un conjunto de datos. No obstante, es una representación resumida que podría perder información específica sobre valores extremos.
-
La mediana: No es lo mismo que la media. Se refiere al dato que está en la mitad de un conjunto ordenado, asegurando un balance porque tiene la misma cantidad de datos a cada lado. En un conjunto de datos ordenados, la mediana es el valor central o el promedio de los dos valores centrales.
-
La moda: Es el valor más frecuente en un conjunto de datos. Por ejemplo, en una clase podríamos preguntarnos cuál es la edad más común entre los estudiantes. Al identificar la moda, comprendemos qué valor se repite con mayor frecuencia.
¿Cómo se construye una tabla de frecuencias?
Una tabla de frecuencias nos muestra con qué frecuencia aparece cada valor en un conjunto de datos. Supongamos que tenemos un grupo de 20 estudiantes con edades entre 15 y 19 años. Para construir la tabla:
- Contamos la frecuencia de estudiantes con cada edad.
- Registramos estas frecuencias en una tabla.
- Representamos gráficamente esta información usando un diagrama de frecuencias, que facilita la visualización de la distribución.
La tabla de frecuencias y su diagrama gráfico se convierten en una herramienta valiosa para visualizar patrones en un conjunto de datos.
Impacto de los valores atípicos en la media
La media es susceptible a valores atípicos, es decir, valores que están significativamente alejados del resto del conjunto. Por ejemplo, si un grupo de personas tiene edades cercanas unas de otras, pero de repente incluimos a alguien con una edad extremadamente alta, la media se verá influenciada por este valor extremo. Como resultado, la media podría no reflejar el verdadero centro de los datos en este contexto.
Cuándo utilizar cada medida
La elección entre la media y la mediana depende del contexto:
- Media: Útil para datos sin valores atípicos y distribuidos uniformemente.
- Mediana: Prefiere utilizarse cuando los datos incluyen outliers o no están distribuidos simétricamente.
Por último, la moda es más útil para datos categóricos o discretos.
En nuestra siguiente clase, exploraremos más a fondo cuándo es mejor utilizar la media o la mediana, tomando como referencia una interesante metáfora del libro "Naked Statistics". Esperamos que esta discusión te motive a seguir profundizando en el emocionante mundo de la estadística descriptiva. ¡A seguir aprendiendo!