Comprender cómo se distribuyen los datos y qué tan dispersos están respecto a su centro es una de las bases más sólidas del análisis estadístico. En esta sesión se profundiza en tres métricas fundamentales —media, varianza y desviación estándar— y se establece una distinción crucial: cuándo estamos trabajando con toda una población y cuándo con una muestra representativa de ella.
¿Cuál es la diferencia entre población y muestra?
Antes de aplicar cualquier fórmula, es necesario entender dos conceptos que determinan qué ecuación utilizar. La población es el conjunto completo de datos que nos interesa estudiar. La muestra es un subconjunto seleccionado de esa población [1:30].
Un ejemplo claro: la Ciudad de México tiene alrededor de veintidós millones de personas. Analizar a cada habitante sería prácticamente imposible. En su lugar, seleccionamos una muestra representativa y a partir de ella hacemos inferencias sobre toda la población.
- Cuando calculamos un valor que describe a la población completa, lo llamamos parámetro.
- Cuando ese valor describe a la muestra, lo llamamos estadístico.
Esta distinción marca pequeñas pero importantes diferencias en las fórmulas que se aplican.
¿Cómo se calcula la media poblacional y muestral?
La media es el promedio aritmético: la suma de todos los valores dividida entre el total de elementos [3:07]. Representa el valor central que se distribuye de forma equitativa en el conjunto.
- Parámetro (μ, Miu): suma de todos los elementos dividida entre N mayúscula, que es el tamaño total de la población.
- Estadístico (X̄, X barra): suma de todos los elementos dividida entre n minúscula, el tamaño de la muestra.
Las fórmulas son idénticas en estructura; lo que cambia es el universo de datos que alimenta cada una. En el ejercicio práctico con un catálogo de películas, el parámetro poblacional de la media resultó en aproximadamente 99.5 minutos de duración [7:40].
¿Por qué la media muestral puede diferir de la poblacional?
Al trabajar con una muestra, es natural que el promedio no coincida exactamente con el de la población. Esa diferencia nos indica si nuestra muestra es representativa o si existe una varianza significativa entre ambos conjuntos.
¿Qué mide la varianza y por qué se ajusta en muestras?
La varianza cuantifica la distancia de cada valor respecto a la media [4:21]. Se calcula restando la media a cada elemento, elevando esa diferencia al cuadrado, sumando todos esos cuadrados y dividiendo entre el total.
- Parámetro (σ², sigma cuadrada): la suma de las diferencias al cuadrado dividida entre N.
- Estadístico (S²): la suma de las diferencias al cuadrado dividida entre n menos uno [5:30].
¿Por qué se divide entre n menos uno?
Cuando tomamos una muestra, introducimos cierto sesgo. Si dividiéramos simplemente entre n, la varianza quedaría subestimada. Al restar un elemento del denominador, se obtiene una varianza no sesgada que refleja con mayor precisión la dispersión real de los datos [5:10]. Este ajuste se conoce como corrección de Bessel.
En la práctica con Google Sheets, el proceso a mano consiste en:
- Crear una columna con la diferencia de cada valor menos la media.
- Elevar cada diferencia al cuadrado.
- Sumar todos los cuadrados.
- Dividir entre N (población) o entre n - 1 (muestra) [9:20].
También existen funciones integradas: la función de varianza poblacional y la función de varianza de una muestra, que arrojan el mismo resultado de forma inmediata [11:05].
¿Qué nos dice la desviación estándar sobre nuestros datos?
La desviación estándar es simplemente la raíz cuadrada de la varianza [6:10]. Mientras la varianza expresa la dispersión en unidades cuadradas, la desviación estándar la devuelve a las unidades originales, haciéndola más interpretable.
- Si la desviación estándar es grande, los valores están muy alejados del promedio.
- Si es pequeña, los datos se concentran cerca de la media.
- Si fuera cero, todos los valores serían idénticos [6:30].
Para obtenerla:
- Parámetro (σ): raíz cuadrada de σ².
- Estadístico (S): raíz cuadrada de S².
En el ejercicio del catálogo de películas, las desviaciones estándar de la población y la muestra resultaron muy cercanas entre sí, lo que sugiere que la muestra seleccionada era razonablemente representativa [12:30].
Dominar estas tres métricas permite hacer aseveraciones concretas sobre cualquier conjunto de datos con solo unos valores. Como reto, intenta calcular la media, varianza y desviación estándar para el año de estreno del catálogo usando las columnas que se dejaron preparadas en la hoja de cálculo. Comparte tus resultados y dudas en los comentarios.