La varianza y la desviación estándar son dos medidas que te dicen qué tan dispersos están los datos respecto a la media. Aprender a diferenciar su versión poblacional y muestral te permite analizar correctamente cualquier conjunto de datos, ya sea que trabajes con toda la población o solo con una parte.
¿Qué miden la varianza y la desviación estándar?
Ambas métricas responden a una misma pregunta: qué tan separados están los valores respecto al promedio. Si la mayoría de tus datos se agrupan cerca de la media, hablamos de una varianza pequeña. Si los datos se extienden en un rango amplio, la varianza crece.
Piensa en un grupo de personas. Si casi todas rondan los 30 años, la dispersión es baja. Pero si las edades van desde los 10 hasta los 90, la varianza se dispara. Ese contraste es justo lo que estas medidas capturan [0:38].
¿Qué diferencia hay entre varianza y desviación estándar? La desviación estándar es la raíz cuadrada de la varianza. Mientras la varianza está en unidades al cuadrado, la desviación estándar regresa a las unidades originales del dato.
¿Cómo cambian las fórmulas entre población y muestra?
La diferencia clave está en el denominador y en los símbolos. Cuando trabajas con toda la población, divides entre N. Cuando trabajas con una muestra, divides entre N menos uno, lo que corrige el sesgo al estimar parámetros desde una porción de datos [1:31].
Los símbolos también cambian según el contexto:
- Media poblacional: mu. Media muestral: x barra.
- Desviación poblacional: sigma. Desviación muestral: s.
- Varianza poblacional: sigma al cuadrado. Varianza muestral: s al cuadrado.
Esta distinción no es decorativa. Indica de inmediato si estás describiendo un universo completo o estimándolo desde una muestra.
¿Cómo calcular la varianza muestral paso a paso?
Vamos con un ejemplo práctico. Tienes una muestra de seis alumnos con una edad promedio de 31.7 años [2:14]. Para calcular la varianza muestral sigues esta lógica:
- Resta la media a cada edad individual (por ejemplo, 28 menos 31.7, 25 menos 31.7, y así con todas).
- Eleva cada diferencia al cuadrado.
- Suma todos esos cuadrados en el numerador.
- Divide entre N menos uno, que en este caso es 6 menos 1, igual a 5.
El resultado de ese cociente es 43.8, que corresponde a la varianza muestral [2:48]. Para obtener la desviación estándar, sacas la raíz cuadrada de 43.8 y llegas a 6.62 [3:00].
¿Por qué se divide entre N menos uno en la muestra? Porque al usar una muestra estás estimando, no midiendo el total. Restar uno compensa el sesgo y da una estimación más precisa de la varianza real de la población.
¿Qué representa el resultado en términos prácticos?
Una desviación estándar de 6.62 años significa que, en promedio, las edades de tus alumnos se alejan unos 6.62 años de la media de 31.7. Es una forma compacta de describir la diversidad del grupo sin enumerar cada dato.
¿Cómo aplicar estas fórmulas en tus propios datos?
Tienes a tu disposición un conjunto de fórmulas para la media, la varianza y la desviación estándar, tanto poblacional como muestral. El reto es ponerlas en práctica.
Toma una población total, extrae una muestra del tamaño que prefieras y calcula sobre ambas:
- La media.
- La varianza.
- La desviación estándar.
Compara los resultados poblacionales y muestrales. Notarás que los valores muestrales suelen ser ligeramente mayores por el ajuste del N menos uno, y eso te dará intuición sobre cómo se comporta la estadística inferencial.
¿Cuándo uso la fórmula poblacional y cuándo la muestral? Usa la poblacional cuando tienes acceso a todos los datos del universo que estudias. Usa la muestral cuando trabajas con un subconjunto y quieres estimar el comportamiento del total.
En la siguiente clase vas a llevar estos cálculos a Python, automatizando tanto la varianza como la desviación estándar. ¿Qué tipo de datos vas a analizar primero? Cuéntame en los comentarios.