Varianza poblacional vs muestral en estadística

Curso de Estadística Inferencial para Data Science e Inteligencia Artificial

Contenido del curso

No sé dónde empezar

Fundamentos de estadística inferencial

Estadísticos y cálculos

Pruebas de hipótesis y validación

Cierre del curso

22
Estadística inferencial aplicada al machine learning
01:28 min

Tomar examen

Varianza poblacional vs muestral en estadística

Resumen

La varianza y la desviación estándar son medidas que te dicen qué tan dispersos están los datos respecto a la media. Aprender la diferencia entre su versión poblacional y muestral te permite analizar correctamente cualquier conjunto de datos, ya sea que trabajes con la población completa o con una muestra extraída de ella.

¿Qué miden la varianza y la desviación estándar?

Ambas métricas describen la dispersión de los datos, es decir, qué tan alejados están los valores respecto al promedio.

Imagina dos grupos. En el primero, casi todas las edades giran alrededor de los 30 años: la dispersión es pequeña, los puntos se concentran cerca de la media. En el segundo grupo conviven personas de 10 a 90 años: aquí la dispersión es mucho mayor y, por lo tanto, la varianza también lo es.

La palabra clave es estándar. Cuando escuchas desviación estándar, piensa en una normalización: es simplemente la raíz cuadrada de la varianza. Esa relación es la que conecta ambas medidas.

¿Cuál es la diferencia entre varianza y desviación estándar? La varianza mide la dispersión al cuadrado de los datos respecto a la media. La desviación estándar es la raíz cuadrada de la varianza y se expresa en las mismas unidades que los datos originales.

¿En qué se diferencia el cálculo poblacional del muestral?

Las fórmulas cambian según trabajes con toda la población o con una muestra extraída de ella. Y no solo cambian los números: también cambian los símbolos.

En la población, la media se representa con la letra griega mu y la desviación estándar con sigma.
En la muestra, la media se representa con X y la desviación estándar con la letra S.
En la población, divides la suma de cuadrados entre N (el total de elementos).
En la muestra, divides entre N menos uno, lo que ajusta el cálculo porque estás trabajando con un subconjunto.

Esa diferencia de N menos uno es la clave del cálculo muestral. Te ayuda a estimar mejor la dispersión real cuando solo tienes una parte de los datos.

¿Cómo se calcula la varianza muestral paso a paso?

Tomemos el ejemplo de una muestra de seis alumnos con distintas edades, cuya edad promedio ya calculamos en 31.7 años. Sobre ese dato vamos a calcular su varianza muestral.

El procedimiento es directo:

Resta la media (31.7) a cada edad de la muestra, por ejemplo 28 menos 31.7, luego 25 menos 31.7, y así con cada valor.
Eleva al cuadrado cada una de esas diferencias para eliminar signos negativos y amplificar las distancias.
Suma todos esos cuadrados; ese resultado va al numerador.
Divide entre N menos uno. Como tenemos seis alumnos, el denominador es cinco.

Al resolver ese cociente obtenemos una varianza de 43.8. Para llegar a la desviación estándar, le sacas la raíz cuadrada y el resultado es 6.62. Ese número representa, en años, qué tan dispersas están las edades respecto al promedio de la muestra.

¿Por qué se divide entre N menos uno en la varianza muestral? Porque al trabajar con una muestra y no con la población completa, restar uno corrige el sesgo y produce una estimación más fiel de la dispersión real.

¿Qué símbolos debes recordar al usar las fórmulas?

Mantener claros los símbolos te evita confusiones cuando leas papers, dashboards o documentación estadística:

mu: media poblacional.
X con barra: media muestral.
sigma: desviación estándar poblacional.
sigma al cuadrado: varianza poblacional.
S: desviación estándar muestral.
S al cuadrado: varianza muestral.

Con estos símbolos en mente, cualquier fórmula de dispersión se vuelve más fácil de interpretar.

¿Cómo practicar varianza y desviación estándar?

Una forma efectiva de afianzar lo aprendido es tomar una población total, extraer de ella una muestra que tú elijas y calcular sobre ambas la media, la varianza y la desviación estándar. Compara los resultados poblacionales con los muestrales y observa cómo cambian al dividir entre N o entre N menos uno.

Después del cálculo manual, el siguiente paso natural es llevar estas fórmulas a Python para automatizarlas y trabajar con datasets más grandes sin perder precisión.

¿Qué resultado obtuviste al calcular la varianza muestral de tu propio ejercicio? Cuéntalo en los comentarios.

Alfonso Andres Zapata Guzman

Estudiante

Aporte:

population = pd.Series([7, 10, 12, 13, 16, 9, 8, 12, 8, 6, 16, 23, 11, 17, 20, 21, 25, 30, 31, 33, 37, 39, 27, 36, 40, 43, 41, 45])

def promedio_population(population):
    sum_population = 0
    for i in population:
        sum_population += i
    resultado_promedio = sum_population/len(population)
    return resultado_promedio

def varianza_muestral_population(population, promedio):
    promedio = promedio
    suma = 0
    for i in population:
        a = (i - promedio)**2
        suma += a
    resultado_varianza_muestral = suma/len(population)
    return resultado_varianza_muestral

def desviacion_estandar_muestral(varianza):
    resultado_desviacion_muestral = pow(varianza,0.5)
    return resultado_desviacion_muestral
    
promedio = promedio_population(population) 
varianza_muestral = varianza_muestral_population(population, promedio)
desviacion_muestral = desviacion_estandar_muestral(varianza_muestral)

print(f'''--------Resultados poblacion global--------
La media es: {promedio:.2f}
La varianza muestral es: {varianza_muestral:.2f}
La desviacion estandar es: {desviacion_muestral:.2f}
''')


muestra_20 = population.sample(frac=0.2)

promedio = promedio_population(muestra_20) 
varianza_muestral = varianza_muestral_population(muestra_20, promedio)
desviacion_muestral = desviacion_estandar_muestral(varianza_muestral)

print(f'''--------Resultados muestra 20% --------
La media es: {promedio:.2f}
La varianza muestral es: {varianza_muestral:.2f}
La desviacion estandar es: {desviacion_muestral:.2f}
''')

German Alonso Rodríguez Díaz

Estudiante

Buen ejercicio manual Alfonso. Recuerda que hay corrección en la varianza muestral, así como en la desviación estandar muestral, con N-1 y n-1. Esto se debe a que no se está trabajando con toda la población, que es el dato exacto, sino que estamos tomando una parte de la población. Acá un enlace a la explicación técnica. Saludos.

Alfonso Andres Zapata Guzman

Estudiante

En efecto es como indicas amigo, gracias por la correccion, al final dejo el codigo con la correccion, en el curso de estadistica descriptiva indican esto mismo. Supongo me paso por interntar condensar ambas en una sola funcion cuando claramente se requieren funciones aparte.

population = pd.Series([7, 10, 12, 13, 16, 9, 8, 12, 8, 6, 
                        16, 23, 11, 17, 20, 21, 25, 30, 31, 
                        33, 37, 39, 27, 36, 40, 43, 41, 45])

def promedio_population(population):
    sum_population = 0
    for i in population:
        sum_population += i
    resultado_promedio = sum_population/len(population)
    return resultado_promedio

def varianza_population(population, promedio):
    promedio = promedio
    suma = 0
    for i in population:
        a = (i - promedio)**2
        suma += a
    resultado_varianza_muestral = suma/len(population)
    return resultado_varianza_muestral

def desviacion_estandar(varianza):
    resultado_desviacion_muestral = pow(varianza,0.5)
    return resultado_desviacion_muestral
    
promedio = promedio_population(population) 
varianza_muestral = varianza_population(population, promedio)
desviacion_muestral = desviacion_estandar(varianza_muestral)

print(f'''--------Resultados poblacion global--------
La media es: {promedio:.2f}
La varianza muestral es: {varianza_muestral:.2f}
La desviacion estandar es: {desviacion_muestral:.2f}
''')


def varianza_muestral_population(population, promedio):
    promedio = promedio
    suma = 0
    for i in population:
        a = (i - promedio)**2
        suma += a
    resultado_varianza_muestral = suma/(len(population)-1)
    return resultado_varianza_muestral

def desviacion_estandar_muestral(varianza):
    resultado_desviacion_muestral = pow(varianza,0.5)
    return resultado_desviacion_muestral


muestra_20 = population.sample(frac=0.2)

promedio = promedio_population(muestra_20) 
varianza_muestral = varianza_muestral_population(muestra_20, promedio)
desviacion_muestral = desviacion_estandar_muestral(varianza_muestral)

print(f'''--------Resultados muestra 20% --------
La media es: {promedio:.2f}
La varianza muestral es: {varianza_muestral:.2f}
La desviacion estandar es: {desviacion_muestral:.2f}
''')

Rubén Cuello

Juan R. Vergara M.

Julián Cárdenas

Mauricio Gonzalo Aliendre Pérez

Nestor Ramirez

Enrique Cruz

Mauricio Escobar

Augusto Mas

Cesar supo

Maximiliano Cuesta

Fernando Jesús Núñez Valdez

Santiago Ramos

Brayam Esparza

Juan Felipe Ángel Martínez Bernal

Erick Leonardo Castañeda Gomez

Mario Alberto Romero Guerrero

Gabriel Obregón

Roberto Fernández Vega

Andrés Felipe Estrada Guerra

Carlos Castillo

Juan Acevedo

Ignacio Robles

Alex Xiomar Rubio Lopez

Varianza poblacional vs muestral en estadística

Fundamentos de estadística inferencial

Estadística inferencial vs descriptiva en IA

Componentes principales de la estadística

Qué es la distribución normal y sus ejemplos

Tipos de muestreo y teorema del límite central

Muestreo aleatorio y sistemático en Python

Muestreo estratificado con pandas en Python

Estadísticos y cálculos

Media muestral vs media poblacional