Bootstrapping en Python para calcular promedios

Curso de Estadística Inferencial para Data Science e Inteligencia Artificial

Contenido del curso

No sé dónde empezar

Fundamentos de estadística inferencial

Estadísticos y cálculos

Pruebas de hipótesis y validación

Cierre del curso

22
Estadística inferencial aplicada al machine learning
01:28 min

Tomar examen

Bootstrapping en Python para calcular promedios

Resumen

El bootstrapping en Python te permite dividir una población en múltiples muestras pequeñas para calcular estadísticos confiables sin sesgar los resultados. Es una técnica clave en ciencia de datos cuando trabajas con poblaciones simuladas o limitadas y quieres evitar conclusiones distorsionadas. Aquí tú generas los datos, programas el remuestreo y validas el promedio final.

¿Qué librerías necesitas para hacer bootstrapping en Python?

Antes de tocar el remuestreo, prepara el entorno con tres librerías base que cubren manejo de datos, cálculos numéricos y selección aleatoria.

pandas para estructurar tablas con import pandas as pd.
numpy para operaciones numéricas y cálculo de medias con import numpy as np.
random para generar selecciones aleatorias dentro de la población.

Con estas tres librerías cargadas tienes todo lo necesario para crear la población inicial y construir el loop de remuestreo.

¿Qué es el bootstrapping? Es una técnica de remuestreo que consiste en crear muchas muestras pequeñas a partir de una población inicial para calcular estadísticos como el promedio sin depender de un solo cálculo global.

¿Cómo creas una población simulada con numpy?

El ejercicio parte de una población inventada: 10.000 personas con una edad promedio de 34 años. Esta tabla se construye con valores aleatorios generados directamente en numpy.

Defines data como un arreglo aleatorio donde la media es 34 y el size es 10.000. Al inspeccionar el resultado verás valores como 34.52 o 34.71, todos girando alrededor de la media establecida. Para validar la población, calculas el mean de data y obtienes un número muy cercano a 34, por ejemplo 33.993, lo que confirma que la simulación quedó bien construida.

Este paso es importante porque la población simulada será la fuente de la que extraerás cada submuestra durante el bootstrapping.

¿Cómo automatizas el bootstrapping con un loop en Python?

La lógica del remuestreo se construye con un loop que genera múltiples muestras pequeñas y guarda el promedio de cada una en una lista.

Estructura del loop de remuestreo

La idea es crear 40 muestras de tamaño 5 cada una. Son muchas muestras, pero pequeñas, porque la población general tampoco es enorme. El esquema queda así:

Inicializa una lista vacía llamada promedio.
Usa for i in range(40) para iterar 40 veces.
En cada iteración, crea muestra como un sample aleatorio de data con tamaño 5.
Calcula la media de esa muestra con np.mean(muestra) y haz append al listado promedio.

Después del loop tendrás 40 promedios, uno por cada submuestra extraída de la población original.

Cómo obtener el promedio final del remuestreo

Para saber cómo se comporta la población a partir de las 40 muestras, calculas la media de toda la lista de promedios con np.mean(promedio). El resultado puede ser, por ejemplo, 34.02, un valor muy cercano al 34 esperado. Como cada ejecución usa números aleatorios, tu resultado variará ligeramente, pero siempre orbitará alrededor de la media real.

¿Para qué sirve calcular el promedio de promedios? Permite estimar el valor poblacional usando varias muestras independientes en lugar de una sola, reduciendo el riesgo de que un caso atípico distorsione la estimación.

¿Por qué el bootstrapping ayuda a evitar el overfitting?

Uno de los riesgos más comunes en ciencia de datos e inteligencia artificial es el overfitting o sobreajuste, que ocurre cuando tu estimación se pega demasiado al valor real porque tienes pocos datos y estos explican el 100 % de la población. Suena positivo, pero en realidad significa que el modelo no generaliza.

Al hacer una muestra de la muestra, validas cómo se comporta la población desde múltiples ángulos en lugar de confiar en un único cálculo. Por eso el bootstrapping es útil tanto para estadísticos descriptivos como para evaluar modelos: te da una visión más estable y menos sesgada del fenómeno que estás estudiando.

¿Cuándo conviene usar muestras pequeñas en bootstrapping? Cuando la población general no es muy grande. Mantener el tamaño de cada muestra reducido y aumentar la cantidad de iteraciones ayuda a explorar mejor la variabilidad de los datos.

¿Cómo puedes ampliar el ejercicio de bootstrapping?

Una vez que dominas la versión base, el siguiente paso es escalar el experimento para ver cómo cambian los resultados.

Aumenta el número de muestras más allá de 40 para observar si el promedio final se estabiliza.
Incrementa el size de cada muestra y compara qué tanto se acerca al valor real.
Cambia la media original de la población simulada y repite el flujo completo.

Con esos ajustes podrás detectar el punto donde más muestras y muestras más grandes mejoran la estimación sin caer en sobreajuste. Cuéntame en los comentarios qué combinación de tamaño y cantidad de muestras te dio el resultado más cercano a 34.