Contenido del curso

Fundamentos de estadística inferencial

Estadísticos y cálculos

Pruebas de hipótesis y validación

Cierre del curso

22
Estadística aplicada a ciencia de datos
01:28 min

Bootstrapping para muestras pequeñas en Python

Resumen

El bootstrapping es una técnica de remuestreo que te permite obtener conclusiones estadísticas confiables cuando trabajas con poblaciones pequeñas o sesgadas. Es útil para analistas y científicos de datos que necesitan reducir el sesgo en muestras limitadas y aproximar una distribución normal sin acceso a poblaciones extensas.

Por qué el tamaño de la población importa al muestrear

Cuando una empresa opera en varias ciudades, el tamaño de cada mercado cambia por completo la calidad de tus muestras.

En una ciudad grande, la distribución suele ser heterogénea: encuentras personas de distintas edades, géneros y aficiones. Eso facilita sacar conclusiones representativas y reduce el riesgo de sesgo. Pero en una ciudad pequeña, tu muestra tiende a quedar fijada en un rango de edad muy concreto, un género dominante o una afición particular. Y ahí es donde aparece el problema.

¿Cuándo se usa bootstrapping? Cuando la población es pequeña o cuando la muestra disponible está sesgada. En ambos casos, el remuestreo te ayuda a aproximar una distribución más confiable.

Cómo funciona la técnica de remuestreo

El bootstrapping consiste en sacar una muestra aleatoria de la población y, sobre esa misma muestra, generar nuevas submuestras de forma repetida.

Es decir, no vuelves a la población original cada vez. Tomas una muestra inicial y desde ahí remuestreas: una, otra y otra vez. Cada nuevo remuestreo aporta variabilidad y, al combinarlos, te acercas a una distribución normal que refleja patrones útiles de la población general.

El proceso se puede resumir en tres pasos:

Extraer una muestra aleatoria inicial desde la población.
Generar múltiples remuestreos a partir de esa primera muestra.
Analizar la distribución resultante para inferir comportamientos de la población general.

¿Qué es un remuestreo? Es tomar una nueva muestra a partir de una muestra ya existente, en lugar de volver a la población original. Permite multiplicar las observaciones disponibles cuando los datos son limitados.

Cómo se ve gráficamente el proceso

Si imaginas una población grande, una sola muestra suele bastar para obtener una distribución normal y no sesgada. Toda la población queda representada y las conclusiones son sólidas.

En cambio, con una población pequeña, partes de la población general, sacas una primera muestra y desde ahí ejecutas tres o más remuestreos. El resultado también se aproxima a una distribución normal, pero llegaste ahí gracias a la repetición controlada del muestreo.

Cuándo conviene aplicar bootstrapping en tus análisis

No siempre necesitas esta técnica. La regla práctica es aplicarla solo en dos escenarios.

Cuando la población es muy pequeña y una muestra simple no alcanza para representar su variedad.
Cuando la distribución de la población está sesgada y necesitas corregir esa desviación antes de inferir patrones.

Si trabajas con una población amplia y heterogénea, un muestreo tradicional ya te entrega resultados representativos. Forzar bootstrapping ahí solo añade complejidad sin mejorar la calidad del análisis.

En la siguiente clase verás cómo automatizar este procedimiento en Python, paso a paso. ¿En qué tipo de población crees que aplicarías primero bootstrapping en tu trabajo? Cuéntalo en los comentarios.

Comentarios

Axel Yaguana

Team Platzi•

¿Qué es y por qué usar bootstrapping?

Bootstrapping es un método de remuestreo con reemplazo.

¿Y qué es remuestreo con reemplazo?

Dado que partimos de una muestra, de esta muestra volvemos a obtener una muestra. O sea, una muestra de la muestra. Y decimos con reemplazo porque la muestra original, siempre mantiene todos sus elementos. Veamos un ejemplo:

muestra_original = [1, 2, 3, 4, 5]

bootstrap_1 = [1, 5, 2, 5, 4]
bootstrap_2 = [5, 2, 1, 4, 4]

A los bootstraps los podemos obtener n veces. Por eso es un método que viene a ser muy versátil si usamos computadoras (Python).

¿Por qué usar bootstrapping?

Porque es un método muy versátil y tenemos acceso al poder de cómputo necesario para hacerlo.

Como recordarás de clases anteriores de este curso, los métodos de t student y de Pearson asumen criterios de la población. Pero esto no siempre es así. No siempre podremos asumir ciertos parámetros y es aquí que bootstrapping se vuelve muy útil porque hace simulaciones de las muestras.

Además, hoy en día es muy accesible la capacidad de cómputo para hacerlo (a menos que sea big data). Bootstrapping es un método que se desarrolló en los 80s, cuando la computación era muy limitada.

Como recomendación, para hacer bootstrapping, asegúrate de tener al menos 25 registros y correr como mínimo 1000 simulaciones. 🚀

Gerardo Mayel Fernández Alamilla

student•

así es gracias, agregaría que es común realizar un estadístico sobre cada nuevo dataset bootstrap y almacenarlo en una estructura de datos una lista por ejemplo de tal manera que si creamos 1000 bootstrap datasets tendríamos 1000 calculos de la media, desviación estándar, etc

Jhon Freddy Tavera Blandon

student•

Bootstrapping

Bootstrapping es un método estadístico utilizado para estimar la incertidumbre de una medida estadística a partir de una muestra de datos. Es una técnica de muestreo no paramétrica que se utiliza para estimar la distribución de una medida estadística, como la media, la mediana o la desviación estándar, a partir de una muestra de datos.

El proceso de bootstrapping consiste en los siguientes pasos:

Se toma una muestra de datos de la población.

Se realiza un muestreo con reemplazo de los datos de la muestra. Esto significa que se seleccionan aleatoriamente valores de la muestra original con la posibilidad de seleccionar varias veces el mismo valor.
Se calcula la medida estadística de interés en la nueva muestra.
Se repiten los pasos 2 y 3 varias veces para obtener un gran número de medidas estadísticas.
Se analiza la distribución de las medidas estadísticas obtenidas para estimar la incertidumbre de la medida estadística original.

Bootstrapping es una técnica útil cuando los datos no siguen una distribución normal o cuando no se conoce la distribución de la población. Es utilizado para estimar la incertidumbre de una medida estadística, para comparar diferentes medidas estadísticas, para generar intervalos de confianza, entre otros.

Jhonatan Smith Garcia Muñoz

student•

Reafirmo mi posición. Que gonorrea de curso.

Leandro Tenjo

student•

¿En el buen sentido o en el malo?

Marlon Marin

student•

Es un curso muy básico y realmente mediocre porque da las ideas con someridad, no profundiza ni da fundamentos estadísticos precisos, además el código es de pura utilería.

Felipe Sebastián Zepeda González

student•

Me acojo a las críticas sobre el nivel de profundidad al que llega esta clase. Además quisiera hacer notar un par de errores:

Bootstrapping no resuelve problemas de sesgo de una muestra de baja población: Eso se puede entender con un poco de lógica. Si hacemos extracciones aleatorias (con reemplazo o sin reemplazo) sobre una muestra original sesgada, lo que tendremos son nuevas poblaciones con una propagación del sesgo de la muestra original.
Bootstrapping (No paramétrico), entre otras cosas, nos ayuda a calcular de manera sencilla la desviación estandar de algún estadistico. Esto es particularmente útil cuando no conocemos la distribución del estadistico o cuando es muy dificil calcularla teóricamente.

Diego Alejandro Hernandez Londono

student•

Hubiese sido mejor una explicación más profunda.

Juan Diego

student•

La clave está en que el bootstrapping se realiza con reemplazo.

No es solo cambiar el orden de los datos; al extraer una muestra de tu muestra original, puedes seleccionar el mismo dato varias veces y dejar otros fuera.

Imagina que tienes una bolsa con los números {1, 2, 3}. Si sacas tres números uno a uno, devolviendo el número a la bolsa cada vez, podrías obtener {1, 1, 3} en una ocasión y {2, 3, 2} en otra. Como las combinaciones de números cambian en cada remuestreo, la media y la desviación estándar varían ligeramente entre cada iteración. Esto es precisamente lo que permite simular la variabilidad de la población original.

Gabriel Obregón

student•

📌Bootstrapping

🔎 ¿Qué es?

✨ Técnica estadística para muestras pequeñas

✨ Reduce sesgos y mejora representatividad

✨ Ejemplo: analizar una ciudad pequeña con poca diversidad

⚙️ Cómo funciona

➡️ 1. Muestra inicial Selección de datos representativos de la población.

➡️ 2. Remuestreo Se generan muchas submuestras de la muestra original.

➡️ 3. Distribución final Las submuestras crean una distribución que refleja mejor a la población (muchas veces cercana a la normal).

🎯 Cuándo usarlo

🔹 Poblaciones pequeñas → diversidad limitada.
🔹 Distribuciones sesgadas → los datos no muestran todos los segmentos.
🔹 Recursos limitados → no es posible obtener una gran muestra.

💡 Por qué es efectivo

🌟 Genera varianza → simula la variabilidad de los datos.

🌟 Aporta confiabilidad → intervalos de confianza más realistas.

🌟 Fortalece conclusiones → permite aplicar resultados a escenarios reales.

🖥️ Bootstrapping en Python

📚 Próximas lecciones → aprenderás a automatizar el proceso.

🎯 Objetivo → usar Python para aplicar el método y enriquecer tu análisis estadístico.

Mario Alexander Vargas Celis

student•

🥾 Técnica de Bootstrapping para Muestras Pequeñas

Bootstrapping es una técnica estadística que permite estimar la distribución de una estadística (como la media, mediana, desviación, etc.) a partir de una muestra pequeña, usando reemuestreo aleatorio con reemplazo.

🔹 ¿Por qué usar Bootstrapping?

No necesitas asumir que los datos siguen una distribución específica (como la normal).
Ideal cuando el tamaño de la muestra es pequeño y no se puede aplicar el Teorema del Límite Central directamente.
Útil para estimar intervalos de confianza o errores estándar.

🔸 Ejemplo de Bootstrapping en Python

Supongamos que tenemos una muestra pequeña de ingresos:

import numpy as np import seaborn as sns import matplotlib.pyplot as plt

# Muestra pequeña muestra = np.array([23, 29, 20, 32, 25, 21, 19, 30])

# Bootstrapping: 1000 re-muestreos con reemplazo n_bootstraps = 1000 medias = []

for _ in range(n_bootstraps): bootstrap_sample = np.random.choice(muestra, size=len(muestra), replace=True) medias.append(np.mean(bootstrap_sample))

# Intervalo de confianza del 95% conf_int = np.percentile(medias, [2.5, 97.5]) print("IC 95% de la media:", conf_int)

🔸 Visualización del resultado:

sns.histplot(medias, kde=True) plt.axvline(conf_int[0], color='red', linestyle='--', label='Límite inferior') plt.axvline(conf_int[1], color='red', linestyle='--', label='Límite superior') plt.title('Distribución Bootstrap de la Media') plt.legend() plt.show()

✅ ¿Qué puedes estimar con bootstrapping?

Media
Mediana
Percentiles
Coeficientes de modelos (como regresión)
Intervalos de confianza

Cesar David Villarraga Mendez

student•

Pésimo curso !

Fundamentos de estadística inferencial

Estadística descriptiva vs inferencial en datos

Componentes principales de la estadística

Qué es la distribución normal y por qué importa

Muestreo aleatorio, sistemático y teorema central

Muestreo aleatorio y sistemático en Python

Muestreo estratificado con Python y pandas

Estadísticos y cálculos

Media muestral explicada con ejemplos reales

Varianza poblacional vs muestral en estadística

Varianza y desviación estándar en Python

Qué son los intervalos de confianza

Cálculo de intervalos de confianza con tabla Z

Intervalos de confianza en Python con SciPy

Pruebas de hipótesis y validación

Qué son las pruebas de hipótesis

Pruebas de hipótesis: Student, Pearson y ANOVA

Errores tipo I y II en pruebas de hipótesis

Prueba t de Student en Python con SciPy

ANOVA y Pearson en Python con iris