Qué es bootstrapping y cuándo usarlo

Cursos Empresas Blog Live Conf Precios

Contenido del curso

No sé dónde empezar

Fundamentos de estadística inferencial

Estadísticos y cálculos

Pruebas de hipótesis y validación

Cierre del curso

22
Estadística inferencial aplicada al machine learning
01:28 min

Tomar examen

Qué es bootstrapping y cuándo usarlo

Resumen

El bootstrapping es una técnica de remuestreo estadístico que te permite obtener conclusiones confiables cuando trabajas con poblaciones pequeñas o sesgadas. Aprenderás cuándo aplicarla, cómo funciona y por qué resulta útil para analistas de datos que necesitan reducir el sesgo en muestras limitadas.

Qué es el bootstrapping y por qué importa en el análisis de datos

Cuando trabajas con una población grande, sacar una muestra suele ser sencillo: la distribución tiende a ser heterogénea y representa edades, géneros y perfiles diversos. Pero cuando la población es pequeña, la historia cambia. Cualquier muestra que extraigas tiene altas probabilidades de quedar fijada en un rango de edad, un género o una afición específica, y eso introduce sesgo.

Ahí es donde entra el bootstrapping. Es una técnica que te protege contra ese tipo de distorsión cuando no cuentas con los recursos o el tamaño poblacional para hacer un muestreo tradicional.

¿Qué es el bootstrapping? Es una técnica de remuestreo en la que primero extraes una muestra aleatoria de la población y luego sacas múltiples muestras a partir de esa primera muestra. Sirve para reducir el sesgo en poblaciones pequeñas.

Cuándo deberías aplicar bootstrapping en tu análisis

No todas las situaciones lo requieren. El bootstrapping tiene sentido en escenarios muy concretos donde el muestreo clásico falla.

Imagina una empresa que opera en múltiples ciudades. En las ciudades grandes encuentras diversidad natural: distintas edades, géneros y comportamientos. En las ciudades pequeñas, la muestra que obtengas probablemente esté concentrada en un perfil muy específico, lo que sesga cualquier conclusión que quieras sacar sobre la población general.

Deberías considerar bootstrapping cuando:

Tu población es pequeña y no permite un muestreo amplio.
La distribución de tu muestra está claramente sesgada.
Necesitas inferir patrones sobre la población general con recursos limitados.

Cómo funciona el remuestreo paso a paso

El proceso es más intuitivo de lo que parece. Cuando sacas una muestra a partir de una población grande y diversa, llegas directamente a una distribución normal no sesgada que representa bien al total. Ese es el escenario ideal.

En poblaciones pequeñas el camino es distinto. Primero extraes una muestra inicial de la población general. Luego, sobre esa muestra, haces varios remuestreos: uno, otro y otro. Por ejemplo, tres remuestreos a partir de la primera muestra. El resultado de combinar esos remuestreos también te lleva a una distribución normal, que es justo lo que necesitas para entender los patrones de la población general.

¿Por qué el bootstrapping funciona en poblaciones pequeñas? Porque al remuestrear varias veces sobre una muestra inicial, simulas la variabilidad que tendrías en una población más grande y obtienes una distribución normal que reduce el sesgo de la muestra original.

Qué conceptos clave aparecen en esta técnica

Para dominar bootstrapping conviene tener claros algunos términos que se entrelazan en el procedimiento.

Remuestreo: extraer múltiples muestras a partir de una muestra inicial, no de la población completa [0:54].
Sesgo muestral: distorsión que ocurre cuando la muestra no representa bien a la población, común en ciudades pequeñas donde la edad o el género quedan fijados [0:38].
Distribución normal: forma de campana que indica que tu muestra representa bien los patrones generales de la población [1:18].
Población heterogénea: aquella con diversidad de edades, géneros y perfiles, típica de ciudades grandes [0:24].

El objetivo final siempre es el mismo: llegar a un resultado que te ayude a entender la población general y sus patrones, incluso cuando los datos disponibles son limitados.

En la siguiente clase verás cómo automatizar este procedimiento en Python para aplicarlo a tus propios proyectos. ¿Has trabajado antes con muestras pequeñas en tu análisis? Cuéntame en los comentarios cómo resolviste el sesgo.

Axel Yaguana

Team Platzi

¿Qué es y por qué usar bootstrapping?

Bootstrapping es un método de remuestreo con reemplazo.

¿Y qué es remuestreo con reemplazo?

Dado que partimos de una muestra, de esta muestra volvemos a obtener una muestra. O sea, una muestra de la muestra. Y decimos con reemplazo porque la muestra original, siempre mantiene todos sus elementos. Veamos un ejemplo:

muestra_original = [1, 2, 3, 4, 5]

bootstrap_1 = [1, 5, 2, 5, 4]
bootstrap_2 = [5, 2, 1, 4, 4]

A los bootstraps los podemos obtener n veces. Por eso es un método que viene a ser muy versátil si usamos computadoras (Python).

¿Por qué usar bootstrapping?

Porque es un método muy versátil y tenemos acceso al poder de cómputo necesario para hacerlo.

Como recordarás de clases anteriores de este curso, los métodos de t student y de Pearson asumen criterios de la población. Pero esto no siempre es así. No siempre podremos asumir ciertos parámetros y es aquí que bootstrapping se vuelve muy útil porque hace simulaciones de las muestras.

Además, hoy en día es muy accesible la capacidad de cómputo para hacerlo (a menos que sea big data). Bootstrapping es un método que se desarrolló en los 80s, cuando la computación era muy limitada.

Como recomendación, para hacer bootstrapping, asegúrate de tener al menos 25 registros y correr como mínimo 1000 simulaciones. 🚀

Gerardo Mayel Fernández Alamilla

Estudiante

así es gracias, agregaría que es común realizar un estadístico sobre cada nuevo dataset bootstrap y almacenarlo en una estructura de datos una lista por ejemplo de tal manera que si creamos 1000 bootstrap datasets tendríamos 1000 calculos de la media, desviación estándar, etc

Fundamentos de estadística inferencial

Estadística inferencial vs descriptiva en IA

Componentes principales de la estadística

Qué es la distribución normal y sus ejemplos

Tipos de muestreo y teorema del límite central

Muestreo aleatorio y sistemático en Python

Muestreo estratificado con pandas en Python

Estadísticos y cálculos

Media muestral vs media poblacional

Varianza poblacional vs muestral en estadística

Varianza y desviación estándar en Python

Qué son los intervalos de confianza

Cómo calcular intervalos de confianza con tabla Z

Intervalos de confianza en Python con SciPy

Pruebas de hipótesis y validación

Qué son las pruebas de hipótesis

Student, Pearson o ANOVA: cuál usar

Errores tipo I y tipo II en hipótesis

Prueba t de Student con Python paso a paso

ANOVA y Pearson para validar hipótesis en Python