Tipos de muestreo y teorema del límite central

Curso de Estadística Inferencial para Data Science e Inteligencia Artificial

Contenido del curso

No sé dónde empezar

Fundamentos de estadística inferencial

Estadísticos y cálculos

Pruebas de hipótesis y validación

Cierre del curso

22
Estadística inferencial aplicada al machine learning
01:28 min

Tomar examen

Tipos de muestreo y teorema del límite central

Resumen

Crear una muestra confiable es lo que separa una conclusión sólida de una corazonada. Aquí aprendes los tres tipos de muestreo principales (aleatorio simple, sistemático y estratificado) y cómo el teorema del límite central explica por qué tantos fenómenos siguen una distribución normal. Es contenido útil si trabajas con datos, estadística aplicada o ciencia de datos.

¿Qué condiciones debe cumplir una muestra para ser válida?

Una muestra es una extracción de una población más grande, y para que tus conclusiones tengan peso necesita cumplir dos requisitos básicos.

Ser estadísticamente significativa, es decir, lo suficientemente grande como para representar al total.
Estar no sesgada, lo que significa que recoja diferentes atributos y no se enfoque en una sola parte de la población.

Si tu muestra falla en alguno de estos dos puntos, cualquier análisis posterior se cae. Por eso vale la pena detenerse aquí antes de avanzar.

¿Qué es una muestra estadísticamente significativa? Es una muestra cuyo tamaño es suficiente para reflejar el comportamiento de la población general y permitir conclusiones confiables, sin estar enfocada solo en un grupo específico.

¿Cuáles son los tipos de muestreo principales?

Existen tres formas clásicas de armar una muestra, y cada una responde a una lógica distinta [0:36].

Cómo funciona el muestreo aleatorio simple

En el muestreo aleatorio simple, cada evento tiene la misma probabilidad de ser elegido. El ejemplo más claro es la lotería: todos los números compiten en igualdad de condiciones por ser los ganadores.

Es el método más limpio cuando no quieres introducir ningún criterio que pueda inclinar el resultado.

Cuándo usar el muestreo sistemático

El muestreo sistemático sigue una regla, un intervalo o una condición. Piensa en otorgar un premio a cada 100 personas: lo ganarían la persona uno, la 101, la 201, y así sucesivamente, manteniendo un intervalo constante [1:13].

También puede depender de condiciones externas, por ejemplo, premiar a quien mande un mensaje a las cinco de la tarde, o que el evento detonante sea que llueva. La diferencia con el aleatorio es que aquí siempre hay una regla detrás.

Qué es el muestreo estratificado

El muestreo estratificado se basa en una categoría o variable específica de la población [1:50]. Por ejemplo, sacar conclusiones solo de personas jóvenes, adultas, o de quienes vienen de México o de España.

Es útil cuando te interesa analizar un atributo concreto dentro del universo más amplio.

¿Qué dice el teorema del límite central?

La mayoría de los fenómenos del mundo se explican bajo una distribución normal, y el teorema del límite central es justo lo que respalda esa idea [2:18].

La intuición es esta: cuando repites un experimento muchas veces, los resultados tienden a concentrarse alrededor de un valor central, formando esa figura de campana que probablemente ya viste antes.

Un ejemplo clásico es el de la moneda. Si la lanzas dos veces, puedes obtener dos caras o dos cruces sin problema. Pero si la lanzas mil veces, la proporción se acerca al 50/50 entre cara y cruz. Esa convergencia es la distribución normal en acción.

¿Qué es el teorema del límite central? Es el principio que indica que, al repetir un experimento muchas veces, la distribución de los resultados tiende a una distribución normal, sin importar cómo se vea la distribución original.

Cómo se ve el teorema del límite central en un simulador

Lo más interesante es comprobarlo visualmente. En el simulador web que aparece en los recursos puedes probar ocho distribuciones diferentes y ver cómo se comportan al variar el tamaño de la muestra [3:11].

Con un tamaño de muestra de uno, los puntos se ven atípicos y siguen una representación cercana a una línea recta.
Al incrementar el número de experimentos, los datos se concentran en el centro y aparecen dos colas, una a la izquierda y otra a la derecha.
En distribuciones que inicialmente no se parecen a una normal, como el ejemplo dos, basta con aumentar el volumen para que la forma de campana surja con claridad [4:16].

La invitación es que pruebes desde la distribución tres hasta la ocho y observes cómo, mientras más experimentos lances, la curva se acerca más a la normal. Es la forma más directa de internalizar por qué este teorema aparece en tantas áreas de la estadística.

¿Cuál de las ocho distribuciones te sorprendió más al converger? Comparte en los comentarios qué resultados obtuviste y cómo se comportó tu simulación.