Muestreo aleatorio, sistemático y teorema central

Resumen

Cuando trabajas con datos, no siempre puedes analizar a toda una población. Por eso necesitas dominar los tipos de muestreo y entender el teorema del límite central, dos pilares que te permiten extraer conclusiones confiables a partir de un subconjunto de datos.

Esta guía te muestra cómo construir muestras válidas, qué métodos existen para seleccionarlas y por qué, sin importar la forma original de tus datos, terminas encontrando una distribución normal.

¿Qué condiciones debe cumplir una muestra estadística?

Una muestra es una extracción de una población general, pero no cualquier extracción sirve. Para que tus conclusiones tengan validez, necesitas cubrir dos requisitos básicos.

Que sea estadísticamente significativa, es decir, lo suficientemente grande para sostener una conclusión.
Que sea no sesgada, recogiendo distintos atributos y no solo una parte específica de la población.

Si tu muestra falla en alguno de estos dos puntos, los resultados que obtengas pueden llevarte a decisiones equivocadas.

¿Qué es una muestra sesgada? Es aquella que sobrerrepresenta una parte de la población e ignora otras, distorsionando los resultados del análisis.

¿Cuáles son los tipos de muestreo más usados?

Existen tres formas principales de construir una muestra, y cada una responde a una lógica distinta sobre cómo seleccionar a los participantes [00:51].

¿Cómo funciona el muestreo aleatorio simple?

En el muestreo aleatorio simple, cada evento o individuo tiene la misma probabilidad de ser elegido. El ejemplo más claro es la lotería: todos los números compiten en igualdad de condiciones por ser ganadores.

Este método es el más limpio cuando no quieres introducir ningún criterio adicional y buscas pura aleatoriedad.

¿Qué es el muestreo sistemático?

El muestreo sistemático sigue un intervalo, una regla o una condición predefinida [01:14]. No es azar puro, sino una selección guiada por un patrón.

Otorgar un premio a cada 100 personas: gana la persona 1, la 101, la 200, y así sucesivamente.
Premiar a quien envíe un mensaje exactamente a las cinco de la tarde.
Activar una promoción solo si llueve, una condición exógena al sistema.

La diferencia con el aleatorio simple es clara: aquí hay una regla que filtra quién entra a la muestra.

¿Qué son los experimentos estratificados?

El muestreo estratificado segmenta la población según una categoría o variable específica antes de extraer la muestra [01:51]. Tomas atributos como edad o país de origen para construir grupos.

Por ejemplo, puedes analizar solo a personas jóvenes, solo a adultas, o separar por nacionalidad entre quienes vienen de México y quienes vienen de España. Las conclusiones que obtienes aplican a ese estrato concreto, no a la población completa.

¿Cuándo conviene usar muestreo estratificado? Cuando necesitas comparar comportamientos entre subgrupos definidos o cuando una variable categórica influye fuerte en los resultados.

¿Qué dice el teorema del límite central?

La mayoría de los fenómenos del mundo se explican bajo una distribución normal, y la razón está en el teorema del límite central [02:18]. Cuando repites un experimento muchas veces, los resultados tienden a agruparse siguiendo esa forma de campana característica.

Piensa en una moneda. Si la lanzas dos veces, puedes obtener dos caras o dos cruces sin problema. Pero si la lanzas mil veces, la proporción se acercará a 50% cara y 50% cruz, dibujando una distribución normal alrededor de ese punto medio.

¿Cómo se ve el teorema del límite central en un simulador?

En un simulador web puedes visualizar este comportamiento con ocho distribuciones distintas [03:01]. Cada una empieza con formas muy diferentes: planas, escalonadas o irregulares.

Eliges una distribución base, por ejemplo una que parece pareja.
Inicias con un tamaño de muestra de uno y presionas draw para generar el experimento.
Con pocos lanzamientos, los puntos se ven atípicos y siguen patrones poco claros.
Al incrementar el número de muestras y volver a presionar draw, los datos empiezan a concentrarse en el centro.
Con suficientes repeticiones, aparece la curva de campana con dos colas, una izquierda y una derecha.

El mismo ejercicio funciona con la distribución dos, donde con solo dos experimentos aún se ve una subida [03:51]. Pero al crecer el volumen, también tiende a la normal de forma visualmente clara.

¿Por qué importa entender muestreo y distribución normal?

Estos conceptos son la base de cualquier análisis estadístico serio. Si eliges mal el tipo de muestreo, tus datos no representan a la población. Y si no entiendes el teorema del límite central, no podrás justificar por qué tantos modelos asumen normalidad como punto de partida.

En la siguiente clase vas a llevar estos sistemas de muestreo a código, programándolos directamente en Python. Mientras tanto, prueba el simulador con las distribuciones de la tres a la ocho y comparte en los comentarios qué patrones encontraste al incrementar el número de experimentos.