Muestreo Estadístico: Aleatorio y Estratificado

Clase 20 de 24Curso de Estadística Computacional con Python

Contenido del curso

Resumen

Cuando trabajas con conjuntos de datos enormes que no caben en tu computadora, existe una alternativa poderosa antes de recurrir a infraestructura costosa en la nube: aprender a muestrear correctamente. Esta técnica te permite generar conclusiones estadísticamente válidas sin necesidad de procesar toda la población, y es una habilidad que puedes aplicar tanto en problemas computacionales como en situaciones cotidianas.

¿Por qué el muestreo es clave cuando no tienes recursos computacionales?

El muestreo es el proceso de obtener un subconjunto de datos y compararlo con el total de ejemplos disponibles [01:03]. Su importancia radica en que no siempre contamos con la capacidad computacional para calcular sobre toda la población. En lugar de necesitar herramientas como MapReduce, Hadoop o un clúster de Spark, puedes tomar muestras representativas y calcularlas rápidamente en tu propia máquina.

Uno de los principios fundamentales de la inferencia estadística establece que las muestras tienden a poseer las mismas propiedades que la población total [01:35]. Esto significa que:

  • Obtener más muestras ayuda a que la media sea más precisa.
  • Tener tamaños de muestra más grandes reduce la desviación estándar de las muestras.
  • Puedes generar conclusiones válidas sin explorar toda la población.

Esto resulta especialmente útil en entrevistas de trabajo [02:18], donde podrías resolver un problema de big data con una simple laptop en lugar de proponer arquitecturas complejas, llegando a casi la misma conclusión.

¿Cuál es la diferencia entre muestreo aleatorio y muestreo estratificado?

Dentro del muestreo probabilístico existen dos formas principales de aplicarlo [02:50].

¿Cuándo usar muestreo aleatorio?

El muestreo aleatorio consiste en tomar ejemplos de la población de forma completamente al azar, sin ninguna distinción previa. Este método funciona bien cuando la población tiene características similares entre sus miembros [04:18]. Si no existen diferencias significativas dentro del grupo, una muestra aleatoria será representativa por sí sola.

¿Cuándo conviene el muestreo estratificado?

El muestreo estratificado genera primero subgrupos estadísticamente relevantes antes de tomar muestras aleatorias de cada uno [03:08]. Su propósito es evitar sesgos cuando existen diferencias importantes dentro de la población.

Por ejemplo, si quisieras saber cuántos estudiantes de Platzi saben programar [03:25], tomar muestras aleatorias de toda la base podría darte un resultado sesgado, porque la mayoría de los estudiantes pertenecen a carreras de ingeniería. En cambio, al estratificar por carrera y tomar muestras aleatorias de cada subgrupo, obtendrías un valor más representativo de la realidad.

La clave está en identificar cuándo existen subgrupos dentro de tu población que debes dividir antes de muestrear [04:18]. Si ignoras estas diferencias, tus conclusiones podrían no reflejar lo que realmente ocurre.

¿Cómo practicar el muestreo en tu día a día?

Estas técnicas no se limitan al ámbito computacional. Puedes aplicarlas observando el mundo que te rodea [04:38]:

  • De todos los celulares que ves, ¿cuántos son Android? ¿Vale la pena generar submuestras por país o por género?
  • ¿Cuántos coches son rojos o deportivos?
  • ¿Cuántos edificios tienen más de 10 pisos?

Estos ejercicios cotidianos te ayudan a desarrollar habilidades cognitivas para muestrear de forma efectiva y combinarlas con los conocimientos computacionales que ya posees. Recuerda que la estadística es, ante todo, una forma de pensar y observar patrones en la información que te rodea.

Si tienes dudas sobre cuándo aplicar muestreo aleatorio o estratificado, comparte tu caso en los comentarios para que la comunidad pueda ayudarte.