Muestreo Estadístico: Aleatorio y Estratificado

Clase 20 de 24 • Curso de Estadística Computacional con Python

Contenido del curso

Introducción

1
Programación Dinámica y Estocástica: Optimización y Modelado de Datos
01:56 min

Programación Dinámica

Caminos Aleatorios

Programas Estocásticos

Simulaciones de Montecarlo

Muestreo e Intervalos de Confianza

Datos Experimentales

Conclusiones

24
Optimización de Programas con Programación Dinámica y Simulaciones
02:54 min

Tomar examen

Resumen

Cuando trabajas con conjuntos de datos enormes que no caben en tu computadora, existe una alternativa poderosa antes de recurrir a infraestructura costosa en la nube: aprender a muestrear correctamente. Esta técnica te permite generar conclusiones estadísticamente válidas sin necesidad de procesar toda la población, y es una habilidad que puedes aplicar tanto en problemas computacionales como en situaciones cotidianas.

¿Por qué el muestreo es clave cuando no tienes recursos computacionales?

El muestreo es el proceso de obtener un subconjunto de datos y compararlo con el total de ejemplos disponibles [01:03]. Su importancia radica en que no siempre contamos con la capacidad computacional para calcular sobre toda la población. En lugar de necesitar herramientas como MapReduce, Hadoop o un clúster de Spark, puedes tomar muestras representativas y calcularlas rápidamente en tu propia máquina.

Uno de los principios fundamentales de la inferencia estadística establece que las muestras tienden a poseer las mismas propiedades que la población total [01:35]. Esto significa que:

Obtener más muestras ayuda a que la media sea más precisa.
Tener tamaños de muestra más grandes reduce la desviación estándar de las muestras.
Puedes generar conclusiones válidas sin explorar toda la población.

Esto resulta especialmente útil en entrevistas de trabajo [02:18], donde podrías resolver un problema de big data con una simple laptop en lugar de proponer arquitecturas complejas, llegando a casi la misma conclusión.

¿Cuál es la diferencia entre muestreo aleatorio y muestreo estratificado?

Dentro del muestreo probabilístico existen dos formas principales de aplicarlo [02:50].

¿Cuándo usar muestreo aleatorio?

El muestreo aleatorio consiste en tomar ejemplos de la población de forma completamente al azar, sin ninguna distinción previa. Este método funciona bien cuando la población tiene características similares entre sus miembros [04:18]. Si no existen diferencias significativas dentro del grupo, una muestra aleatoria será representativa por sí sola.

¿Cuándo conviene el muestreo estratificado?

El muestreo estratificado genera primero subgrupos estadísticamente relevantes antes de tomar muestras aleatorias de cada uno [03:08]. Su propósito es evitar sesgos cuando existen diferencias importantes dentro de la población.

Por ejemplo, si quisieras saber cuántos estudiantes de Platzi saben programar [03:25], tomar muestras aleatorias de toda la base podría darte un resultado sesgado, porque la mayoría de los estudiantes pertenecen a carreras de ingeniería. En cambio, al estratificar por carrera y tomar muestras aleatorias de cada subgrupo, obtendrías un valor más representativo de la realidad.

La clave está en identificar cuándo existen subgrupos dentro de tu población que debes dividir antes de muestrear [04:18]. Si ignoras estas diferencias, tus conclusiones podrían no reflejar lo que realmente ocurre.

¿Cómo practicar el muestreo en tu día a día?

Estas técnicas no se limitan al ámbito computacional. Puedes aplicarlas observando el mundo que te rodea [04:38]:

De todos los celulares que ves, ¿cuántos son Android? ¿Vale la pena generar submuestras por país o por género?
¿Cuántos coches son rojos o deportivos?
¿Cuántos edificios tienen más de 10 pisos?

Estos ejercicios cotidianos te ayudan a desarrollar habilidades cognitivas para muestrear de forma efectiva y combinarlas con los conocimientos computacionales que ya posees. Recuerda que la estadística es, ante todo, una forma de pensar y observar patrones en la información que te rodea.

Si tienes dudas sobre cuándo aplicar muestreo aleatorio o estratificado, comparte tu caso en los comentarios para que la comunidad pueda ayudarte.

Comentarios

Karl Behrens Gil

student•

https://github.com/karlbehrensg/programacion-dinamica-y-estocastica Muestreo

El muestreo es muy importante cuando no tenemos acceso a toda la población que queremos explorar. Uno de los grandes descubrimientos de la estadística es que las muestras aleatorias tienden a mostrar las mismas propiedades de la población objetivo. Hasta este punto todos los muestreos que hemos hecho son de tipo probabilísticos.

En un muestreo aleatorio cualquier miembro de la población tiene la misma probabilidad de ser escogido.

En un muestreo estratificado tomamos en consideración las características de la población para partirla en subgrupos y luego tomamos muestras de cada subgrupo, esto incrementa la probabilidad de que el muestreo sea representativo de la población.

Camilo José Mezú Mina

student•

Ufff muy bueno tu repositorio, yo esoy tomando notas a mano, pero tu repositorio sirve para repasar virtual. Gracias compañero

Luis Fernando Pedroza Taborda

student•

Karl genial aporte, he estado sacando muchos apuntes de tu repositorio.

Daniel Paloma Murcia

student•

Este es un libro que explica de forma sencilla y práctica todos los conceptos que hemos visto en las clases. Lo estoy leyendo y tiene muchos ejemplos visuales, no tanta matemática teórica.

Head first statistics - A brain-friendly guide:

https://www.pdfdrive.com/head-first-statisticspdf-e34324032.html

Carlos Fernando Aguilar González

student•

Muchas gracias Daniel.

Ya lo descargué y veo que está muy bien ilustrado y explicado.

Saludos

Daniel Correa

student•

Debo mantener proporcion al tomar muestras en los subgrupos? Es decir, si hay 9 estudiantes en total, y 6 son de musica y 3 de baile, y voy a tomar 3 muestras, deberia tomar 1 de baile y 2 de musica(debido a que por cada estudiante de baile hay 2 de musica)?(un ejemplo en bajas cantidades)

Daniel Correa

student•

Acabo de buscar y respondiendome a mi mismo, se debe guardar proporcion, lo que se conoce como fraccion de muestreo(ejm, si la fraccion de muestreo es 1/2, voy a coger el 1/2 de la poblacion total de cada sub grupo)

Fredy Alberto Orozco Loaiza

student•

depende si conoces no la población, si la conoces debes de hacer eso si no la conoces debes estimar la proporción para saber como se comporta tu muestreo con respecto a l población

Andrés Álvarez

student•

Adjunto una tabla con las diferencias entre los diferentes tipos de muestreo:

La tabla es del siguiente documento:

Arturo Barrios

student•

Creo que ibas a compartir algo más y no se adjuntó

Francisco Garcia [C6]

student•

Tipos de muestreo estratificado En general, existen tres tipos de muestreo estratificado o técnicas de estratificación:

Muestreo estratificado proporcional Es cuando los estratos de la muestra (el número de datos a considerar) conservan la misma proporción de la población. Por ejemplo: Hay 1.000.000 de personas entre hombres y mujeres (población) con 60% mujeres y 40% hombres. Hemos decidido tomar una muestra de 1000 personas. Los estratos definidos por supuesto son hombres y mujeres. Por lo tanto, el estrato de mujeres deberá tener un tamaño de 600 (60%) y el estrato de hombres de 400 (40%). Tal como lo ves, pro-por-cio-nal.

Muestreo estratificado uniforme Es cuando consideramos el mismo número de datos para cada estrato, o dicho de otra forma, el mismo tamaño de muestra a cada estrato. Por lo tanto, aquí no importa cuál es el peso del estrato en la población, como si pasaba en el estratificado proporcional. Por ejemplo, tomando una muestra de 100 personas entre hombres y mujeres, el estrato de hombres será de 50, al igual que el de mujeres. Tal como ves, unif-orme.

Muestreo estratificado óptimo También llamado no proporcional, con este muestreo cada estrato es proporcional a la desviación estándar. En otras palabras, el número de datos en cada estrato será mayor en la medida en que exista mayor variabilidad entre ellos.

Cómo hacer un muestro estratificado paso a paso **Paso 1: **¿Qué es lo que quieres analizar? Identifica cuál es la situación, evento o fenómeno que vas a estudiar. ¿Hay una situación problemática? Defínela.

Paso 2: Captura los datos relativos a la situación que estas analizando.

Paso 3: Este es un paso opcional. Utiliza una herramienta que te permita representar los datos recolectados. Esto te dará una idea de los factores de estratificación que puedes usar. Por ejemplo, usa un histograma, un diagrama de pastel o un análisis de pareto para tener una representación previa de los datos obtenidos.

Paso 4: Determina los factores de estratificación a emplear. Puedes saltar desde el paso 2 al paso 4 y determinar los factores, sin embargo al hacer el paso 3 tendrás un mejor criterio para definir los estratos. El cómo definir los estratos dependerá de qué tanto conoces la situación que estás analizando.

Cesar Camison, Sonia Cruz y Tomas González, autores del libro Gestión de calidad: Conceptos, enfoques, modelos y sistemas, afirman que a mayor número de estratos, mejor comprensión del fenómeno, sin embargo no es conveniente excederse en el número. Resulta muy útil hacerse la siguiente pregunta: ¿Cómo incide … sobre el fenómeno? Generalmente, la palabra faltante corresponde a un factor de estratificación.

Paso 5: Realiza los cálculos necesarios para clasificar los datos con base en los estratos definidos.

Paso 6: Elabora una o más gráficas que represente cada grupo homogéneo de datos. La elección de la gráfica depende de lo que se quiere evidenciar. Podemos usar por ejemplo un diagrama de Pareto para definir en qué enfocarnos, un diagrama de dispersión para analizar la relación entre dos variables o un histograma para representar los datos de forma general.

Paso 7: Observando la gráfica o el grupo de gráficas que elaboraste, ¿hay diferencias importantes entre los estratos? Si la respuesta es positiva, la estratificación ha sido útil. Has conseguido obtener diferencias a través del muestreo estratificado, que antes de estratificar no hubieras logrado diferenciar.

Vamos a entender el paso a paso a través de un ejemplo de estratificación.

Brian Chuquiruna

student•

¿Siempre se cumple que mientras mas grande sea mi tamaño de muestra mas pequeña será la desviación estándar? ¿Por qué pasa esto?

Juan Diaz Araya

student•

Si, esto pasa por que la desviación estándar indica que tan dispersos están los datos con respecto a la media y cuanto mas aumentes la muestra esta mas se va a acercar a la media.

Imagina que quieres saber el promedio de cuanto pesan los niños en una secundaria, si tomas una muestra pequeña aleatoria, es difícil que tengas suerte para acercarte a la media real, lo mas probable es que por la cantidad de la población, tomes a niños que pesen por ejemplo 48 Kg. ,65 Kg. y 85 Kg. Esto haría que los valores se alejen mucho del promedio y la desviación se dispararía. En cambio si tomas una muestra mayor, 40% de la población por ejemplo, la mayor cantidad de muestra se va a acercar a una media y si bien aun vas a tener ejemplos extremos (niños que pesan mucho, y niños que pesan poco), estos van a ser proporcionalmente menor. Es decir, los casos se van a acercar a la media y las desviacion va a ir disminuyendo.

JESUS ALBERTO CARREÑO MARTINEZ

student•

El muestreo estratificado es utilizado cuanto la poblacion NO es uniforme. Ejemplo de poblacion no uniforme:

Los estados de EUA.

Ejemplo: En las elecciones de EUA es conveniente tener a la mayoria de los estados con un candidato a tener la mayoria de votos

Esto es porque existen estados enormes y tambien estados pequeños.

Por lo tanto podran votar 10000 a favor, en un estado de 1000000 y podran votar 50000 de un estado con 5500 y otros 50000 de un estado con 60000 Al sistema le es conveniente la 2da opcion porque, aunque votaran mas personas a favor en la 1ra opcion, en la 2da opcion tendran a mas estados en general a su favor

Por eso es mas importante el que gane un candidato en la mayoria de estados, a tener la mayoria de votos, ya que un estado pequeño tiene la misma relevancia e imoprtancia que un estado enorme.

Emmanuel Guerra Sánchez

student•

¿Qué criterio se debe utilizar a la hora de partir mi población en sub grupos? 🤔

Renzo Flores Ugarte

student•

en esta pagina te habla sobre las tecnicas de muestreo https://scielo.conicyt.cl/scielo.php?script=sci_arttext&pid=S0717-95022017000100037

jean pierre gabriel nieto acosta

student•

Si buscas una respuesta con fórmulas para sacar la cantidad idonea https://platzi.com/tutoriales/1835-programacion-estocastica/5922-calcular-tamano-de-muestras/

Mateo Echavarria

student•

En la vida cotidiana, el de los edificios me pareció interesante, de que forma seria "mejor" sacar esos datos?

Carli Code

teacher•

Tal vez nos serviría para ver el porcentaje de edificios residenciales VS el porcentaje de edificios comerciales según la zona de una ciudad, Haríamos muestreo estratificado para sacar la muestra por zonas.

Sergio Rubiano

student•

David, cuando dividimos un data Set en pequeñas muestras, ¿ cual es la dimensión de esas muestras ? por ejemplo si mi data set tiene 50.000 registros, hay alguna manera de sacar la dimensión de cada muestra, o es la que yo considere que seria la adecuada.

Ariel Sharpe

student•

depende, si quieres que la media sea mas precisa tienes que tomar barias muestras pero si quieres una desviación estándar mas pequeñas necesitas usar muestras mas grandes. un dataset de 50 es bastante pequeño, y el tamaño de las muestras lo eliges tu dependiendo de que te convenga.Puedes corroborar esto haciendo un dataset aleatorio y calculando la media del mismo y de un sub conjunto de datos.

Israel Sornoza Merino

student•

Si, y la diferencia es que tomar datos "reales" de TODA una población cuesta mucho dinero, ahí es donde tomar muestras pequeñas pero significativas ahorra un montón de recursos

Omar Daniel Centeno

student•

Les comparto un mapa de los diferentes tipos de muestreos:

Los muestreos aleatorios simples que estamos utilizando son aquellos en donde se puede calcular la probabilidad de extracción de cualquiera de las muestras posibles. Es el tipo de muestreo más aconsejable.

Sin reposición de elementos: Cada elemento extraído se descarta para la subsiguiente extracción. Ejemplo: Objetos cuya vida media solo se pueda evaluar una vez como un foco(bombilla).
Con reposición de elementos:Las observaciones se realizan con remplazo de los individuos, de forma que la población es idéntica en todas las extracciones.En poblaciones muy grandes, la probabilidad de repetir una extracción es tan pequeña que el muestreo puede considerarse con reposición aunque, realmente, no lo sea.
Con reposición múltiple: En poblaciones muy grandes, la probabilidad de repetir una extracción es tan pequeña que el muestreo puede considerarse con reposición.

Sergio Luis Arango Montes

student•

En este link pueden encontrar una descripción bastante buena que sirve de complemento a lo visto en clase: https://bookdown.org/aquintela/EBE/muestreo-aleatorio-simple.html

Josue Noha Valdivia

student•

Muestreo A veces trabajar con toda la población puede ser contraproducente e incluso imposible. Por suerte descubrimos que las muestras tomadas aleatoriamente tienden a mostrar las mismas propiedades que la población. Muestreo Probabilístico:

Muestreo aleatorio, cualquier miembro de la población tiene la misma probabilidad de ser elegido. Este método es ideal para poblaciones homogéneas. En caso de tener una población mas estratificada la información obtenida estará incompleta.
Muestreo Estratificado, Dividimos la población en subgrupos relevantes, incrementando así la información obtenida e incrementando la probabilidad de tener una muestra representativa a la población

Daniel Reyes Barrera

student•

Las Muestras tienden a tener las mismas propiedades que la poblacion total, entre mas muestras, la media es mas precisa, estre mas grande sea la muestra, la desviacion estandar es mas pequeña.

El Muestreo aleatorio consiste en que cada muestra de la poblacion tiene la misma probabilidad de ser escogidos. El Muestreo estratificado consiste en hacer pequeños grupos de muestras de acuerto con lo que se requiere. si no es asi, el resultado es sesgado.

Luis Fernando Pedroza Taborda

student•

Un subgrupo para el muestreo estratificado aplicandolo en la Facturación Electronica seria los tipos de persona: empresas que sean personas naturales o personas juridicas

jorge rando hernandez

student•

En tiendo el concepto pero no entiendo como se ejecuta el proceso de estratificación sobre un poblacion

David Gonzalez

student•

Hola jorge voy a intentar ayudarte me dices si entendiste bien:

1° Tienes una hipótesis 2° Tienes una población de estudio 3° Dentro de la población hay unidades experimentales

de las cuales tienes que buscar las variables que sean relevantes para tu inferencia estadística. 4. Si en las variables de una unidad experimental observas que se pueden dividir en sub categorias que te ayudaran a sacar una mejor conclusión :

entonces decides que tomaras muestreos estratificados según las variables de tu población; en el ejemplo se sacaron muestras de cada carrera (pueden ser 5 o X estudiantes por carrera, tiene que ser significativa la muestra por carrera)... Y así puedes tener un marco para dividir las muestras de la población, a partir de las variables de una unidad experimental.

David Gonzalez

student•

Mira te recomiendo este libro para que lo lleves a la par de este curso y así llevar tu aprendizaje a otro nivel ;) https://www.fcfm.buap.mx/jzacarias/cursos/estad2/libros/book5e2.pdf

Cristian Orlando Rincon Bonilla

student•

muestra aleatoria?

Sergio Rubiano

student•

Tengo la misma duda

David Martínez Jiménez

student•

La idea de sacar una muestra es que los datos de dicha muestra se obtenga de la forma más aleatoria posible, si no caemos en un sesgo y esto puede afectar nuestros resultados

santiago lagos

student•

Por lo general es muy raro cuando recolectamos informacion que la dicha data tenga un comportamiento igual a si que usamos el muestreo estrateficado y una vez segmentados por diferentes criterios, realizamos un muestreo aleatorio ya que la sub-poblacion contiene un comportamiento similar, a si que no es cuestion de elegir solo una o la otra en nuestro data pipeline se base en fusionarlas segun nuestras necesidades.

Paola Alapizco

student•

Mis apuntes de la clase :pencil: El muestreo (sampling) es el proceso de obtención aleatoria de una “pequeña” cantidad de datos pertenecientes a una población total. . El uso de muestras es fundamental, especialmente cuando no tenemos los recursos en cómputo o el acceso a la población completa, una caracteristica importante de una muestra aleatoria, es que tiende a poseer las mismas características de la población de donde fue extraída (siempre y cuando la obtención haya sido aleatoria), dicha característica nos permite realizar conclusiones concretas y validas aun sin tener acceso a su población total. . Existen dos tipos de muestreos, el probabilístico y el no probabilístico (solo nos enfocaremos en el primero) .

Probabilistico

Para identificar que tipo de muestreo utilizar, debemos tener en cuentra los siguientes puntos:

Aleatorio: Cuando los datos tienen características similares.
Estratificado: Cuando hay subgrupos dentro de la población.

💡 Un punto clave a tener en cuenta sobre el muestreo es que a mayor cantidad de muestras, menor será su desviación estándar (σ) y los resultados de nuestros análisis tenderán a ser más precisos.

Muestreo Estadístico: Aleatorio y Estratificado

Introducción

Programación Dinámica y Estocástica: Optimización y Modelado de Datos

Programación Dinámica

Programación Dinámica: Optimización de Problemas con Memorización

Optimización de Algoritmos con Programación Dinámica en Python

Caminos Aleatorios

Simulaciones con Caminos Aleatorios en Programación

Camino Aleatorio en Programación Orientada a Objetos

Algoritmo de Caminata Aleatoria en Python: Clase Borracho

Simulación de Caminata Aleatoria con Python

Visualización de Caminatas Aleatorias con Python y Bokeh

Programas Estocásticos

Programación Estocástica: Aplicaciones y Ejemplos Prácticos

Cálculo de Probabilidades y Simulación de Montecarlo

Simulaciones de Probabilidades con Dados en Python

Inferencia Estadística: Conceptos y Aplicaciones Prácticas

Cálculo de la Media Aritmética en Python paso a paso

Media, Varianza y Desviación Estándar en Estadística

Distribución Normal: Propiedades y Aplicaciones Estadísticas

Simulaciones de Montecarlo

Simulaciones de Montecarlo: Historia y Aplicaciones Prácticas

Simulación de Montecarlo para Probabilidades en Juegos de Cartas

Simulaciones de Montecarlo para Aproximar Pi

Estimación de Pi mediante Monte Carlo y Simulación Estadística

Muestreo e Intervalos de Confianza