Contenido del curso

Fundamentos de estadística inferencial

Estadísticos y cálculos

Pruebas de hipótesis y validación

Cierre del curso

22
Estadística aplicada a ciencia de datos
01:28 min

Muestreo estratificado con Python y pandas

Resumen

El muestreo estratificado en Python te permite crear submuestras representativas cuando tu base de datos no refleja las proporciones reales de la población. Si trabajas con datos de turismo, comercio o cualquier dataset con categorías mezcladas, esta técnica te ayuda a corregir desbalances y obtener resultados confiables.

La idea central es simple: divides los datos en grupos homogéneos y exclusivos (los estratos) y luego extraes una muestra aleatoria respetando la proporción deseada de cada grupo. Vamos a verlo paso a paso usando un dataset de establecimientos económicos de la Ciudad de México.

¿Cómo se crea la variable de estratificación en pandas?

Antes de muestrear necesitas definir el criterio que separa tus estratos. En este ejemplo combinamos dos columnas: delegacion (ubicación) y tipo (hotel, museo, mercado, etc.).

python econdata['estratificado'] = econdata['delegacion'] + ',' + econdata['tipo'] econdata['estratificado'].value_counts() / len(econdata)

El value_counts dividido entre la longitud total te devuelve la proporción real de cada estrato. En el dataset original, los hoteles en Cuauhtemoc representan el 64.34%, seguidos de museos y hoteles en Venustiano Carranza.

¿Qué es el muestreo estratificado? Es una técnica que divide la población en grupos homogéneos y exclusivos llamados estratos, y luego toma una muestra aleatoria de cada uno respetando proporciones definidas.

Un detalle importante: la fuente original escribe Cuauhtemoc sin la h. No corrijas el dato en el código si quieres que coincida con la base; reserva la corrección para tus conclusiones finales [01:55].

¿Cómo defines las proporciones deseadas para tu muestra?

Aquí está el ajuste clave. Aunque la base muestre 64% de hoteles en Cuauhtemoc, tus datos externos pueden indicar que la proporción real es otra. Para este ejercicio definimos:

Hoteles en Cuauhtemoc: 50%.
Museos en Cuauhtémoc: 20%.
Hoteles en Venustiano Carranza: 10%.
Mercados en Cuauhtemoc: 10%.
Mercados en Venustiano Carranza: 10%.

La suma debe dar siempre 100%. Si te equivocas en un decimal, la función fallará o devolverá un tamaño de muestra incorrecto [03:30].

¿Cómo construir la función de muestreo estratificado?

El núcleo del proceso es una función que itera sobre cada estrato, calcula cuántas filas le corresponden y extrae la muestra aleatoria respetando ese tamaño.

python def data_estratificada(econdata, strat_columnas, strat_valores, strat_proporcion, random_state=None): df_estratificado = pd.DataFrame(columns=econdata.columns) pos = -1 for i in range(len(strat_valores)): if pos == len(strat_valores) - 1: ratio_length = len(econdata) - len(df_estratificado) else: ratio_length = int(len(econdata) * strat_proporcion[i]) df_filtrado = econdata[econdata[strat_columnas] == strat_valores[i]] df_temp = df_filtrado.sample(replace=True, n=ratio_length, random_state=random_state) df_estratificado = pd.concat([df_estratificado, df_temp]) return df_estratificado

La lógica detrás es la siguiente: si estás en la última iteración, la función calcula las filas restantes para que el total cuadre exactamente con el tamaño original. En las iteraciones previas, multiplica la longitud total por la proporción deseada y convierte el resultado a entero con int() [05:40].

¿Para qué sirve pd.concat en este flujo? Une cada submuestra estratificada en un solo DataFrame final. Sin esta concatenación tendrías fragmentos sueltos y no una muestra unificada.

¿Cómo invocas la función con tus valores reales?

Una vez definida la función, le pasas los argumentos: la base, la columna estratificada, la lista de valores únicos y la proporción deseada.

python strat_valores = ['Cuauhtemoc,Hotel', 'Cuauhtémoc,Museo', 'Venustiano Carranza,Hotel', 'Cuauhtemoc,Mercado', 'Venustiano Carranza,Mercado'] strat_proporcion = [0.5, 0.2, 0.1, 0.1, 0.1]

df_estratificado = data_estratificada(econdata, 'estratificado', strat_valores, strat_proporcion, random_state=42)

El parámetro random_state=42 te permite reproducir exactamente la misma muestra cada vez que corras el código. Si lo omites, cada ejecución generará una muestra diferente.

¿Por qué falla el código por un espacio extra?

Al ejecutar la función por primera vez puede aparecer un error que no es de lógica, sino de formato. Cuando creas la columna estratificada con delegacion + ',' + tipo, los valores quedan unidos sin espacio: Cuauhtemoc,Hotel.

Si al definir strat_valores escribes 'Cuauhtemoc, Hotel' con espacio después de la coma, Python no encontrará coincidencias y devolverá un DataFrame vacío o un error en sample. La solución es que el separador en la concatenación y en la lista de valores sea idéntico carácter por carácter [09:40].

¿Cómo evitas errores de coincidencia en strings de pandas? Asegúrate de que la cadena que generas al concatenar columnas tenga exactamente el mismo formato (espacios, tildes, mayúsculas) que la cadena con la que filtras después.

¿Qué resultado entrega el muestreo estratificado bien ejecutado?

Después de corregir el espacio, la función devuelve una muestra con 42 valores distribuidos según las proporciones que definiste: 50% hoteles en Cuauhtemoc, 20% museos, y tres bloques de 10% para los estratos restantes.

Las filas seleccionadas aparecen con índices salteados (142, 27, 168, etc.) porque el muestreo dentro de cada estrato sigue siendo aleatorio. Lo que cambia respecto a un muestreo aleatorio simple es que ahora cada subgrupo tiene representación garantizada en la proporción que tú decidiste.

No necesitas memorizar la función línea por línea. Lo importante es que entiendas la estructura: variable de estratificación, definición de proporciones, función con iteración condicional y concatenación final. Con esa lógica puedes adaptarla a cualquier dataset.

Practica con otras fuentes del gobierno de México y comparte en los comentarios cómo te fue con el muestreo estratificado, sistemático y aleatorio simple.

Comentarios

Mariano Orozco Garcia

student•

Muestreo Estratificado en Python

Yo lo entendí de esta forma:

Separa los datos por categorías (valores estratificados).
Define las categorías que quieres en tú muestro y su proporción.
Toma tantos datos como necesites de cada categoría para llegar a la proporción deseada.
Junta esas muestras de cada categoría para tu muestreo final.

Explicación del ejemplo

Se crean dichas categorías a partir de la delegación y el tipo, esta información se almacena en la columna estratificado:

econdata['estratificado'] = econdata['delegacion'] + "," + econdata['tipo']
(econdata['estratificado'].value_counts() / len(econdata)).sort_values(ascending=False)

Con esto ya tenemos los datos por categorías (paso 1) y podemos ver su proporción real:

Para nuestro muestreo definimos las siguientes proporciones (paso 2):

Cuautémoc, Hotel: 0.5,
Cuautémoc, Museo: 0.2,
Venustiano Carranza, Hotel: 0.1,
Cuauhtémoc, Mercado: 0.1,
Venustiano Carranza, Mercado: 0.1

Para crear dicha proporción a partir de los datos originales se utiliza la siguiente función que encuentra el número de muestras necesario de cada categoría (paso 3), hace un sampleo simple dentro de dicha categoria y luego junta esas muestras (paso 4):

def data_estratificada(econdata, nombres_columnas_estrat, valores_estrat, prop_estrat, random_state=None):

  df_estrat = pd.DataFrame(columns = econdata.columns) 

  pos = -1
  for i in range(len(valores_estrat)):
    pos += 1
    if pos == len(valores_estrat) - 1: 
      ratio_len = len(econdata) - len(df_estrat)
    else:
      ratio_len = int(len(econdata) * prop_estrat[i])

    df_filtrado = econdata[econdata[nombres_columnas_estrat] ==valores_estrat[i]]
    df_temp = df_filtrado.sample(replace=True, n=ratio_len, random_state=random_state)

    df_estrat = pd.concat([df_estrat, df_temp]) 
  return df_estrat

Utiliza este código para crear el sampleo:

valores_estrat = ['Cuautémoc,Hotel', 'Cuautémoc,Museo', 'Venustiano Carranza,Hotel', 'Cuauhtémoc,Mercado','Venustiano Carranza,Mercado']
prop_estrat = [0.5, 0.2, 0.1, 0.1, 0.1]
df_estrat = data_estratificada(econdata, 'estratificado', valores_estrat, prop_estrat, random_state=42)
df_estrat

Adicionalmente, puedes usar este código para ver la proporción final de tus datos:

(df_estrat['estratificado'].value_counts()/len(df_estrat)).sort_values(ascending=False)

Si todo salió bien, deberías ver algo similar a esto:

Con esto ya tienes una muestra en las proporciones que deseábamos en un principio.

Rafael Rivera

student•

Gracias por el aporte.

Jefferson Cortés Gutiérrez

student•

Gracias.

Andres Gutiérrez Castillo

student•

Para entender este muestreo vamos a analizar que sucede cuando apliquemos un muestreo aleatorio simple vs un estratificado a los registros de Mercados que se encuentran en la delegacion Venustiano Carranza al cual me referire como el grupo "MVC" . Escogi el grupo MVS dado que de los 230 registros que tiene nuestro dataset (poblacion) solo el 4.7% (11 registros)son mercados en en la delegacion venustiano carranza, por lo cual es muy sensible a que estos registros desaparezcan al hacer un muestreo aleatorio. en cambio al hacer un estratificado podemos asignar una fraccion a recolectar de cada grupo y asi lograr que el grupo MVC no desaparesca ya que si queremos hacer un muestreo de 40 registros (n = 40) el 4.78% de las muestras seran del grupo MVC osea 1.8 registros que redondeando serian 2. en resumen al hacer un muestro n =40 la probabilidad de que se seleccione un registro del grupo MVC usando un muestreo aleatorio simple es muy bajo siendo probable que no se recoja ningun registro MVC al aplicar el muestreo, pero si en cambio usamos un muestreo estratificado recogeremos al menos 2 registros del grupo. pd: sin ayuda de la comunidad no hubiera entendido la clase, gracias !

Platzi Team

student•

Literal sin ayuda de la comunidad no hubiera entendido la clase, en verdad me quedo con el concepto, gracias!

Alejandro Collado Valverde

student•

Me parece que se le complico mucho a la profe el explicar este tipo de muestreo, te lo explico de forma sencilla:

Por ejemplo, si tiene una población de 50 000 personas en una ciudad y desea encuestarlas, probablemente no pueda encuestarlas a todas. Podría encuestar a 100 y extrapolar los resultados. Pero querrá asegurarse de que el grupo de muestra (esas 100 personas que encuesta) realmente represente a la población de la ciudad en su conjunto. Entonces, si el 20 % de la ciudad son asiáticos, querrás asegurarte de que el 20 % del grupo de muestra (20 personas) también sean asiáticos.

Esto, en esencia, es un muestreo estratificado: garantizar que cada subgrupo (o 'estrato') en su muestra esté representado en la porción correcta de toda la población.

pd: el codigo de la profe NO devuelve dicha muestra, pueden verificar esto en el colab al ver que econdata tiene 230 registros y df_estrat tambien tiene 230 registros

Luis Enrique Montes Gonzalez

student•

ohhh Gracias, con este ejemplo si entendí el concepto

Eliana Ossio

student•

Cierto, yo copié el código y me sale 230 registros, que es la población ...., entonces no es la muestra

Jose Elier Fajardo

student•

Creo que esta es una alternativa mas clara y menos larga:

data['strat'] = data['delegacion'] + " - " + data['tipo']

def stratified_sample(data, category, size):
  strat_values = data[category].unique()
  strat_props = (data[category].value_counts() / len(data))

  strat_sample = pd.DataFrame(columns = data.columns)

  for value in strat_values:
    strat_sample = pd.concat([strat_sample, data[(data[category] == value)].sample(n = round(strat_props[value]*size)) ])
  
  return strat_sample

strat_sample = stratified_sample(data, 'strat', 40)

Pedro Alvarado Garcia

student•

No había entendido bien el muestreo estratificado, pero al hacer el código ya lo entendí mejor.

Básicamente es muy útil cuando quieres indicar qué proporción de datos de una misma categoría quieres obtener.
Obtener el mismo muestreo (con las mismas condiciones) gracias al random_state.

Rubén Cuello

student•

No me está quedando del todo claro que papel juega el random_state :confused:

Anthony Campos

student•

Curiosamente vemos las mismas muestras de Silvia en 14:08 ( filas 164, 142, etc). Esto es debido a que hemos genrado una reproducibilidad al agregar cualquier entero a random_state. Esto generá una muestra seuda aleatoria, pues está basado en un entero 42. Esto es muy útil para que todo el equipo pueda ver la misma muestra. Puede ser útil en la etapa de testing. (Asimismo, pudo haberse usado culaquier otro entero). Ver:
https://stackoverflow.com/questions/45211624/what-exactly-does-the-pandas-random-state-do
https://stackoverflow.com/questions/28064634/random-state-pseudo-random-number-in-scikit-learn

Edwin Uldarico Hernandez Osorio

student•

Para que la muestra aleatoria del conjunto de datos pueda ser obtenida de manera exacta por otra persona

La aleatoriedad en si no existe, si la semilla es la misma se va a obtener el mismo resultado

Matías Collado

student•

Muy mal explicado el código

Edwin Uldarico Hernandez Osorio

student•

Me parece muy extraño pedir que la muestra de 230 elementos cuyo 10% es 23, tenga una representación de 'Venustiano Carranza,Mercado' del 10% del DF siendo que solo aparecen 11 elementos con dicha configuración

¿Se están duplicando muestras para cumplir con el porcentaje esperado del DF ?

Mariano Orozco Garcia

student•

Al parecer si:

No sé si este sea el comportamiento esperado, pero me pareció raro a mí también.

Mariano Orozco Garcia

student•

Esto pasa por el parámetro replace=True que admite volver a tomar muestras de la misma fila.

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sample.html

Supongo que lo hace porque quiere un tamaño del dataframe igual que el original.

Intenté crear una función que no repitiera muestras, sin embargo, caí en cuenta que de no hacerlo muchas configuraciones no son posibles, ya que faltarían datos.

Antonio Demarco Bonino

student•

Otro curso que se lleva todos los aplausos.

Nicolas Acosta

student•

que enredo como Silvia explico este tema, para que hacer las cosas fáciles si las podemos hacer imposibles de entender , me tocó ver un video de youtube para entender "carita triste"

Jeison Wu Mitre

student•

Alguien me puede explicar la funcion, no entiendo como funciona y genera los datos y hace la muestra.

Oriol Fernando Palacios Durand

student•

¿Entiendo el código pero cuál es el punto de hacer un muestreo de 230 elementos si la población es de 230 elementos?

Incluso revisando sin mucho esfuerzo df_strat se encuentran datos repetidos debido a cómo se imponen proporciones arbitrarias

Jhon Freddy Tavera Blandon

student•

Aquí te doy un ejemplo de cómo realizar el muestreo estratificado en Python con la librería pandas:

Copiar código import pandas as pd

Crear un dataframe

data = {'Género': ['Hombre', 'Mujer', 'Hombre', 'Mujer', 'Hombre', 'Mujer'],
        'Edad': [22, 38, 27, 35, 18, 45],
        'Ingresos': [50000, 100000, 75000, 120000, 90000, 80000]}
df = pd.DataFrame(data)

Crear estratos

strat_df = df.groupby(
strat_df =
'Género').apply(lambda x: x.sample(frac=0.3))

Muestra estratificada

print(strat_df)

En este ejemplo, se crea un marco de datos con tres columnas: Género, Edad e Ingresos. Luego, se agrupa el dataframe por la columna "Género" y se aplica una función de prueba de forma aleatoria a cada estrato con una fracción de 0.3. El resultado es una muestra estratificada donde el 30% de los elementos de cada estrato son seleccionados al azar.

La librería numpy también tiene la función 'random.choice' que permite elegir elementos al azar de una lista o una matriz de una manera similar.

Pablo José Ramos Wilkins

student•

Me pareció un poco complicado el código de la profesora, por lo que me dí la tarea de escribir mi propio código:

def stratified_sampling(df, col_name, size, random_state=0):
    ratio_df = df[col_name].value_counts() / len(df) 
    
    strat_idx = []
    for val in ratio_df.index:
        n_val = int(ratio_df[val] * len(df)) 
        size_per_val = round(n_val * size)
        strat = df[df[col_name]==val].sample(size_per_val, random_state=random_state)
        strat_idx.append(strat.index)
 
    strat_idx = [i for sublist in strat_idx for i in sublist]

    return df.iloc[strat_idx]

Platzi Team

student•

¡Gracias! now is Crystal, Solo tuve que añadir un enumerate() por que se quedaba aca round(n_val * size[idx])

Jose Potes

student•

Hola, si quedaste como, que, que rayos? que signfica esto? bueno, tranquil@, yo tambien sentí lo mismo y tuve que tomarme mi tiempo para digerirlo. Cosas que debes de tener en cuenta.

Es una técnica: Esto significa que pueden haber otras formas de extraer informacion y evaluarlas. posiblemente esta es la mas popular. La cual busca que cada subgrupo(estrato, categoria) pueda representar la poblacion. ahora, lo que se busca es tener una vision amplia de cual es la distribucion real de los datos(sacando solo unos valores especificos) para poder concluir su distribucion.
y luego, como resultado tener la muestra final, en esta muestra final, lo que se busca entonces es que allí esten representados los datos o subgrupos segun su proporcion.

Edison Santos

student•

Le hice unos pequeños cambio al código, nos permite colocar el tamaño de la muestra.

def mi_estratificado (datos,columna,size,valores_estrat ,random_state = None):
  df_estrat = pd.DataFrame(columns=datos.columns)
  datos_en_col = datos[columna].unique()
  con = 0
  for i in datos_en_col :
    df_filtrado = datos[datos[columna] == datos_en_col[con]]
    df_temp = df_filtrado.sample(replace=True , n= int(valores_estrat[con] *size) ,random_state= random_state)
    df_estrat = pd.concat([df_estrat,df_temp])
    con += 1
  return df_estrat
### Para Probarlo
val_estrat = [0.5,0.2,0.1,0.1,0.1]
df_p = mi_estratificado(econodata,'estratificado',150,val_estrat, random_state=4)
print((df_p['estratificado'].value_counts()/len(df_p)).sort_values(ascending=False))
df_p

Nixon Rolando García Ramírez

student•

Parce muchas gracias, me ayudaste mucho a terminar de entender esta clase.

Jeinfferson Bernal G

student•

Wow.. Excelente forma de crear la funcion. Simple, entendible y facil de seguir. Mil gracias

Dionicio Perez

student•

Explicación de la función data_estratificada

Le agreugue el parametro tamaño de muestra para hacer mas entendible la función

Definimos la función con sus variables

def data_estratificad(econdata,nombres_columnas_estrat,
                      valores_estrat, prop_estrat, 
                      tamano_muestra,random_state=None):
    '''Función que dado un dataFrame toma una muestra estratificada
    
    Argumentos:
    econdata {DataFrame}    -- DataFrame del cual tomaremos la muestra
    nombres_columnas {list} -- Valores a partir de los cuales se va a estratificar el DataFrame
    valores_estrat {list}   -- Valores del porcentaje de la muestra que tomara cada nombre de la lista anterior
    tamano_muestra {int}    -- Cantidad de datos que tendra la muestra
    random_state {int}      -- Función que nos permite elegir la semilla de los números pseudo-aleatorios
    '''
    
    'Creamos un DataFrame vacio con las mismas columnas donde guardaremos los datos'
    df_estrat = pd.DataFrame(columns= econdata.columns)
    
    'Contador auxiliar para ir pasando la lista'
    pos = -1
    
    'Ciclo for el cual va cambiando los valores donde seleccionamos la cantidad de datos por cada nombre'
    'Función range(len(valores_estrat)) nos indica que iremos desde 0 hasta la cantidad de entradas que tenga la lista valores_estrat'
    'esto para recorrer toda la lista'
    for i in range(len(valores_estrat)):
        
        'sumamos 1 a pos'
        pos +=1
        
        'Ciclo if el cual nos ayudara a saber la cantidad de datos que vamos a extraer de cada clasificador'
        'si posicion es igual a ultima:'
        if pos == len(valores_estrat)-1:
            'la cantidad de valores que obtendremos sera el tamaño de la muestra menos los que ya tenemos'
            ratio_len = tamano_muestra - len(df_estrat)
            'En caso de no sea la ultima posición'
            
        else:
            'la cantidad de valores que tendremos para este clasificador se obtendra de la siguente forma'
            'multiplicamos el tamaño de la muestra por la proporcion que corresponde a ese clasificador'
            'como el valor puede no ser entero, lo convertimos en entero'
            ratio_len = int(tamano_muestra*prop_estrat[i])
        
        'en el DataFrame df_filtrado filtramos los valores de la columna que incluyan al clasificador'
        df_filtrado = econdata[econdata[nombres_columnas_estrat]==valores_estrat[i]]
        
        'obtenemos una muestra del tamano obtenido en ratio_len y la agregamos al dataFrame df_temp'
        df_temp = df_filtrado.sample(replace=True, n=ratio_len, random_state=random_state)
        
        'Concatenamos la información al DataFrame df_estrat, de tal forma que se guardan los valores de todos los clasificadores'
        df_estrat = pd.concat([df_estrat,df_temp])
    return df_estrat

Jorge Antonio Quiroz Serrano

student•

No entendí nada :/

Javier Ladino

student•

Estoy confundido con la parte del minuto 3:12 donde Silvia dice que Ya tenemos nuestros datos pero recibimos una información diferente. Si Ya tenemos un muestreo de 0.6 para "Cuautémoc, Hotel", por qué le asignamos un 0.5 ahora ? y así para los otros 4 resultados de porcentajes. Mi duda es que si los datos nos arrojan un 60% porque le pasamos después un 50% ? Gracias!!

Karen Tatiana Rodríguez Vanegas

student•

Hay una imprecisión: El parámetro random_state (en este caso 42) la instructora indica que hace que las filas se tomen de 42 en 42 lo cual no tiene nada que ver con su verdadero comportamiento (pueden verificar que las filas no tienen ese intervalo). Lo que hace es servir de semilla para el generador de números aleatorios y es un parámetro opcional en la función sample.

Luis David Tolentino Barrera

student•

Asi es. Y esa semilla te ayuda a repetir la muestra en caso de buscar un sample igual

Ada Nicol Lloret Rey

student•

Así es, buen aporte

Fundamentos de estadística inferencial

Estadística descriptiva vs inferencial en datos

Componentes principales de la estadística

Qué es la distribución normal y por qué importa

Muestreo aleatorio, sistemático y teorema central

Muestreo aleatorio y sistemático en Python