Muestreo Estratificado: Creación y Aplicación en Python

Clase 6 de 22 • Curso de Estadística Inferencial para Data Science e Inteligencia Artificial

Contenido del curso

Fundamentos de estadística inferencial

Estadísticos y cálculos

Pruebas de hipótesis y validación

Cierre del curso

22
Estadística para Ciencia de Datos y Machine Learning
01:28 min

Tomar examen

Resumen

¿Cómo implementar muestreo estratificado en Python?

El muestreo estratificado es una herramienta poderosa en el análisis de datos que garantiza que todas las subpoblaciones relevantes sean representadas adecuadamente. Este enfoque se basa en dividir el conjunto de datos en grupos homogéneos, llamados estratos, y luego tomar muestras aleatorias de cada uno de estos. En este caso, vamos a aprender cómo realizarlo utilizando Python y algunas de sus populares librerías.

Configuración inicial y creación de variables

Primero, es fundamental crear una nueva variable de estratificación que nos permitirá dividir nuestros datos en los diferentes grupos homogéneos. En este ejemplo, partimos de una base de datos llamada EconData y usamos las columnas relacionadas con la ubicación y el tipo de establecimiento para crear esta variable.

EconData['estratificado'] = EconData['delegacion'] + ',' + EconData['tipo']

El método utilizado es la concatenación de las columnas delegacion y tipo, separadas por una coma. Notarás que un pequeño error, como el uso incorrecto de espacios o caracteres, puede causar problemas en la ejecución del código.

Recuento de apariciones y ordenación de datos

Para verificar cómo se distribuyen nuestras categorías estratificadas, se procede a contabilizar y ordenar estas proporciones.

proporciones_estratificadas = EconData['estratificado'].value_counts(normalize=True).sort_values(ascending=False)

Esto te permitirá observar los segmentos predominantes de tu data y establecer la proporción deseada para cada estrato.

Definición de la función de muestreo estratificado

La pieza clave para implementar este método es crear una función que ajuste la selección de muestras basándonos en las proporciones deseadas. Esta función se encargará de:

Iterar sobre cada estrato.
Calcular el número de muestras necesarias basadas en las proporciones definidas.
Concatenar cada subconjunto en un DataFrame final.

import pandas as pd

def data_estratificada(df, strat, proporciones, random_state=None):
    # DataFrame resultante
    df_estratificado = pd.DataFrame(columns=df.columns)
    
    # Iterar sobre cada estrato
    for valor_strat in strat:
        # Filtrar por el valor del estrato
        df_filtrado = df[df['estratificado'] == valor_strat]
        
        # Definir el tamaño de la muestra
        num_samples = int(proporciones[valor_strat] * len(df))
        if len(df_filtrado) < num_samples:
            num_samples = len(df_filtrado)
        
        # Extraer la muestra
        df_sample = df_filtrado.sample(n=num_samples, random_state=random_state)
        
        # Concatenar el resultado
        df_estratificado = pd.concat([df_estratificado, df_sample], ignore_index=True)
    
    return df_estratificado

Ejecución de la función y visualización de los resultados

Finalmente, aplicamos la función creada para generar nuestra muestra estratificada. Es importante asegurarse de que las proporciones establecidas sumen el 100% para obtener resultados precisos.

# Definición de los valores y proporciones
valores_strat = [
    "Cuauhtemoc,hotel", 
    "Cuauhtemoc,museo", 
    "Venustiano Carranza,hotel", 
    "Cuauhtemoc,mercado", 
    "Venustiano Carranza,mercado"
]

proporciones = {
    "Cuauhtemoc,hotel": 0.5,
    "Cuauhtemoc,museo": 0.2,
    "Venustiano Carranza,hotel": 0.1,
    "Cuauhtemoc,mercado": 0.1,
    "Venustiano Carranza,mercado": 0.1
}

# Generación de la muestra
muestra_estratificada = data_estratificada(EconData, valores_strat, proporciones, random_state=42)

Este proceso es flexible y se puede adaptar a diferentes conjuntos de datos y contextos. Además, con cada aplicación, te familiarizarás más con el flujo de un análisis estratificado, lo que te permitirá realizar trabajos más precisos y representativos.

Consejos prácticos

Verifica tus datos: Antes de empezar con el muestreo, asegúrate de entender la heterogeneidad y la distribución del conjunto de datos.
Prueba diferentes escenarios: La estratificación puede variar dependiendo de los criterios seleccionados. Es crucial revisar y ajustar las proporciones para reflejar cambios en el patrón.
Documenta cada paso: Una buena práctica es realizar anotaciones sobre las decisiones tomadas en cada fase, lo que beneficiará revisiones futuras y colaboraciones.

Es importante reconocer que dominar el muestreo estratificado lleva tiempo y práctica, pero es muy valioso para garantizar una representación más precisa de diversas poblaciones. ¡Anímate a experimentar con tus conjuntos de datos y continúa fortaleciendo tus habilidades en análisis de datos!

Comentarios

Mariano Orozco Garcia

student•

Muestreo Estratificado en Python

Yo lo entendí de esta forma:

Separa los datos por categorías (valores estratificados).
Define las categorías que quieres en tú muestro y su proporción.
Toma tantos datos como necesites de cada categoría para llegar a la proporción deseada.
Junta esas muestras de cada categoría para tu muestreo final.

Explicación del ejemplo

Se crean dichas categorías a partir de la delegación y el tipo, esta información se almacena en la columna estratificado:

econdata['estratificado'] = econdata['delegacion'] + "," + econdata['tipo']
(econdata['estratificado'].value_counts() / len(econdata)).sort_values(ascending=False)

Con esto ya tenemos los datos por categorías (paso 1) y podemos ver su proporción real:

Para nuestro muestreo definimos las siguientes proporciones (paso 2):

Cuautémoc, Hotel: 0.5,
Cuautémoc, Museo: 0.2,
Venustiano Carranza, Hotel: 0.1,
Cuauhtémoc, Mercado: 0.1,
Venustiano Carranza, Mercado: 0.1

Para crear dicha proporción a partir de los datos originales se utiliza la siguiente función que encuentra el número de muestras necesario de cada categoría (paso 3), hace un sampleo simple dentro de dicha categoria y luego junta esas muestras (paso 4):

def data_estratificada(econdata, nombres_columnas_estrat, valores_estrat, prop_estrat, random_state=None):

  df_estrat = pd.DataFrame(columns = econdata.columns) 

  pos = -1
  for i in range(len(valores_estrat)):
    pos += 1
    if pos == len(valores_estrat) - 1: 
      ratio_len = len(econdata) - len(df_estrat)
    else:
      ratio_len = int(len(econdata) * prop_estrat[i])

    df_filtrado = econdata[econdata[nombres_columnas_estrat] ==valores_estrat[i]]
    df_temp = df_filtrado.sample(replace=True, n=ratio_len, random_state=random_state)

    df_estrat = pd.concat([df_estrat, df_temp]) 
  return df_estrat

Utiliza este código para crear el sampleo:

valores_estrat = ['Cuautémoc,Hotel', 'Cuautémoc,Museo', 'Venustiano Carranza,Hotel', 'Cuauhtémoc,Mercado','Venustiano Carranza,Mercado']
prop_estrat = [0.5, 0.2, 0.1, 0.1, 0.1]
df_estrat = data_estratificada(econdata, 'estratificado', valores_estrat, prop_estrat, random_state=42)
df_estrat

Adicionalmente, puedes usar este código para ver la proporción final de tus datos:

(df_estrat['estratificado'].value_counts()/len(df_estrat)).sort_values(ascending=False)

Si todo salió bien, deberías ver algo similar a esto:

Con esto ya tienes una muestra en las proporciones que deseábamos en un principio.

Rafael Rivera

student•

Gracias por el aporte.

Jefferson Cortés Gutiérrez

student•

Gracias.

Andres Gutiérrez Castillo

student•

Para entender este muestreo vamos a analizar que sucede cuando apliquemos un muestreo aleatorio simple vs un estratificado a los registros de Mercados que se encuentran en la delegacion Venustiano Carranza al cual me referire como el grupo "MVC" . Escogi el grupo MVS dado que de los 230 registros que tiene nuestro dataset (poblacion) solo el 4.7% (11 registros)son mercados en en la delegacion venustiano carranza, por lo cual es muy sensible a que estos registros desaparezcan al hacer un muestreo aleatorio. en cambio al hacer un estratificado podemos asignar una fraccion a recolectar de cada grupo y asi lograr que el grupo MVC no desaparesca ya que si queremos hacer un muestreo de 40 registros (n = 40) el 4.78% de las muestras seran del grupo MVC osea 1.8 registros que redondeando serian 2. en resumen al hacer un muestro n =40 la probabilidad de que se seleccione un registro del grupo MVC usando un muestreo aleatorio simple es muy bajo siendo probable que no se recoja ningun registro MVC al aplicar el muestreo, pero si en cambio usamos un muestreo estratificado recogeremos al menos 2 registros del grupo. pd: sin ayuda de la comunidad no hubiera entendido la clase, gracias !

Platzi Team

student•

Literal sin ayuda de la comunidad no hubiera entendido la clase, en verdad me quedo con el concepto, gracias!

Alejandro Collado Valverde

student•

Me parece que se le complico mucho a la profe el explicar este tipo de muestreo, te lo explico de forma sencilla:

Por ejemplo, si tiene una población de 50 000 personas en una ciudad y desea encuestarlas, probablemente no pueda encuestarlas a todas. Podría encuestar a 100 y extrapolar los resultados. Pero querrá asegurarse de que el grupo de muestra (esas 100 personas que encuesta) realmente represente a la población de la ciudad en su conjunto. Entonces, si el 20 % de la ciudad son asiáticos, querrás asegurarte de que el 20 % del grupo de muestra (20 personas) también sean asiáticos.

Esto, en esencia, es un muestreo estratificado: garantizar que cada subgrupo (o 'estrato') en su muestra esté representado en la porción correcta de toda la población.

pd: el codigo de la profe NO devuelve dicha muestra, pueden verificar esto en el colab al ver que econdata tiene 230 registros y df_estrat tambien tiene 230 registros

Luis Enrique Montes Gonzalez

student•

ohhh Gracias, con este ejemplo si entendí el concepto

Eliana Ossio

student•

Cierto, yo copié el código y me sale 230 registros, que es la población ...., entonces no es la muestra

Jose Elier Fajardo

student•

Creo que esta es una alternativa mas clara y menos larga:

data['strat'] = data['delegacion'] + " - " + data['tipo']

def stratified_sample(data, category, size):
  strat_values = data[category].unique()
  strat_props = (data[category].value_counts() / len(data))

  strat_sample = pd.DataFrame(columns = data.columns)

  for value in strat_values:
    strat_sample = pd.concat([strat_sample, data[(data[category] == value)].sample(n = round(strat_props[value]*size)) ])
  
  return strat_sample

strat_sample = stratified_sample(data, 'strat', 40)

Pedro Alvarado Garcia

student•

No había entendido bien el muestreo estratificado, pero al hacer el código ya lo entendí mejor.

Básicamente es muy útil cuando quieres indicar qué proporción de datos de una misma categoría quieres obtener.
Obtener el mismo muestreo (con las mismas condiciones) gracias al random_state.

Rubén Cuello

student•

No me está quedando del todo claro que papel juega el random_state :confused:

Anthony Campos

student•

Curiosamente vemos las mismas muestras de Silvia en 14:08 ( filas 164, 142, etc). Esto es debido a que hemos genrado una reproducibilidad al agregar cualquier entero a random_state. Esto generá una muestra seuda aleatoria, pues está basado en un entero 42. Esto es muy útil para que todo el equipo pueda ver la misma muestra. Puede ser útil en la etapa de testing. (Asimismo, pudo haberse usado culaquier otro entero). Ver:
https://stackoverflow.com/questions/45211624/what-exactly-does-the-pandas-random-state-do
https://stackoverflow.com/questions/28064634/random-state-pseudo-random-number-in-scikit-learn

Edwin Uldarico Hernandez Osorio

student•

Para que la muestra aleatoria del conjunto de datos pueda ser obtenida de manera exacta por otra persona

La aleatoriedad en si no existe, si la semilla es la misma se va a obtener el mismo resultado

Matías Collado

student•

Muy mal explicado el código

Edwin Uldarico Hernandez Osorio

student•

Me parece muy extraño pedir que la muestra de 230 elementos cuyo 10% es 23, tenga una representación de 'Venustiano Carranza,Mercado' del 10% del DF siendo que solo aparecen 11 elementos con dicha configuración

¿Se están duplicando muestras para cumplir con el porcentaje esperado del DF ?

Mariano Orozco Garcia

student•

Al parecer si:

No sé si este sea el comportamiento esperado, pero me pareció raro a mí también.

Mariano Orozco Garcia

student•

Esto pasa por el parámetro replace=True que admite volver a tomar muestras de la misma fila.

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sample.html

Supongo que lo hace porque quiere un tamaño del dataframe igual que el original.

Intenté crear una función que no repitiera muestras, sin embargo, caí en cuenta que de no hacerlo muchas configuraciones no son posibles, ya que faltarían datos.

Antonio Demarco Bonino

student•

Otro curso que se lleva todos los aplausos.

Nicolas Acosta

student•

que enredo como Silvia explico este tema, para que hacer las cosas fáciles si las podemos hacer imposibles de entender , me tocó ver un video de youtube para entender "carita triste"

Jeison Wu Mitre

student•

Alguien me puede explicar la funcion, no entiendo como funciona y genera los datos y hace la muestra.

Oriol Fernando Palacios Durand

student•

¿Entiendo el código pero cuál es el punto de hacer un muestreo de 230 elementos si la población es de 230 elementos?

Incluso revisando sin mucho esfuerzo df_strat se encuentran datos repetidos debido a cómo se imponen proporciones arbitrarias

Jhon Freddy Tavera Blandon

student•

Aquí te doy un ejemplo de cómo realizar el muestreo estratificado en Python con la librería pandas:

Copiar código import pandas as pd

Crear un dataframe

data = {'Género': ['Hombre', 'Mujer', 'Hombre', 'Mujer', 'Hombre', 'Mujer'],
        'Edad': [22, 38, 27, 35, 18, 45],
        'Ingresos': [50000, 100000, 75000, 120000, 90000, 80000]}
df = pd.DataFrame(data)

Crear estratos

strat_df = df.groupby(
strat_df =
'Género').apply(lambda x: x.sample(frac=0.3))

Muestra estratificada

print(strat_df)

En este ejemplo, se crea un marco de datos con tres columnas: Género, Edad e Ingresos. Luego, se agrupa el dataframe por la columna "Género" y se aplica una función de prueba de forma aleatoria a cada estrato con una fracción de 0.3. El resultado es una muestra estratificada donde el 30% de los elementos de cada estrato son seleccionados al azar.

La librería numpy también tiene la función 'random.choice' que permite elegir elementos al azar de una lista o una matriz de una manera similar.

Pablo José Ramos Wilkins

student•

Me pareció un poco complicado el código de la profesora, por lo que me dí la tarea de escribir mi propio código:

def stratified_sampling(df, col_name, size, random_state=0):
    ratio_df = df[col_name].value_counts() / len(df) 
    
    strat_idx = []
    for val in ratio_df.index:
        n_val = int(ratio_df[val] * len(df)) 
        size_per_val = round(n_val * size)
        strat = df[df[col_name]==val].sample(size_per_val, random_state=random_state)
        strat_idx.append(strat.index)
 
    strat_idx = [i for sublist in strat_idx for i in sublist]

    return df.iloc[strat_idx]

Platzi Team

student•

¡Gracias! now is Crystal, Solo tuve que añadir un enumerate() por que se quedaba aca round(n_val * size[idx])

Jose Potes

student•

Hola, si quedaste como, que, que rayos? que signfica esto? bueno, tranquil@, yo tambien sentí lo mismo y tuve que tomarme mi tiempo para digerirlo. Cosas que debes de tener en cuenta.

Es una técnica: Esto significa que pueden haber otras formas de extraer informacion y evaluarlas. posiblemente esta es la mas popular. La cual busca que cada subgrupo(estrato, categoria) pueda representar la poblacion. ahora, lo que se busca es tener una vision amplia de cual es la distribucion real de los datos(sacando solo unos valores especificos) para poder concluir su distribucion.
y luego, como resultado tener la muestra final, en esta muestra final, lo que se busca entonces es que allí esten representados los datos o subgrupos segun su proporcion.

Edison Santos

student•

Le hice unos pequeños cambio al código, nos permite colocar el tamaño de la muestra.

def mi_estratificado (datos,columna,size,valores_estrat ,random_state = None):
  df_estrat = pd.DataFrame(columns=datos.columns)
  datos_en_col = datos[columna].unique()
  con = 0
  for i in datos_en_col :
    df_filtrado = datos[datos[columna] == datos_en_col[con]]
    df_temp = df_filtrado.sample(replace=True , n= int(valores_estrat[con] *size) ,random_state= random_state)
    df_estrat = pd.concat([df_estrat,df_temp])
    con += 1
  return df_estrat
### Para Probarlo
val_estrat = [0.5,0.2,0.1,0.1,0.1]
df_p = mi_estratificado(econodata,'estratificado',150,val_estrat, random_state=4)
print((df_p['estratificado'].value_counts()/len(df_p)).sort_values(ascending=False))
df_p

Nixon Rolando García Ramírez

student•

Parce muchas gracias, me ayudaste mucho a terminar de entender esta clase.

Jeinfferson Bernal G

student•

Wow.. Excelente forma de crear la funcion. Simple, entendible y facil de seguir. Mil gracias

Dionicio Perez

student•

Explicación de la función data_estratificada

Le agreugue el parametro tamaño de muestra para hacer mas entendible la función

Definimos la función con sus variables

def data_estratificad(econdata,nombres_columnas_estrat,
                      valores_estrat, prop_estrat, 
                      tamano_muestra,random_state=None):
    '''Función que dado un dataFrame toma una muestra estratificada
    
    Argumentos:
    econdata {DataFrame}    -- DataFrame del cual tomaremos la muestra
    nombres_columnas {list} -- Valores a partir de los cuales se va a estratificar el DataFrame
    valores_estrat {list}   -- Valores del porcentaje de la muestra que tomara cada nombre de la lista anterior
    tamano_muestra {int}    -- Cantidad de datos que tendra la muestra
    random_state {int}      -- Función que nos permite elegir la semilla de los números pseudo-aleatorios
    '''
    
    'Creamos un DataFrame vacio con las mismas columnas donde guardaremos los datos'
    df_estrat = pd.DataFrame(columns= econdata.columns)
    
    'Contador auxiliar para ir pasando la lista'
    pos = -1
    
    'Ciclo for el cual va cambiando los valores donde seleccionamos la cantidad de datos por cada nombre'
    'Función range(len(valores_estrat)) nos indica que iremos desde 0 hasta la cantidad de entradas que tenga la lista valores_estrat'
    'esto para recorrer toda la lista'
    for i in range(len(valores_estrat)):
        
        'sumamos 1 a pos'
        pos +=1
        
        'Ciclo if el cual nos ayudara a saber la cantidad de datos que vamos a extraer de cada clasificador'
        'si posicion es igual a ultima:'
        if pos == len(valores_estrat)-1:
            'la cantidad de valores que obtendremos sera el tamaño de la muestra menos los que ya tenemos'
            ratio_len = tamano_muestra - len(df_estrat)
            'En caso de no sea la ultima posición'
            
        else:
            'la cantidad de valores que tendremos para este clasificador se obtendra de la siguente forma'
            'multiplicamos el tamaño de la muestra por la proporcion que corresponde a ese clasificador'
            'como el valor puede no ser entero, lo convertimos en entero'
            ratio_len = int(tamano_muestra*prop_estrat[i])
        
        'en el DataFrame df_filtrado filtramos los valores de la columna que incluyan al clasificador'
        df_filtrado = econdata[econdata[nombres_columnas_estrat]==valores_estrat[i]]
        
        'obtenemos una muestra del tamano obtenido en ratio_len y la agregamos al dataFrame df_temp'
        df_temp = df_filtrado.sample(replace=True, n=ratio_len, random_state=random_state)
        
        'Concatenamos la información al DataFrame df_estrat, de tal forma que se guardan los valores de todos los clasificadores'
        df_estrat = pd.concat([df_estrat,df_temp])
    return df_estrat

Jorge Antonio Quiroz Serrano

student•

No entendí nada :/

Javier Ladino

student•

Estoy confundido con la parte del minuto 3:12 donde Silvia dice que Ya tenemos nuestros datos pero recibimos una información diferente. Si Ya tenemos un muestreo de 0.6 para "Cuautémoc, Hotel", por qué le asignamos un 0.5 ahora ? y así para los otros 4 resultados de porcentajes. Mi duda es que si los datos nos arrojan un 60% porque le pasamos después un 50% ? Gracias!!

Karen Tatiana Rodríguez Vanegas

student•

Hay una imprecisión: El parámetro random_state (en este caso 42) la instructora indica que hace que las filas se tomen de 42 en 42 lo cual no tiene nada que ver con su verdadero comportamiento (pueden verificar que las filas no tienen ese intervalo). Lo que hace es servir de semilla para el generador de números aleatorios y es un parámetro opcional en la función sample.

Luis David Tolentino Barrera

student•

Asi es. Y esa semilla te ayuda a repetir la muestra en caso de buscar un sample igual

Ada Nicol Lloret Rey

student•

Así es, buen aporte

def data_estratificada(econdata, nombres_columnas_estrat, valores_estrat, prop_estrat, random_state=None):

  df_estrat = pd.DataFrame(columns = econdata.columns) 

  pos = -1
  for i in range(len(valores_estrat)):
    pos += 1
    if pos == len(valores_estrat) - 1: 
      ratio_len = len(econdata) - len(df_estrat)
    else:
      ratio_len = int(len(econdata) * prop_estrat[i])

    df_filtrado = econdata[econdata[nombres_columnas_estrat] ==valores_estrat[i]]
    df_temp = df_filtrado.sample(replace=True, n=ratio_len, random_state=random_state)

    df_estrat = pd.concat([df_estrat, df_temp]) 
  return df_estrat

valores_estrat = ['Cuautémoc,Hotel', 'Cuautémoc,Museo', 'Venustiano Carranza,Hotel', 'Cuauhtémoc,Mercado','Venustiano Carranza,Mercado']
prop_estrat = [0.5, 0.2, 0.1, 0.1, 0.1]
df_estrat = data_estratificada(econdata, 'estratificado', valores_estrat, prop_estrat, random_state=42)
df_estrat

data['strat'] = data['delegacion'] + " - " + data['tipo']

def stratified_sample(data, category, size):
  strat_values = data[category].unique()
  strat_props = (data[category].value_counts() / len(data))

  strat_sample = pd.DataFrame(columns = data.columns)

  for value in strat_values:
    strat_sample = pd.concat([strat_sample, data[(data[category] == value)].sample(n = round(strat_props[value]*size)) ])
  
  return strat_sample

strat_sample = stratified_sample(data, 'strat', 40)

data = {'Género': ['Hombre', 'Mujer', 'Hombre', 'Mujer', 'Hombre', 'Mujer'],
        'Edad': [22, 38, 27, 35, 18, 45],
        'Ingresos': [50000, 100000, 75000, 120000, 90000, 80000]}
df = pd.DataFrame(data)

def stratified_sampling(df, col_name, size, random_state=0):
    ratio_df = df[col_name].value_counts() / len(df) 
    
    strat_idx = []
    for val in ratio_df.index:
        n_val = int(ratio_df[val] * len(df)) 
        size_per_val = round(n_val * size)
        strat = df[df[col_name]==val].sample(size_per_val, random_state=random_state)
        strat_idx.append(strat.index)
 
    strat_idx = [i for sublist in strat_idx for i in sublist]

    return df.iloc[strat_idx]

def mi_estratificado (datos,columna,size,valores_estrat ,random_state = None):
  df_estrat = pd.DataFrame(columns=datos.columns)
  datos_en_col = datos[columna].unique()
  con = 0
  for i in datos_en_col :
    df_filtrado = datos[datos[columna] == datos_en_col[con]]
    df_temp = df_filtrado.sample(replace=True , n= int(valores_estrat[con] *size) ,random_state= random_state)
    df_estrat = pd.concat([df_estrat,df_temp])
    con += 1
  return df_estrat
### Para Probarlo
val_estrat = [0.5,0.2,0.1,0.1,0.1]
df_p = mi_estratificado(econodata,'estratificado',150,val_estrat, random_state=4)
print((df_p['estratificado'].value_counts()/len(df_p)).sort_values(ascending=False))
df_p

def data_estratificad(econdata,nombres_columnas_estrat,
                      valores_estrat, prop_estrat, 
                      tamano_muestra,random_state=None):
    '''Función que dado un dataFrame toma una muestra estratificada
    
    Argumentos:
    econdata {DataFrame}    -- DataFrame del cual tomaremos la muestra
    nombres_columnas {list} -- Valores a partir de los cuales se va a estratificar el DataFrame
    valores_estrat {list}   -- Valores del porcentaje de la muestra que tomara cada nombre de la lista anterior
    tamano_muestra {int}    -- Cantidad de datos que tendra la muestra
    random_state {int}      -- Función que nos permite elegir la semilla de los números pseudo-aleatorios
    '''
    
    'Creamos un DataFrame vacio con las mismas columnas donde guardaremos los datos'
    df_estrat = pd.DataFrame(columns= econdata.columns)
    
    'Contador auxiliar para ir pasando la lista'
    pos = -1
    
    'Ciclo for el cual va cambiando los valores donde seleccionamos la cantidad de datos por cada nombre'
    'Función range(len(valores_estrat)) nos indica que iremos desde 0 hasta la cantidad de entradas que tenga la lista valores_estrat'
    'esto para recorrer toda la lista'
    for i in range(len(valores_estrat)):
        
        'sumamos 1 a pos'
        pos +=1
        
        'Ciclo if el cual nos ayudara a saber la cantidad de datos que vamos a extraer de cada clasificador'
        'si posicion es igual a ultima:'
        if pos == len(valores_estrat)-1:
            'la cantidad de valores que obtendremos sera el tamaño de la muestra menos los que ya tenemos'
            ratio_len = tamano_muestra - len(df_estrat)
            'En caso de no sea la ultima posición'
            
        else:
            'la cantidad de valores que tendremos para este clasificador se obtendra de la siguente forma'
            'multiplicamos el tamaño de la muestra por la proporcion que corresponde a ese clasificador'
            'como el valor puede no ser entero, lo convertimos en entero'
            ratio_len = int(tamano_muestra*prop_estrat[i])
        
        'en el DataFrame df_filtrado filtramos los valores de la columna que incluyan al clasificador'
        df_filtrado = econdata[econdata[nombres_columnas_estrat]==valores_estrat[i]]
        
        'obtenemos una muestra del tamano obtenido en ratio_len y la agregamos al dataFrame df_temp'
        df_temp = df_filtrado.sample(replace=True, n=ratio_len, random_state=random_state)
        
        'Concatenamos la información al DataFrame df_estrat, de tal forma que se guardan los valores de todos los clasificadores'
        df_estrat = pd.concat([df_estrat,df_temp])
    return df_estrat

Muestreo Estratificado: Creación y Aplicación en Python

Fundamentos de estadística inferencial

Estadística Inferencial para Ciencia de Datos e IA

Componentes Básicos de la Estadística

Distribución Normal: Conceptos y Ejemplos Prácticos

Tipos de Muestreo y Teorema del Límite Central

Funciones de muestra en Python: aleatorio y sistemático