Muestreo estratificado con pandas en Python

Curso de Estadística Inferencial para Data Science e Inteligencia Artificial

Contenido del curso

No sé dónde empezar

Fundamentos de estadística inferencial

Estadísticos y cálculos

Pruebas de hipótesis y validación

Cierre del curso

22
Estadística inferencial aplicada al machine learning
01:28 min

Tomar examen

Muestreo estratificado con pandas en Python

Resumen

El muestreo estratificado en Python te permite crear muestras representativas cuando tu población se divide en grupos homogéneos exclusivos. Aquí aprendes a construirlo con pandas, definir proporciones específicas y resolver errores comunes al concatenar variables categóricas.

Esta técnica es clave para analistas de datos, científicos de datos y estudiantes de estadística que necesitan respetar la composición real de una población al extraer una muestra.

¿Qué es el muestreo estratificado y cuándo conviene usarlo?

El muestreo estratificado divide la población en estratos exclusivos y luego toma una muestra aleatoria dentro de cada uno, manteniendo proporciones definidas. La gracia está en que los estratos son homogéneos por dentro y distintos entre sí.

¿Cuándo uso muestreo estratificado en lugar de aleatorio simple? Cuando tu población tiene subgrupos relevantes (ubicación, tipo, categoría) y necesitas que cada uno aparezca con una proporción específica en la muestra. El aleatorio simple no garantiza esa representación.

En el ejercicio se trabaja con econdata, una base con establecimientos clasificados por delegación y tipo (hotel, museo, mercado, restaurante). El objetivo es construir una muestra que refleje proporciones definidas externamente, no las que aparecen naturalmente en los datos [00:25].

¿Cómo creo la variable de estratificación con pandas?

El primer paso es generar una columna nueva que combine las variables que definen tus estratos. En este caso, delegacion y tipo se concatenan dentro de econdata para formar la columna estratificado [01:05].

Para revisar la distribución natural usas value_counts() dividido sobre len(econdata) y ordenas con sort_values(ascending=False). Esto te muestra el porcentaje de cada estrato ordenado del más frecuente al menos frecuente.

La salida revela que hoteles en Cuauhtemoc representan el 64,34%, seguidos de museos en Cuauhtemoc y hoteles en Venustiano Carranza [02:15]. Aquí aparece un detalle importante: la palabra Cuauhtémoc viene escrita sin tilde desde la fuente. No es un error tuyo, es un typo del origen, y puedes corregirlo en los datos o dejar la observación para tus conclusiones.

¿Qué proporciones objetivo se definen para la muestra?

El ejercicio plantea que la población real debería distribuirse así:

Hoteles en Cuauhtemoc: 50%.
Museos en Cuauhtémoc: 20%.
Hoteles en Venustiano Carranza: 10%.
Mercados en Cuauhtemoc: 10%.
Mercados en Venustiano Carranza: 10%.

La suma debe dar 100%. Siempre verifica esto antes de correr la función, porque si te pasas o te quedas corto, la muestra final queda mal calibrada.

¿Cómo construyo la función de muestreo estratificado en Python?

La función se define con def data_estratificada y recibe cinco parámetros: la tabla econdata, los nombres de columnas estratificadas (strat), los valores estratificados, la proporción estratificada y random_state [04:30].

Dentro de la función creas un DataFrame vacío con las mismas columnas de econdata. Luego iteras sobre los valores estratificados con un for que recorre el rango de su longitud, ajustando la posición con -1 en cada vuelta.

¿Cómo se calcula la ratio de cada estrato?

La lógica tiene dos caminos:

Última iteración: la ratio_length se calcula como la diferencia entre len(econdata) y la longitud del DataFrame estratificado actual. Esto asegura que el total de filas de salida cuadre con el total esperado.
Iteraciones intermedias: la ratio_length se obtiene como el entero de len(econdata) multiplicado por la proporción estratificada del componente i.

Esa diferencia entre la última iteración y las demás es lo que evita que se pierdan o sobren registros por redondeo.

Después filtras econdata por la columna estratificada igual al valor del estrato actual, aplicas .sample() con replace, el tamaño de la ratio y el random_state definido. Cada muestra parcial se concatena al DataFrame final con pd.concat() [07:40].

¿Por qué falla el código y cómo se corrige el error de espacios?

Al ejecutar la función por primera vez aparece un error. Revisando con calma, el problema está en cómo se definió la columna estratificado: al concatenar delegacion y tipo con una coma, no se incluyó espacio después de la coma [11:50].

¿Por qué un espacio rompe el código en pandas? Porque los valores categóricos se comparan literalmente. "Cuauhtemoc,hotel" no es lo mismo que "Cuauhtemoc, hotel". Si defines la lista con espacios y la columna sin ellos, ningún filtro encuentra coincidencias.

La solución es alinear ambos lados: o agregas el espacio en la concatenación, o lo quitas en la lista de valores_strat. En el ejercicio se opta por quitar los espacios de la lista, se vuelve a correr y la muestra final entrega 42 registros que respetan las proporciones objetivo: 50%, 20%, 10%, 10%, 10% [13:20].

¿Qué practico después para dominar el muestreo?

La estructura del código es reutilizable. No necesitas memorizarla, sino entender el flujo: variable de estratificación, definición de proporciones, función con iteración condicional y concatenación final.

El reto sugerido es practicar con otras fuentes abiertas, idealmente del gobierno de México, aplicando los tres tipos de muestreo vistos en el curso: aleatorio simple, sistemático y estratificado. Comparte tus resultados en los comentarios y cuenta qué bases usaste.

Mariano Orozco Garcia

Estudiante

Muestreo Estratificado en Python

Yo lo entendí de esta forma:

Separa los datos por categorías (valores estratificados).
Define las categorías que quieres en tú muestro y su proporción.
Toma tantos datos como necesites de cada categoría para llegar a la proporción deseada.
Junta esas muestras de cada categoría para tu muestreo final.

Explicación del ejemplo

Se crean dichas categorías a partir de la delegación y el tipo, esta información se almacena en la columna estratificado:

econdata['estratificado'] = econdata['delegacion'] + "," + econdata['tipo']
(econdata['estratificado'].value_counts() / len(econdata)).sort_values(ascending=False)

Con esto ya tenemos los datos por categorías (paso 1) y podemos ver su proporción real:

Para nuestro muestreo definimos las siguientes proporciones (paso 2):

Cuautémoc, Hotel: 0.5,
Cuautémoc, Museo: 0.2,
Venustiano Carranza, Hotel: 0.1,
Cuauhtémoc, Mercado: 0.1,
Venustiano Carranza, Mercado: 0.1

Para crear dicha proporción a partir de los datos originales se utiliza la siguiente función que encuentra el número de muestras necesario de cada categoría (paso 3), hace un sampleo simple dentro de dicha categoria y luego junta esas muestras (paso 4):

def data_estratificada(econdata, nombres_columnas_estrat, valores_estrat, prop_estrat, random_state=None):

  df_estrat = pd.DataFrame(columns = econdata.columns) 

  pos = -1
  for i in range(len(valores_estrat)):
    pos += 1
    if pos == len(valores_estrat) - 1: 
      ratio_len = len(econdata) - len(df_estrat)
    else:
      ratio_len = int(len(econdata) * prop_estrat[i])

    df_filtrado = econdata[econdata[nombres_columnas_estrat] ==valores_estrat[i]]
    df_temp = df_filtrado.sample(replace=True, n=ratio_len, random_state=random_state)

    df_estrat = pd.concat([df_estrat, df_temp]) 
  return df_estrat

Utiliza este código para crear el sampleo:

valores_estrat = ['Cuautémoc,Hotel', 'Cuautémoc,Museo', 'Venustiano Carranza,Hotel', 'Cuauhtémoc,Mercado','Venustiano Carranza,Mercado']
prop_estrat = [0.5, 0.2, 0.1, 0.1, 0.1]
df_estrat = data_estratificada(econdata, 'estratificado', valores_estrat, prop_estrat, random_state=42)
df_estrat

Adicionalmente, puedes usar este código para ver la proporción final de tus datos:

(df_estrat['estratificado'].value_counts()/len(df_estrat)).sort_values(ascending=False)

Si todo salió bien, deberías ver algo similar a esto:

Con esto ya tienes una muestra en las proporciones que deseábamos en un principio.

Rafael Rivera

Estudiante

Gracias por el aporte.

Jefferson Cortés Gutiérrez

Estudiante

Gracias.

Andres Gutiérrez Castillo

Platzi Team

Alejandro Collado Valverde

Luis Enrique Montes Gonzalez

Eliana Ossio

Jose Elier Fajardo

Pedro Alvarado Garcia

Rubén Cuello

Anthony Campos

Edwin Uldarico Hernandez Osorio

Matías Collado

Antonio Demarco Bonino

Nicolas Acosta

Jeison Wu Mitre

Oriol Fernando Palacios Durand

Jhon Freddy Tavera Blandon

Pablo José Ramos Wilkins

Jose Potes

Edison Santos

Nixon Rolando García Ramírez

Jeinfferson Bernal G

Dionicio Perez

Jorge Antonio Quiroz Serrano

Javier Ladino

Karen Tatiana Rodríguez Vanegas

Luis David Tolentino Barrera

Ada Nicol Lloret Rey

Muestreo estratificado con pandas en Python

Fundamentos de estadística inferencial

Estadística inferencial vs descriptiva en IA

Componentes principales de la estadística

Qué es la distribución normal y sus ejemplos

Tipos de muestreo y teorema del límite central

Muestreo aleatorio y sistemático en Python