Funciones de muestra en Python: aleatorio y sistemático

Clase 5 de 22 • Curso de Estadística Inferencial para Data Science e Inteligencia Artificial

Contenido del curso

Fundamentos de estadística inferencial

Estadísticos y cálculos

Pruebas de hipótesis y validación

Cierre del curso

22
Estadística para Ciencia de Datos y Machine Learning
01:28 min

Tomar examen

Resumen

Extraer muestras representativas de una población es una habilidad fundamental en ciencia de datos, y Python ofrece herramientas prácticas para hacerlo con pocas líneas de código. Aquí se explica paso a paso cómo implementar el muestreo aleatorio simple y el muestreo sistemático usando Pandas, NumPy y datos abiertos reales de la Ciudad de México.

¿Cómo preparar el entorno y los datos para funciones de muestreo?

Antes de escribir cualquier función de muestreo, es necesario importar las librerías que se utilizarán durante todo el ejercicio [0:41]. Las cuatro librerías esenciales son:

Pandas: manipulación y análisis de datos tabulares.
NumPy: operaciones numéricas y generación de rangos.
Random: generación de series aleatorias.
IO: lectura de archivos externos como bases de datos en formato CSV.

Se recomienda trabajar en Google Colab o Deepnote porque ambas plataformas ya traen estas librerías preinstaladas, lo que evita configuraciones adicionales [0:22].

La base de datos utilizada proviene de datos abiertos de la Ciudad de México (datos.cdmx.gob.mx), específicamente la tabla de "Economía y Turismo en el Centro Histórico" [1:25]. Esta tabla contiene variables como el ID (identificador único), coordenadas geográficas, geoshape (definición del polígono), clave del punto cultural, delegación, tipo de ubicación (mercado, museo, hotel) y nombre del establecimiento [2:42].

Para importar el archivo CSV en Colab se usa from google.colab import files y luego uploaded = files.upload() [1:55]. La lectura se realiza con pd.read_csv(io.BytesIO(uploaded['nombre_archivo.csv'])). Con la función .head() se visualizan los primeros registros y se confirma que la importación fue correcta [2:28].

¿Cómo funciona el muestreo aleatorio simple con sample en Pandas?

El muestreo aleatorio simple consiste en seleccionar registros de forma completamente aleatoria, sin ninguna regla o patrón predefinido [3:22]. Pandas lo hace muy sencillo gracias al método .sample().

¿Cómo extraer un número fijo de registros aleatorios?

Para obtener exactamente ocho registros al azar se escribe [3:40]:

python aleatorio_8 = econdata.sample(n=8) aleatorio_8

El parámetro n indica la cantidad de individuos que se desean extraer. Al ejecutarlo, Python selecciona ocho filas al azar. Si se crea una segunda variable con el mismo código, los resultados serán diferentes, lo que confirma la naturaleza aleatoria del método [4:17].

¿Cómo seleccionar una proporción de la población total?

En lugar de definir un número exacto, se puede indicar una fracción de la población. Para extraer el 25% de la tabla [4:55]:

python prop_25 = econdata.sample(frac=0.25) prop_25.head()

El parámetro frac reemplaza a n y acepta un valor decimal que representa el porcentaje deseado. Esto resulta útil cuando el tamaño de la muestra debe ser proporcional al total de la población.

¿Cómo implementar el muestreo sistemático con una función personalizada?

El muestreo sistemático se diferencia del aleatorio simple porque utiliza un intervalo regular para seleccionar las observaciones [5:25]. En lugar de elegir al azar, se define una regla: por ejemplo, tomar cada tercer registro.

Como Pandas no tiene un método nativo para esto, se construye una función personalizada [5:45]:

python def systematic_sampling(data, step): index = np.arange(0, len(data), step=step) systematic = data.iloc[index] return systematic

np.arange(0, len(data), step=step) genera un rango desde cero hasta la longitud total de la tabla, avanzando según el step definido [6:00].
.iloc[index] selecciona las filas ubicadas en esas posiciones.
La función retorna el subconjunto resultante.

Para ejecutarla con intervalos de tres en tres [6:38]:

python sistematico = systematic_sampling(econdata, 3) sistematico

El resultado muestra los registros 0, 3, 6, 9, 12 y así sucesivamente hasta completar la tabla. Se puede modificar el valor inicial cambiando el cero por otro número, o limitar el valor final para cortar en un registro específico, como el cien [7:15].

Una buena práctica al trabajar con notebooks es documentar cada sección con texto antes de escribir el código, para que cualquier persona que revise el archivo entienda qué hace cada bloque [3:10]. ¿Ya probaste cambiar los parámetros de estas funciones con tus propios datos? Comparte tu experiencia en los comentarios.

Comentarios

Edwin Uldarico Hernandez Osorio

student•

Para hacer el Systematic_sample no era necesaria la función extra, solo con la sintaxis de iloc era suficiente, por ejemplo

Systematic_sample = econdata.iloc[::3,:] De los indices desde el primero al ultimo en pasos de 3, y de las columnas todas

Nestor Ramirez

student•

No era necesario para efectos prácticos, pero así tienes una función donde después si quieres cambiar los pasos modificas el parámetro al pasar los argumentos y no tendrías que estar revisando en que parte de la función habría que moverlos. Este es un ejemplo pequeño pero a mayor escala es mejor practica

Ever Orlando Reyes Ruiz

student•

Recuerda eso es lo que se llama código duro y no es buena practica, que pasa si después quieres cambiar los steps del muestreo.

Jhon Freddy Tavera Blandon

student•

En Python, existen varias funciones y módulos que se utilizan para realizar muestreos de datos. Algunas de las funciones más comunes son:

random.sample(): Esta función se utiliza para seleccionar una muestra aleatoria de elementos de una lista o conjunto.
random.choices(): Esta función se utiliza para seleccionar elementos aleatorios de una lista o conjunto, con o sin reemplazo, y con o sin pesos.
pandas.DataFrame.sample(): Esta función se utiliza para seleccionar una muestra aleatoria de un DataFrame de pandas.
numpy.random.randint(): Esta función se utiliza para generar números enteros aleatorios dentro de un rango específico.
numpy.random.rand(): Esta función se utiliza para generar números aleatorios flotantes dentro de un rango específico.
numpy.random.permutation(): Esta función se utiliza para generar una permutación aleatoria de una lista o conjunto.
numpy.random.choice(): Esta función se utiliza para elegir elementos aleatorios de una lista o conjunto, con o sin reemplazo, y con o sin pesos.

Es importante mencionar que todas estas funciones son parte de la librería estandar de python o de paquetes como numpy o pandas, estas funciones son muy utilizadas en el ámbito de análisis de datos, para realizar pruebas estadísticas, evaluar modelos, entre otras.

mi aporte espero les sirva de mucho

Julián Cárdenas

student•

👏🏻 buen aporte

Anthony Campos

student•

Muestreo sistemático:

columnas ( delgación, perimetro, tipo) filas ( step:5)

Julián Cárdenas

student•

👏🏻

Jose Ramon Moreno Sanchez

student•

Dejo mi aporte de la lectura del archivo, por si alguien usa deepnote

uploaded = io.open("/work/data/economia-y-turismo-en-el-centro-historico.csv", "rb", buffering=0)
econdata = pd.read_csv(uploaded)

Fabian Stevens Varon Valencia

student•

Hola,

Si usan VsCode, teniendo el archivo en la raiz, sólo debes hacer:

econdata= pd.read_csv('economia-y-turismo-en-el-centro-historico.csv')

Julián Cárdenas

student•

Así es ! 👏🏻

Heidi Alicia Chaves Jimenez

student•

Esa es, muchas gracias

Antonio Demarco Bonino

student•

Me saqué las ganas de hacer hasta el 100 y que vaya de 5 en 5:

def systematic_sampling (econodata,step):
  indexes = np.arange(0,101,step=step)
  systematic_sample = econodata.iloc[indexes]
  return systematic_sample

systematic_sample = systematic_sampling(econodata,5)
systematic_sample

Julián Cárdenas

student•

Gracias 👏🏻

Robert Junior Buleje del Carpio

student•

¿Por qué coloca io.BytesIO antes de mencionar el CSV?

Juan Carlos Gallardo Saavedra

student•

io.BytesIO convierte los bytes del archivo cargado (uploaded["Econdata.csv"]) en un flujo de datos legible que pandas puede manejar.

Aquí se accede al archivo específico Econdata.csv dentro del diccionario uploaded.

Andres Cervantes

student•

Si no quieres guardar tus archivos en local

Puedes utilizar la libería wget

Primero instalamos la librería:

!pip install wget

Luego importamos y descargamos nuestro archivo y lo nombramos como "datos.csv"

import wget

!wget -O datos.csv https://datos.cdmx.gob.mx/dataset/d19d49ea-8a73-4bf5-910e-81060068bd3f/resource/db7830a7-ee22-408d-bdb3-8054292ed6f8/download/economia-y-turismo-en-el-centro-historico.csv

Y guardamos en una variable "data"

data = pd.read_csv("/content/datos.csv")

Pilar Rius Hernández

student•

Buena idea. Y así siempre accedes al archivo desde la web, ¿vdd? El único peligro es que desaparezca el archivo, ¿no?

Gracias

Heberto Nicolás Hernández Andrade

student•

Comparto la función incluyendo los parámetros que permiten definir el inicio y el final del muestreo:

def systematic_sampling(econdata, step, start=0, final=len(econdata) ):
    indexes = np.arange(start, final, step=step)
    systematic_sample = econdata.iloc[indexes]
    return systematic_sample

Santiago Ramos

student•

Si por alguna razón les aparece un error como este al tratar de importar el archivo, fijensé de ir a configuración del Chrome, a la parte de las cookies y permitir cookies de terceros en Google Colab.

Gustavo Lago de Azevedo Moura

student•

Solo en haber aprendido a agregar un boton de upload de archivo en el coolab, ya valio la pena la clase!!

Fernando Callasaca Acuña

student•

Aquí les dejo el reto de esta clase utilizando la función .iloc, esto lo hace mucho más simplificado.

def systematic_sampling_2(data, start, end, step):
  return data.iloc[start:end:step,:]

systematic_sample_2 = systematic_sampling_2(econdata, 1, 100, 3)
print(systematic_sample_2.shape[0])
systematic_sample_2.head()

Resultado:

Jeinfferson Bernal G

student•

Interesante propuesta! 👏👏👏

Isaac Bryan Ascanoa Roncall

student•

Me encanto el aprendizaje del muestreo en python. No pense que fuera simple. Definitivamente los conocimientos de pandas y matplotlib si eran necesarios.

Ricardo Gomez

student•

Me gusto, muy bueno para iniciar, con esta función se puede crear un menú para captura automática de datos y hacer el muestreo

Julián Cárdenas

student•

👏🏻

Yoel Antonio Vivas Pérez

student•

la pagina de datos de gobierno no funciona como puedo acceder a ella para hacer el ejercicio?

¡Qué frustración, Yoel! Esos portales a veces deciden tomarse un descanso justo cuando más los necesitamos.

No te detengas por eso. La buena noticia es que no necesitas depender de que la web esté activa para practicar. He rescatado el archivo que necesitas para el ejercicio directamente de los recursos de la clase: puedes descargarlo desde este enlace.

Una vez que lo tengas, cárgalo en tu entorno de trabajo (como Google Colab o tu Jupyter local) y estarás listo para aplicar el muestreo aleatorio y sistemático sin más dramas.

¿Logras cargarlo bien en tu notebook o necesitas un empujón con el código para leer ese CSV?

Yoel Antonio Vivas Pérez

student•

la pagina de datos de gobierno no funciona como puedo acceder a ella para hacer el ejercicio?

Oscar Armando Buitrago Sanchez

student•

la pagina de datos de gobierno no funciona como puedo acceder a ella para hacer el ejercicio?

Gabriel Obregón

student•

🎓Muestreo en Python

🔧 Librerías Clave

📥 Importa antes de empezar:

import pandas as pd

import numpy as np

import random

import io

🟦 Pandas → tablas de datos
🔢 NumPy → cálculos y arreglos
🎲 Random → valores aleatorios
📂 io → trabajar con archivos externos

📂 Cargar Dataset en Colab

1️⃣ Descarga CSV de

2️⃣ Guarda en tu PC

3️⃣ Sube a Colab:

from google.colab import files

uploaded = files.upload()

icon_data = pd.read_csv(io.BytesIO(uploaded['archivo.csv']))

icon_data.head()

👉 Cambia "archivo.csv" por el nombre correcto.

🎲 Muestreo Aleatorio Simple

📌 Selecciona registros al azar

aleatorio_8 = icon_data.sample(n=8)

print(aleatorio_8)

✨ Cada ejecución devuelve una muestra distinta
🧪 Ideal para pruebas rápidas y exploración

📉 Muestreo por Fracción

📌 Selecciona un porcentaje del dataset

proporcion_25 = icon_data.sample(frac=0.25)

proporcion_25.head()

🟢 frac=0.25 → toma el 25%
🎯 Útil cuando quieres una proporción fija

📏 Muestreo Sistemático

📌 Extrae registros a intervalos regulares

def systematic_sampling(df, step):

indices = np.arange(0, len(df), step)

return df.iloc[indices]

systematic_sample = systematic_sampling(icon_data, 3)

print(systematic_sample)

🔄 step=3 → cada tercer registro
🧭 Sigue un patrón fijo desde el primer elemento

Judith Soledad Diaz Troncoso

student•

El csv Econdata tiene en la columna delegacion dos formas de escribir Cuauhtémoc:

Cuautémoc
Cuauhtémc

Se puede verificar explorando un poco el csv.

Creo que debería considerarse para el caso de muestreo estratificado, si esa delegación es justamente un parámetro para dicho muestreo evidentemente, no?

sebastián Giraldo Vargas

student•

por qué esta vez no se importó el archivo usando pandas ?

Sílvia Ariza Sentís

teacher•

Hola Sebastián. Si conocemos la ruta donde hemos guardado la información podemos importarla desde pandas. En este caso quise mostrar una manera alterna de importar los archivos y que nos va a servir para buscar el archivo dentro de nuestras carpetas, muy similar a la función de "examinar" que podemos ver en múltiples páginas cuando importamos los archivos. Ambas opciones son válidas :)

def systematic_sampling (econodata,step):
  indexes = np.arange(0,101,step=step)
  systematic_sample = econodata.iloc[indexes]
  return systematic_sample

systematic_sample = systematic_sampling(econodata,5)
systematic_sample

import wget

!wget -O datos.csv https://datos.cdmx.gob.mx/dataset/d19d49ea-8a73-4bf5-910e-81060068bd3f/resource/db7830a7-ee22-408d-bdb3-8054292ed6f8/download/economia-y-turismo-en-el-centro-historico.csv

Funciones de muestra en Python: aleatorio y sistemático

Fundamentos de estadística inferencial

Estadística Inferencial para Ciencia de Datos e IA

Componentes Básicos de la Estadística

Distribución Normal: Conceptos y Ejemplos Prácticos

Tipos de Muestreo y Teorema del Límite Central