Funciones de muestra en Python: aleatorio y sistemático
Clase 5 de 22 • Curso de Estadística Inferencial para Data Science e Inteligencia Artificial
Resumen
¿Cómo codificar en Python funciones de muestreo?
Vamos a aprender a programar funciones de muestreo en Python usando la potente herramienta Colab. Ciertamente, trabajar con plataformas como Colab o DeepNote te ahorra la instalación de librerías, dando pie a un proceso más dinámico y accesible. Prepárate para adentrarte en la programación de funciones de muestreo simples, aleatorias, y sistemáticas, así que ¡vamos al código!
¿Qué librerías debes importar?
Primero y ante todo, es necesario que importes las librerías clave que te ayudarán en tu análisis. Para trabajar con datos en Python, Pandas y NumPy son imprescindibles, además de Random para generar series aleatorias e io para interactuar con datos externos. Así es como debes empezar:
import pandas as pd
import numpy as np
import random
import io
Asegúrate de que estas librerías se carguen correctamente antes de seguir adelante.
¿Cómo cargar un conjunto de datos externo?
Utilizaremos un conjunto de datos proporcionado por el portal de datos abiertos de la Ciudad de México, específicamente del sector de Economía y Turismo en el Centro Histórico. Sigue estos pasos para cargarlo:
- Descarga el archivo CSV desde datos.cdmx.gov.mx.
- Guarda el archivo en una carpeta de fácil acceso en tu computadora.
- Usa el siguiente código para cargarlo en Colab:
from google.colab import files
uploaded = files.upload()
# Visualizar los primeros registros
icon_data = pd.read_csv(io.BytesIO(uploaded['nombre_del_archivo.csv']))
icon_data.head()
Recuerda actualizar 'nombre_del_archivo.csv'
con el nombre correcto de tu archivo.
¿Cómo crear una muestra aleatoria simple?
Para seleccionar registros de manera aleatoria, utiliza la técnica de muestreo aleatorio simple. Este método ayuda a crear una nueva muestra al seleccionar elementos de la población total. Aquí tienes cómo hacerlo:
# Selector aleatorio simple de 8 elementos
aleatorio_8 = icon_data.sample(n=8)
print(aleatorio_8)
Para verificar la aleatoriedad, ejecuta el código nuevamente.
# Segunda muestra aleatoria de 8 elementos
aleatorio_8_2 = icon_data.sample(n=8)
print(aleatorio_8_2)
Cada ejecución te proporcionará diferentes elementos aleatorios.
¿Cómo seleccionar una fracción de la población total?
Supongamos que quieres extraer un 25% de tu dataset. Puedes lograrlo fácilmente indicando una fracción en lugar de un número de elementos específicos:
# Muestra de una fracción del 25%
proporción_25 = icon_data.sample(frac=0.25)
proporción_25.head()
¿Cómo realizar un muestreo sistemático?
El muestreo sistemático es eficaz para extraer registros a intervalos regulares de tu dataset. Necesitarás definir una función para esta tarea:
def systematic_sampling(df, step):
indices = np.arange(0, len(df), step)
systematic_samples = df.iloc[indices]
return systematic_samples
# Usar el muestreo sistemático para seleccionar cada tercer registro
systematic_sample = systematic_sampling(icon_data, 3)
print(systematic_sample)
Esta función comenzará desde el primer registro y extraerá cada tercer elemento hasta el final del dataset.
Recuerda siempre experimentar con diferentes parámetros para conocer más sobre el comportamiento del muestreo y entender cómo se originan diferentes resultados. ¡Sigue practicando y expandiendo tus habilidades en Python! Nos encontramos en la próxima clase donde exploraremos el muestreo estratificado.