Bonus: Teorema del límite central

Clase 15 de 28 • Curso de Análisis Exploratorio de Datos

Contenido del curso

Introducción al análisis exploratorio de datos

Análisis univariado

Análisis bivariado

Análisis multivariado

Conclusiones

Tomar examen

Jeinfferson Bernal G

student•

Demostracion Computacional del T. de los grande numeros

Tomamos como ejemplo el lanzamiento de una dado

#calculo de la probabilidad para cada cara del dado
dice = empiricaldist.Pmf.from_seq([1,2,3,4,5,6])
dice.bar()

Valores de probabilidad para cada cara del dado en diferentes tamaños de muestras

for sample_size in (1e2, 1e3,1e4):  #100 1000 10000
    sample_size = int(sample_size)
    values = dice.sample(sample_size) # obtener valores segun tamaño de la muestra
    sample_pmf = empiricaldist.Pmf.from_seq(values) #calculo de la probabilidad para cada valor
	
		#graficas para cada tamaño de muestra
    plt.figure(figsize=(5, 5))
    sample_pmf.bar()
    plt.axhline(y=1/6, color='red', linestyle='dashed')
    plt.ylim([0,0.50])
    plt.title(f'Sample size: {sample_size}')

Demostracion del T. del Limite Central

Analizamos una variable binaria

preprocessed_penguins_df.sex.value_counts(normalize=True)

La variable sex sigue una distribucion binomial. Como es categorica, debemos convertirla en una variable numerica

sex_numeric = preprocessed_penguins_df.sex.replace(['male', 'female'], [1, 0])

Fijamos el numero de muestras a tomar y el tamaño de cada muestra, luego calculamos la media de los machos de cada muestra y a todas ellas le sacamos la media observando asi que se aproxima a la proporcion de machos dada por los datos

number_sample = 1000 #cantidad de muestras a tomar
sample_size = 35 #tamaño de la muestra

sample_df = pd.DataFrame() #dataframe donde se almacena las media de cada muestra

np.random.seed(42)

for i in range(1, number_sample + 1):
    sex_numeric_sample = sex_numeric.sample(sample_size, replace=True).to_numpy()
    sample_name = f'sample {i}'
    sample_df[sample_name] = sex_numeric_sample

male_population_mean = sample_df.mean().mean()
print(f'El porcentaje de pinguinos machos en la poblacion es de: {male_population_mean*100:.4f}%')

La distribucion binomial se convierte en este caso en una distribucion Normal como se evidencia en la grafica que sigue

sample_means_binomial = pd.DataFrame(sample_df.mean(), columns=['sample_mean'])
sns.kdeplot(data=sample_means_binomial)
plt.axvline(x=sex_numeric.mean(), color='red', linestyle='dashed')

Otra manera de verlo es ir incrementando la cantidad de muestras y observar el efecto en la proporcion de machos

sample_size_experiment = pd.DataFrame(
    [[i, sample_df.iloc[:, 0:i].mean().mean().mean()] for i in range(1, number_sample + 1)],
    columns=['sample_size', 'estimated_mean']
)

#grafica  del efecto
sns.scatterplot(
    data=sample_size_experiment,
    x='sample_size',
    y='estimated_mean'
)

plt.axhline(
    y=sex_numeric.mean(),
    color='red',
    linestyle='dashed'
)

plt.ylim([sex_numeric.mean() - 0.20, sex_numeric.mean() + 0.20])

Ruddy Ramos

student•

Gracias por el aporte.

Rafael Rivera

student•

Muchas gracias por el aporte

Bonus: Teorema del límite central

Introducción al análisis exploratorio de datos

¿Qué es y para qué sirve el análisis exploratorio de datos?

¿Cómo hacer un análisis exploratorio de datos?

Tipos de análisis de datos

Tipos de datos y análisis de variables

Herramientas de software para el análisis exploratorio de datos

Conociendo nuestros datos: palmerpenguins

Recolección de datos, limpieza y validación

Ejercicio de validación de datos

Análisis univariado

Explorando una variable categórica: conteos y proporciones

Estadística descriptiva aplicada: medidas de tendencia central

Estadística descriptiva aplicada: medidas de dispersión

Ejercicio de obtención de medidas de dispersión

Estadística descriptiva aplicada: distribuciones

Estadística descriptiva aplicada: funciones de densidad de probabilidad