Estimación de Distribuciones de Probabilidad en Google Colab

Clase 10 de 17 • Curso de Matemáticas para Data Science: Probabilidad

Contenido del curso

Incertidumbre y probabilidad

Fundamentos de probabilidad

Distribuciones de probabilidad

MLE (Maximum Likelihood Estimation)

Inferencia bayesiana

Tomar examen

Resumen

¿Cómo estimar una distribución de probabilidad?

Estimando distribuciones de probabilidad, podemos transformar datos complejos en información útil para la toma de decisiones. La esencia del machine learning es ajustar una distribución de probabilidad a un conjunto de datos, lo que nos permite realizar predicciones más precisas. Ahora vamos a adentrarnos en cómo hacerlo usando Python y Google Colab.

¿Qué herramientas necesitamos?

Para esta tarea, nos apoyaremos en algunas herramientas esenciales:

Python y Google Colab: un entorno interactivo ideal para ejecutar código Python en la nube.
Bibliotecas de Python: como NumPy para manejo de datos y SciPy para funciones matemáticas, y Matplotlib para visualización.

Comencemos por importar nuestras librerías esenciales:

import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import norm

¿Cómo generamos datos artificiales?

Es importante comprender que no siempre utilizamos datos del mundo real. En ocasiones, generamos datos de manera artificial para realizar pruebas y entender mejor el comportamiento de una distribución. Aquí es donde interviene un generador aleatorio de números basado en una distribución normal. Vamos a generar 10,000 datos:

import numpy.random as random

# Generamos 10,000 datos de una distribución normal
sample = random.normal(loc=50, scale=5, size=10000)

# Visualizamos con un histograma
plt.hist(sample, bins=30, density=True, alpha=0.6, color='g')

¿Cómo realizamos una estimación paramétrica?

La estimación paramétrica se centra en suponer que los datos se ajustan a una distribución conocida y "forzar" los parámetros sobre ellos. Vamos a construir un muestra con un promedio de 50 y una desviación estándar de 5.

# Media y desviación estándar estimadas
mu = np.mean(sample)
sigma = np.std(sample)

# Ajuste de la función de densidad de probabilidad (PDF)
dist = norm(mu, sigma)

# Generamos valores y evaluamos la PDF
values = np.arange(30, 70, 1)
probabilities = [dist.pdf(value) for value in values]

# Graficamos el histograma y la PDF
plt.plot(values, probabilities, lw=2)
plt.show()

¿Qué es una estimación no paramétrica?

Cuando los datos no se alinean bien con una sola distribución, recurrimos a métodos no paramétricos. La librería Scikit Learn resulta ser muy valiosa, allí utilizamos una técnica llamada estimación de densidad de kernel. Esta técnica es ideal cuando tenemos distribuciones complejas como la bimodal.

from sklearn.neighbors import KernelDensity

# Generamos dos conjuntos de datos
data1 = random.normal(loc=20, scale=5, size=5000)
data2 = random.normal(loc=40, scale=5, size=5000)
sample_bimodal = np.hstack([data1, data2])

# Configuramos y ajustamos el modelo de densidad de kernel
kde = KernelDensity(bandwidth=2.0, kernel='gaussian')
kde.fit(sample_bimodal.reshape(-1, 1))

# Calculamos probabilidades
log_dens = kde.score_samples(values.reshape(-1, 1))

# Graficamos el histograma y la estimación KDE
plt.plot(values, np.exp(log_dens), '-')
plt.hist(sample_bimodal, bins=50, density=True, alpha=0.5)
plt.show()

¿Cómo elegimos el método adecuado?

La elección entre una estimación paramétrica y no paramétrica depende del tipo de datos con el que trabajas. Si los datos siguen una distribución conocida, la estimación paramétrica es más sencilla y directa. Sin embargo, para distribuciones complejas o desconocidas, la estimación no paramétrica ofrece una mayor flexibilidad, aunque puede ser más sensible a parámetros como el suavizado de kernel.

En definitiva, el machine learning y la ciencia de datos nos invitan constantemente a utilizar y afinar estas herramientas, siempre buscando el modelo que mejor represente la realidad de los datos con los que trabajamos. Avanza y experimenta, que la práctica será tu mejor maestro. ¡Continúa explorando este apasionante campo!

Ivan Ezequiel Mazzalay

student•

Estimación Paramétrica

Se basa realizar el cálculo de una distribución teórica, cuyos parámetros se basan en la información o en el conjunto de datos con el que estamos trabajando. En el ejemplo en clase, primero se calcula un conjunto de datos aleatorios, que sigue a una distribución normal, cuya media será 50 y el desvío estandar será de 5. Esto se genera a partir de la siguiente línea de código:

sample = normal(loc = 50, scale = 5, size = 1000) #Donde loc es la media y scale el desvío estandar

Si graficamos el resultado, veremos algo como lo expuesto en la siguiente imagen, la cual tiene una forma de distribución normal:

El siguiente paso es calcular una función teórica que se ajuste al conjunto de datos. En este caso se conoce la media y el desvío porque los colocamos nosotros para realizar la simulación, pero en una situación real, se debe calcular la media y el desvío tal como lo hizo el profe, y esto se ve en la siguiente línea de código:

mu = sample.mean()
sigma = sample.std()

Con estos valores, se crea una instancia de un objeto cuyos parámetros son precisamente mu y sigma. Es decir, tenemos la base para aplicar la fórmula de la función de distribución Gauseana, pero nos fatan los valores sobre los cuales vamos a calcular esas probabilidades. Entonces primero se crea el objeto y luego se genera un array cuyo rango va a variar entre los extremos de los datos reales y calculamos las probabilidades. Todo esto se ejecuta en las siguientes líneas de código:

dist = norm(mu, sigma)
values = [value for value in range(30,70)]
probabilidades = [dist.pdf(value) for value in values]

Si graficamos ahora solo la función teórica nos queda lo siguiente:

Finalmente, graficamos los datos y la curva teórica calculada y observamos que se asemejan.

Estimación No Paramétrica

Este proceso se aplica cuando los datos no se ajustan a una distribución conocida. Entonces no forzamos ajustar los datos a una única distribución, sino a un conjunto de distribuciones. En este ejemplo, el profe utiliza un método que ya viene incluído dentro de la librería de ScikitLearn, el cual se llama Kernel Density Estimation. Para ello, primero se simulan dos conjuntos de datos a través de dos funciones normales y se juntan en luego en una sola variable a través del método hstack(). Esto lo vemos en las siguientes líneas del código:

sample1 = normal(loc = 20, scale = 5, size = 300)
sample2 = normal(loc = 40, scale = 5, size = 700)
sample = hstack((sample1, sample2))

El resultado lo vemos en la siguiente imagen:

Luego, una vez que tenemos los datos simulados, comienza el proceso de estimación, para ello se crea un objeto modelo, el cual se instancia a través de los parámetros bandwidth (parámetro de suavizado) y kernel (funciones de distribución que se usan para la estimación). Esto es equivalente al método anterior, donde teníamos la función normal teórica, y luego calculábamos las probabilidades, solo que ahora no tenemos solo una función de densidad de probabilidad, sino un conjunto de distribuciones. Una vez creado el objeto, se ajustan los datos a las necesidades del objeto, para esto se utiliza el método reshape, el cual los ordena en una matriz de 1000 filas y 1 columna y luego se ajusta el modelo a estos datos. Esto se hace con las siguientes líneas de codigo:

model = KernelDensity(bandwidth = 2, kernel = 'gaussian')
sample = sample.reshape((len(sample), 1))
model.fit(sample)

Ahora, como dije antes, estamos ajustando el modelo a los datos, es como si estuvieramos calculando la media y el desvío estandar de una distribución normal pero nos faltan calcular los promodios para darle forma a la función teórica. Esto es lo que hacemos a continuación, se crea un array en el rango de los datos reales sobre cuales queremos estimar la función, y luego calculamos las probabilidades. Esto se hace en las siguientes líneas del código. Una aclaración, el cálculo de forma logarítimica tiene que ver con la complejidad algorítmica, es una cuestión de eficiencia. Luego a través de función inversa, la exponencial, obtenemos las probabilidades.

values = np.asarray([value for value in range(1, 60)])
values = values.reshape((len(values), 1))
probabilities = model.score_samples(values) #probabilidad logarítmica para facilitar los calculos
probabilities = np.exp(probabilities)  # inversión de probabilidad obtenemos el valor original

Esto nos devuelve la siguiente curva:

La cual, en conjunto con los datos finalmente queda de la siguiente forma:

Espero que les sirva, me costó un poco entenderlo al principio, hasta que dí con la tecla. Saludos!

Jaime Escobedo Vargas

student•

Me ayudaron a comprender, gracias por postear!!

Ivan Ezequiel Mazzalay

student•

De nada Jaime!! Me alegro que haya servido!!! :)

Valenttina Cardozo

Harold Giovanny Uribe Romero

David Amador Morales

Carlos Daniel Dávila Maldonado

Josue Gonzalez

Juan José Mamani Tarqui

frank hurtado

Usuario anónimo

user•

David E Marquez S

Diego Fernando Torres Coy

Jeinfferson Bernal G

Rubén Cuello

clint martinez

Julio Cesar Paz Zepeda

Adrian Duran

Pablo Reyes Abarca

Daniel Andrés Giraldo Benites

Naren Fragozo

Tomas Filippo

Bryan Duarte

JAVIER SANTIAGO SALGADO

Diego Alejandro Lesmes

Rene Rosas

Javier Vazquez Perez

Matías Collado

Daniel David Mármol Rivero

Pablo Robledo

Patricia Rodríguez Martínez

Gregorio Alfonso De León Martínez

Daniel Noreña

Federico Nahuel Gonzalez

José Rodrigo Arana Hi

Estimación de Distribuciones de Probabilidad en Google Colab

Incertidumbre y probabilidad

Fundamentos de Probabilidad para Ciencia de Datos

Probabilidad en Machine Learning: Fuentes de Incertidumbre y Modelos

Fundamentos de probabilidad

Tipos de Probabilidad: Conjunta, Marginal y Condicional

Probabilidades Condicionales y Correlación de Eventos Aleatorios

Paradojas de Probabilidad: Niño o Niña y Monty Hall

Distribuciones de probabilidad

Funciones y Distribuciones de Probabilidad en Cálculo

Distribuciones Discretas: Bernoulli y Binomial

Cálculos con Distribución Binomial en Google Colab usando Python

Análisis de Distribuciones Continuas: Enfoque en la Gaussiana