Ejercicios de Probabilidad para Ciencia de Datos

Curso de Matemáticas para Data Science: Probabilidad

Contenido del curso

Incertidumbre y probabilidad

Fundamentos de probabilidad

Distribuciones de probabilidad

MLE (Maximum Likelihood Estimation)

Inferencia bayesiana

Tomar examen

Te doy la bienvenida al último paso de este curso de probabilidad para ciencia de datos. Es momento de que pongas a prueba todo lo que has aprendido.

Completa los ejercicios que se proponen en cada una de las notebooks de Colab de diferentes temas cada una. Recuerda compartir tus resultados o dudas en los comentarios para que entre todos podamos apoyarnos.

Tipos de probabilidad

Los diferentes tipos de probabilidades que existen con frecuencia generan algo de confusión, estos ejercicios te permitirán fortalecer el entendimiento de estos conceptos:

https://colab.research.google.com/drive/1yQFCKo2GHtbJui0szPjLhAJSjpivBeun?usp=sharing

Distribuciones de probabilidad

Luego de que entendemos que hay diferentes tipos de probabilidades, el concepto de distribución de probabilidad nos dice que podemos usar funciones matemáticas para mapear cada ocurrencia posible de una variable aleatoria a un número que es la probabilidad de esa ocurrencia.

En este conjunto de retos exploramos más a fondo el cálculo con distribuciones discretas, especialmente la binomial:

https://colab.research.google.com/drive/10xbi88L6alsPC8-cec_6VuUeh7ttFaEF?usp=sharing

Mientras que en este otro conjunto de retos exploramos más a detalle la distribución gaussiana como representante de las distribuciones continuas:

https://colab.research.google.com/drive/1OVQ0fwQ1q1lPFjmjPHyuCkD58SZfm4o9?usp=sharing

Estimación de densidades de probabilidad

Uno de los métodos más importantes para estimar densidades de probabilidad es el MLE (Maximum Likelihood Estimation), del cual podrás profundizar en este reto:

https://colab.research.google.com/drive/19F8F0ID9ErtiHUNbWsOIJ7f22u7jjS0d?usp=sharing

Teorema de Bayes y machine learning

Finalmente, encontrarás en la siguiente notebook un ejemplo donde se profundiza el desarrollo de un clasificador de Naive Bayes. Aquí verás por qué es importante el uso de distribuciones iniciales para ajustar las verosimilitudes con el fin de poder aplicar tus modelos a datos que no estaban en el dataset original de entrenamiento:

https://colab.research.google.com/drive/1XbQ6-5Ax8Pksik2MR2kWB87ay85RMX2b?usp=sharing

Ahora que tienes claros estos conceptos, a través del desarrollo de estos retos, espero que hayas disfrutado del curso y que con esto tengas toda la motivación para continuar con lo que sigue en temas de matemáticas, machine learning y ciencias de datos en general. Nos vemos en la próxima. ¡Nunca pares de aprender! 💚

Ejercicios de Probabilidad para Ciencia de Datos

Angel Estrada

Estudiante

Con respecto a las lecturas 9-10, en los primeros ejercicios las respuestas son las siguientes:

1.P(x=4)=0, muchos creerán que la respuesta sería el output de la función norm(4,0.1).pdf(4), la cual es 3.98, lo cual es falso, ya que ninguna probabilidad puede ser mayor a 1, lo que nos da esta función es el valor que toma la función de densidad, y al tratarse de una distribución de probabilidad continua, cuando se usa un número específico, la probabilidad es 0, dada la siguiente explicación los resultados siguientes son:

2.P(x=-10)=0

3.P(x=10)

4.P(x<=4)=0.5, esta al contrario de las anteriores, sí se resuelve con la función de distribución acumulada, la cual es norm(4,0.1).cdf(4)

5.P(x>=4)=0.5 y se resuelve de la siguiente forma: 1-norm(4,0.1).cdf(4)

Con respecto al siguiente ejercicio, es un poco más complicado. La forma en que yo lo resolví, es editando la función generate_binomial_trials para que nos retorne el arreglo, que utiliza para generar el histograma, de la siguiente forma:

def generate_binomial_trials(trials=1000, coin_toss=100):
  arr = []
  for _ in range(trials):
    arr.append(binomial(coin_toss, 0.5))
  values, dist = np.unique(arr, return_counts=True)

  return values, dist,arr

values, dist, arr= generate_binomial_trials(100000)

Posteriormente, esta lista la convierto a un arreglo de numpy para poder extraer la media y desviación estándar con el atributo .mean() y .std():

arr = np.array(arr)
mu = arr.mean()
sigma = arr.std()

dist = norm(mu, sigma)
x = np.arange(25,75,0.1)
y = [dist.pdf(value) for value in x]


#distribución teórica
plt.plot(x, y)

# datos
values, dist = np.unique(arr, return_counts=True)
plt.bar(values, dist/len(arr))
plt.show()

Ivan Ezequiel Mazzalay

Estudiante

Gracias!! Me trabé porque tomé mal los datos en un principio y no me ajustaba la curva, gracias a tu código, encontré donde estaba fallando! Mil gracias!

JAVIER SANTIAGO SALGADO

Estudiante

Gracias, mi hermano me había hecho un 8, tu código me ayudo muchísimo

Pablo Martino

Fabián Vega Alcota

Jonathan Mardones Guzmán

David Campos

Enrique Yael C

Wilson Montenegro

Ciro Villafraz

Rafael Rivera

Juan Camilo Arguelles Delgado

Jaime Escobedo Vargas

Sebastián Andrade

Mayra Carolina Morataya Guerra

Bruno Cornelio

Verni Brenes Gonzalez

Anthony Dugarte

Miguel Rodríguez

Gabriel Aristizabal Leon

Alfonso Andres Zapata Guzman

Alejandro Ramirez

Sebastian Garcia Andrade

Fernando Jesús Núñez Valdez

Nelson Ricardo Ramírez García

Jesús Andrés Miranda Roa

Yonatan Efraín Jara Boza

César Gabriel Carrasco Mejía

Valenttina Cardozo

Braulio Alberto Bueno Pabon

Camilo Velasquez

Jaime Eduardo González Meléndez

Ejercicios de Probabilidad para Ciencia de Datos

Incertidumbre y probabilidad

Fundamentos de Probabilidad para Ciencia de Datos

Probabilidad en Machine Learning: Fuentes de Incertidumbre y Modelos

Fundamentos de probabilidad

Tipos de Probabilidad: Conjunta, Marginal y Condicional

Probabilidades Condicionales y Correlación de Eventos Aleatorios

Paradojas de Probabilidad: Niño o Niña y Monty Hall

Distribuciones de probabilidad

Funciones y Distribuciones de Probabilidad en Cálculo

Distribuciones Discretas: Bernoulli y Binomial

Cálculos con Distribución Binomial en Google Colab usando Python

Análisis de Distribuciones Continuas: Enfoque en la Gaussiana

Estimación de Distribuciones de Probabilidad en Google Colab

MLE (Maximum Likelihood Estimation)

Estimación de Máxima Verosimilitud en Modelado Estadístico

Regresión Lineal con Estimación de Máxima Verosimilitud en Machine Learning

Regresión Logística y Estimación de Máxima Verosimilitud

Visualización de Máxima Verosimilitud en Regresión Logística

Inferencia bayesiana

Teorema de Bayes: Aplicación en Diagnósticos Médicos

Clasificación Bayesiana y el Algoritmo Naive Bayes

Ejercicios de Probabilidad para Ciencia de Datos