Cálculos con Distribución Binomial en Google Colab usando Python

Clase 8 de 17 • Curso de Matemáticas para Data Science: Probabilidad

Contenido del curso

Incertidumbre y probabilidad

Fundamentos de probabilidad

Distribuciones de probabilidad

MLE (Maximum Likelihood Estimation)

Inferencia bayesiana

Tomar examen

Resumen

Calcular probabilidades a mano es fundamental para entender la teoría, pero dominar su implementación en código es lo que realmente potencia el análisis de datos. Aquí se explora cómo programar la distribución binomial en Python usando Google Colab, desde escribir la fórmula desde cero hasta validar resultados con librerías especializadas y generadores aleatorios que evidencian la filosofía frecuentista.

¿Cómo configurar el entorno en Google Colab para trabajar con probabilidad?

El entorno de trabajo es Google Colab, accesible desde colab.research.google.com asociando una cuenta de Gmail. No necesitas instalar nada en tu computador: todo se ejecuta en el navegador. Solo verifica que aparezca el ícono verde de conexión para confirmar que la instancia está activa [0:47].

Las librerías utilizadas son:

NumPy: manejo de matrices y arreglos numéricos. Se importa binomial desde numpy.random para generar números aleatorios basados en la distribución binomial.
SciPy: proporciona la función binom que implementa directamente la distribución binomial con sus atributos de densidad y acumulada.
math: incluye la función factorial, esencial para calcular combinatorios.
Matplotlib: librería de visualización que se importa como plt y permite crear gráficos de barras y otras representaciones [1:15].

¿Cómo programar la fórmula binomial desde cero en Python?

La función mi_binomial recibe tres parámetros: K (número de éxitos), n (número de lanzamientos) y p (probabilidad de éxito). Su estructura replica exactamente la fórmula matemática del combinatorio multiplicado por las potencias de éxito y fracaso [2:10].

El combinatorio se calcula como factorial(n) / (factorial(K) * factorial(n - K)). Las potencias se expresan con la función pow: pow(p, K) para la probabilidad de éxito elevada al número de éxitos, y pow(1 - p, n - K) para la probabilidad de fracaso elevada al número de fracasos [2:45].

Para validar, se calcula la probabilidad de obtener dos caras en tres lanzamientos con p = 0.5. El resultado es 0.375, equivalente a tres octavos, coincidiendo con el cálculo manual [3:30].

¿Qué ventaja ofrece SciPy frente a la implementación manual?

Con SciPy se construye la distribución usando binom(n=3, p=0.5), y se evalúa con el atributo PMF (probability mass function), que equivale a la densidad de probabilidad. El resultado es idéntico: 0.375 [4:10].

También existe el atributo CDF (cumulative density function), que calcula la función de distribución acumulada. Al evaluar dist.cdf(2), se obtiene la probabilidad de obtener dos o menos caras, que es 0.875 o siete octavos [5:15].

¿Qué son los generadores aleatorios y cómo validan la filosofía frecuentista?

Un generador aleatorio simula muestras de datos como si provinieran de experimentos reales. Son algoritmos determinísticos que se aproximan a procesos aleatorios, permitiendo simular lanzamientos de monedas o dados sin hacerlos físicamente [6:30].

La escuela frecuentista sostiene que la probabilidad teórica se cumple cuando el número de experimentos tiende a ser muy grande. Que una moneda tenga 50% de probabilidad de caer en cara no significa que de diez lanzamientos exactamente cinco sean cara, sino que la fracción se acerca al 50% conforme aumentan los intentos [7:05].

¿Cómo se simula y visualiza la convergencia frecuentista?

Se usa un ciclo for con la función binomial(n, p) de NumPy para ejecutar múltiples experimentos. Los resultados se almacenan en una lista mediante append [8:20].

Para obtener frecuencias se utiliza np.unique con el argumento return_counts=True, que identifica cada elemento único y cuenta sus apariciones. Dividiendo esos conteos entre el total se obtienen las probabilidades simuladas [9:40].

La visualización superpone dos diagramas de barras con Matplotlib:

Rojo: distribución simulada.
Azul: distribución teórica (calculada con PMF).
Se aplica transparencia con el argumento alpha para comparar ambas [11:05].

Con 20 experimentos, las distribuciones difieren notablemente. Con 200, comienzan a balancearse. Al realizar miles de experimentos, ambas distribuciones son prácticamente idénticas, confirmando el principio frecuentista [12:20].

Este esquema de simulación computacional es más común de lo que parece: cuando los experimentos reales son costosos, las versiones simuladas permiten validar hipótesis de forma económica y eficiente. ¿Has probado simular otras distribuciones con este mismo enfoque? Comparte tu experiencia.

Comentarios

Valenttina Cardozo

student•

Acá la solución a mano para validar el ejercicio. Me sirvió mucho para entender mejor!

Daniel Camilo Velez Malagon

student•

Hola Valenttina. Entiendo perfectamente el procedimiento excepto el final. Por que se suma 1/8 + 3/8 + 3/8 ? Supongo que por la sumatoria, pero no encuentro la lógica. Podrías explicarme?

Valenttina Cardozo

student•

Hola Daniel! Sí, la suma es por la sumatoria. Lo que se hace es calcular aparte la ecuación con cada k (0, 1 y 2) y luego sumar esos resultados.

Luis Ruiz Ramos

student•

Esta clase desde lo teórico hasta Python es muy buena.

Daniel Andrés Giraldo Benites

student•

esa es la idea principal del curso que tengamos fundamentos sólidos en lo teórico para luego poder aplicar nuestro condigo con sentido

Sergio Alejandro Martínez

student•

Alfredo Aguiar Arce

student•

Buen día compañero me podrías decir de que libro obtuviste esto?

Sergio Alejandro Martínez

student•

David R. Anderson Dennis J. Sweeney Thomas A. Williams

Si lo busca en el buscador , en el primer resultado lo encontrará para descargar en pdf, tiene 1090 pag

Carlos Rojas

student•

A mi me dio pereza calcularlo a papel pero lo hice en mi calculadora recordando los tiempos de universidad jaja :c

Jorge Eliécer Ortiz Ballesteros

student•

yo lo hice mentalmente y me dí cuenta por el camino que las sumas eran las probabilidades puntuales de cero, una y dos monedas, es decir, la explicación es muy buena pero resolver ese ejercicio me dejó muchas cosas muy claras.

Juan Riquelme

student•

No es necesario usar el for loop con binomial. Pueden definir arr:

p = 0.5
n = 3
arr = binomial(n,p,100)

Cesar Augusto Morales Godoy

student•

Validación del ejercicio a mano:

def my_binom(k, n, p):
  dic = []
  for i in range(k + 1):
    formula = factorial(n)/(factorial(i)*factorial(n-i)) * p**(i) * (1-p)**(n-i)
    dic.append(formula)
    
  return sum(dic)

my_binom(2, 3, 0.5)

# Output:
0.875

cdf = cumulative denceit function

binom(3, 0.5).cdf(2)

# Output:
0.875

Daniel Andrés Giraldo Benites

student•

gracias por compartir el código.. justo lo estaba buscando

Bryan

student•

No es necesario calcular la probabilidad k<=2, ósea k=0, k=1, k =2, solo necesitas la probabilidad de k=3 y le resta 1, 1-(k=3) y te dará exactamente lo mismo

Alejandro Cuello Maure

student•

Que atajo! Pero cabe explicar que eso solo funciona para el numero menor a n (numero de monedas lanzadas), en este caso lanzamos 3 y nos piden contar el acumulado hasta 2, entonces como la suma de todos los intentos debe dar uno, entonces el acumulado hasta 2 coincide con 1 - k=3 , si fuese por ejemplo n=4, no nos daria el mismo resultado de 1 - k=3 igual al acumulado hasta k=2.

Alejandro León

student•

Una pequeña corrección, tanto .pmf() como .cdf() son MÉTODOS del objeto dist, NO ATRIBUTOS. Excelente clase y Francisco de los mejores profesores que he visto en platzi hasta ahora.

Nicolas Barragan

student•

Acá les dejo otra forma de hacer el código en Python, de una manera frecuentista. Por ahí les sirva:

Esto demuestra, que efectivamente al realizar la simulación muchas veces, la probabilidad teórica y la dada por la simulación, es prácticamente la misma.

JAVIER SANTIAGO SALGADO

student•

Siempre he tenido letra fea, pero les dejo mi solución

Richard Eduardo Sailema Medina

student•

El factorial de cero es igual a 1: 0! = 1

francisco porro

student•

muy util

romina olivera

student•

César Gabriel Carrasco Mejía

student•

tengo una duda sobre el código, en la línea donde definen la distribución simulada, que significa el indicador [1]?

Josue Noha Valdivia

student•

Hola, cuando utilizas np.unique() con el parámetro return_counts=True te devuelve dos arreglos:

El primero con los valores únicos del arreglo inicial
El segundo con el conteo de repeticiones de cada valor El indicador [1] hace referencia a este segundo arreglo

César Gabriel Carrasco Mejía

student•

Muchas gracias!

Sandra Mazo

student•

Nelson Ricardo Ramírez García

student•

Gracias Sandra. Muy claro tu ejercicio 👍👍

Diego Fernando Torres Coy

student•

#EXERCISE TO PRACTICE BINOMIAL DISTRIBUTION 

import numpy as np 
from numpy.random import binomial
from scipy.stats import binom 
from math import factorial
import matplotlib.pyplot as plt 

#function that implements binomial distribution 
def my_binomial(k,n,p):
    return factorial(n)/factorial(k)*factorial(n-k)*pow(p,k)*pow(1-p,n-k)

#Example with scipy library Probability density
dist= binom(3,0.5).pmf(2)

#Accumulated Probability density/ second example
dist_2=binom(3,0.5).cdf(2) 

#Simulation with 100 launches of an equilibrated coin
p=0.5
n=3

def plot_graph(num_trials):
    values=[0,1,2,3]
    arr=[]
    for _ in range(100):
        arr.append(binomial(n,p))
    sim= np.unique(arr,return_counts=True)[1]/len(arr)
    teoric=[binom(3,0.5).pmf(k) for k in values]
    plt.bar(values,sim, color= 'red')
    plt.bar(values,teoric , alpha=0.5, color= 'blue')
    plt.title(f'Experiments {num_trials}')
    plt.savefig('barras.png')
    plt.show


if __name__ == "__main__":
    example= my_binomial(2,3,0.5)
    print(f'Example 1 {example}')
    print(f'Example 2 {dist}')
    print(f'Example 3 {dist_2}')
    plot_graph(2000)

Daniel Andrés Giraldo Benites

student•

genial gracias por compartir tu código

Erika Itzel Hernández López

student•

Les comparto el archivo en Colaboratory con los comentarios que se hicieron a lo largo de la clase

FRANCISCO VITERI

student•

![](

Daniel Andrés Giraldo Benites

student•

genial muchas gracias

Antonio Demarco Bonino

student•

Que lindo haber vivido en el S XXI y poder ver como una computadora puede sacar horas de cálculos humanos en segundos y poder simular escenarios que serían sumamente costosos de realizar.

Daniel Andrés Giraldo Benites

student•

algún curso que me recomienden para aprender más sobre gráficos estadísticos en Python?...

Centli Allan Garcés Buendia

student•

Este está bueno: https://www.kaggle.com/learn/data-visualization

Rubén Cuello

student•

"Tu comentario contiene enlaces a sitios no seguros."?

Kevin Fiorentino

student•

Compañero! Supongo que te refieres a cuando estás posteando un comentario en Platzi con algun enlace. Asegurate que el enlace sea HTTPS. Utiliza también el botón con el ícono de enlace para insertarlo. Y si estás copiando y pegando código fuente y este te lo reconoce como enlace, utiliza la opción </> para insertar código. Saludos!

Anthony Ismael Manotoa Moreno

student•

Hola :)

Si lo que quieres poner es un enlace, siempre debe estar en este formato: https://dominio.com Si no pones el https, te aparecerá eso.

Por otro lado, si no querías poner un enlace, lo puedes poner como línea de código o como bloque de código. Esto lo puedes hacer con este formato:

`codigo` <- pon ese par de `

Entonces se verá de esta manera: codigo

Y para un bloque de código solo da clic en la opción de los comentarios llamada </> Instertar código

def my_binom(k, n, p):
  dic = []
  for i in range(k + 1):
    formula = factorial(n)/(factorial(i)*factorial(n-i)) * p**(i) * (1-p)**(n-i)
    dic.append(formula)
    
  return sum(dic)

my_binom(2, 3, 0.5)

# Output:
0.875

#EXERCISE TO PRACTICE BINOMIAL DISTRIBUTION 

import numpy as np 
from numpy.random import binomial
from scipy.stats import binom 
from math import factorial
import matplotlib.pyplot as plt 

#function that implements binomial distribution 
def my_binomial(k,n,p):
    return factorial(n)/factorial(k)*factorial(n-k)*pow(p,k)*pow(1-p,n-k)

#Example with scipy library Probability density
dist= binom(3,0.5).pmf(2)

#Accumulated Probability density/ second example
dist_2=binom(3,0.5).cdf(2) 

#Simulation with 100 launches of an equilibrated coin
p=0.5
n=3

def plot_graph(num_trials):
    values=[0,1,2,3]
    arr=[]
    for _ in range(100):
        arr.append(binomial(n,p))
    sim= np.unique(arr,return_counts=True)[1]/len(arr)
    teoric=[binom(3,0.5).pmf(k) for k in values]
    plt.bar(values,sim, color= 'red')
    plt.bar(values,teoric , alpha=0.5, color= 'blue')
    plt.title(f'Experiments {num_trials}')
    plt.savefig('barras.png')
    plt.show


if __name__ == "__main__":
    example= my_binomial(2,3,0.5)
    print(f'Example 1 {example}')
    print(f'Example 2 {dist}')
    print(f'Example 3 {dist_2}')
    plot_graph(2000)

Cálculos con Distribución Binomial en Google Colab usando Python

Incertidumbre y probabilidad

Fundamentos de Probabilidad para Ciencia de Datos

Probabilidad en Machine Learning: Fuentes de Incertidumbre y Modelos

Fundamentos de probabilidad

Tipos de Probabilidad: Conjunta, Marginal y Condicional

Probabilidades Condicionales y Correlación de Eventos Aleatorios

Paradojas de Probabilidad: Niño o Niña y Monty Hall

Distribuciones de probabilidad

Funciones y Distribuciones de Probabilidad en Cálculo

Distribuciones Discretas: Bernoulli y Binomial