Análisis de Distribuciones Continuas: Enfoque en la Gaussiana

Clase 9 de 17 • Curso de Matemáticas para Data Science: Probabilidad

Resumen

¿Qué son las distribuciones continuas y cómo se relacionan con la distribución normal?

Las distribuciones continuas juegan un papel crucial en el análisis de variables aleatorias que pueden asumir valores infinitos, no necesariamente enteros. Un ejemplo icónico es la distribución normal o Gaussiana, conocida visualmente como la "campana de Gauss". Es fundamental porque modela de manera efectiva muchos fenómenos naturales, reflejando cómo los datos tienden a agruparse en torno a un valor medio.

La distribución normal se define mediante su media ((\mu)) y su desviación estándar ((\sigma)), parámetros que determinan su forma y comportamiento. Con herramientas matemáticas y computacionales, como el lenguaje Python y librerías como NumPy y Matplotlib, podemos visualizar y manipular esta distribución.

¿Cómo implementar la distribución normal en Python?

Para trabajar con la distribución normal en Python, emplearemos principalmente bibliotecas como NumPy, Matplotlib, y SyPy. Aquí tienes un resumen del procedimiento para crear y graficar una distribución Gaussiana:

Definición de la Función Gaussiana
Podemos representar matemáticamente una distribución normal usando una función exponencial en Python. La función toma como parámetros la media ((\mu)), la desviación estándar ((\sigma)), y el valor de la variable aleatoria ((x)):
```
import numpy as np

def gaussian(x, mu, sigma):
    return (1 / (sigma * np.sqrt(2 * np.pi))) * np.exp(-0.5 * ((x - mu) / sigma) ** 2)
```

Generación de Datos y Gráfica
Con ayuda de NumPy y Matplotlib podemos generar valores y mostrar su comportamiento mediante gráficos:

import matplotlib.pyplot as plt

x = np.arange(-4, 4, 0.1)
y = gaussian(x, mu=0, sigma=1)
plt.plot(x, y)
plt.title('Distribución Normal Gaussian')
plt.xlabel('Variable aleatoria')
plt.ylabel('Densidad de Probabilidad')
plt.show()

Uso de SyPy para Distribuciones
SyPy ofrece herramientas para construir y trabajar con distribuciones normales, más fácilmente permitiendo cálculos de densidades y acumulados:
```
from scipy.stats import norm

prob_density = norm.pdf(x, mu=0, sigma=1)
plt.plot(x, prob_density)
plt.title('Función de Densidad de Probabilidad')
plt.show()
```

¿Cómo analizamos datos reales con la distribución normal?

Analizar datos reales bajo el modelo de distribución normal nos permite verificar si los fenómenos observados siguen las líneas de una distribución Gaussian. Vamos a explorar esto con un ejemplo de análisis de datos del tamaño de las alas de mosquitos:

Carga y Preparación de los Datos
Usamos Pandas para leer datos desde un archivo Excel y extraer las medidas del conjunto de datos.

import pandas as pd

df = pd.read_excel('s057.xls')
wing_sizes = df['Normally Distributed Housefly Wing Lengths'].dropna().values

Cálculo del Promedio y Desviación Estándar
Estos valores nos ofrecerán los parámetros necesarios para ajustar la distribución Gaussiana a nuestros datos:
```
mu = np.mean(wing_sizes)
sigma = np.std(wing_sizes)
```

Gráfica de Datos y Modelo Gaussiano
Al superponer el modelo al histograma de datos reales, validamos la hipótesis de normalidad:

x_range = np.arange(30, 60, 0.1)
pdf = norm.pdf(x_range, mu, sigma)
plt.hist(wing_sizes, bins=20, density=True, alpha=0.5, color='g')
plt.plot(x_range, pdf, 'k')
plt.title('Distribución de Longitud de Alas')
plt.xlabel('Longitud de Ala (mm)')
plt.ylabel('Frecuencia')
plt.show()

A través de estas herramientas y métodos, la distribución normal nos brinda una poderosa forma de entender y modelar datos reales. Es fascinante ver cómo patrones estadísticos se reflejan en gráficos a través de bellas curvas Gaussianas. Continúa explorando y experimentando con datos reales para reconocer la omnipresencia de las distribuciones normales en el mundo que nos rodea.

Sergio Alejandro Martínez

student•

Sin palabras, Una clase perfecta!!!

Daniel Andrés Giraldo Benites

student•

el profesor explica los conceptos de forma muy clara

Juan R. Vergara M.

student•

SI, excelente.

Camilo Gomez Osorio

student•

En la distribución Normal (Gaussiana) a partir de los datos del Excel debería ser

arr = df['Normally Distributed Housefly Wing Lengths'].values[3:]

En vez de

arr = df['Normally Distributed Housefly Wing Lengths'].values[4:]

Ya que Python inicia el conteo desde 0 y no desde 1, por lo que se está perdiendo el primer dato.

Wilder Bravo

student•

Tienes razón, buen aporte.

Bryan Duarte

student•

Este curso me está exigiendo bastante, pero a la vez estoy muy feliz con ello, porque en esa escalada de exigencia ̷y̷ ̷s̷u̷f̷r̷i̷m̷i̷e̷n̷t̷o̷ el profesor explica muy bien, y dándole ̷u̷n̷o̷s̷ ̷c̷a̷b̷e̷z̷a̷z̷o̷s̷ ̷a̷l̷ ̷t̷e̷c̷l̷a̷d̷o̷ una vuelta, se logra entender.

Muy bien hasta aquí (～￣▽￣)～

Christian Sanclemente

student•

Si jajaja, a veces estos temas se ponen complejos, pero el todo es practicar mucho.

Daniel Andrés Giraldo Benites

student•

créeme que es de los cursos que mas me han gustado a pesar de haberme complicado algunos conceptos me gusta el echo de aprender cosas nuevas

Daniel Andrés Giraldo Benites

student•

Y pensar que esto es solo el inicio de todo el mundo de distribuciones existentes:

Sebastián Andrade

student•

Hola, hice una estimacion parametrica de la velocidad a la que viajan los asteroides que estuvieron mas cerca de nuestro planeta en los primeros 7 dias de febrero usando una de las API de la NASA para recolectar los datos

desafortunadamente no se ajusto a la distribucion

Sebastián Andrade

student•

Probablemente con un dataset mas grande lo hubiese hecho pero el limite la la API son 7 dias nada mas, sin embargo me gusto hacer el experimento

Sebastián Andrade

student•

He cambiado el plot de barras por un hist y creo que se ve mejor el ajuste

Joel Eduardo Gaspar

student•

Vengo superfrustrado del curso de Análisis de datos con python porque se manejan muchos términos que se dan por hecho que se conocen, pero hasta el momento no había curso en la plataforma que diera esas bases. El anterior curso de probabilidad y estadística tenía cosas muy básicas y nada aplicado en código. Espero que con este curso cambie un poco eso. Hasta el momento va excelente!

Francisco Camacho

teacher•

me alegro que te este gustando y que sea claro e iluminador, cuentame mas de los conceptos y vacios que haga falta profundizar.

Daniel Andrés Giraldo Benites

student•

Este curso complementa muy bien el de análisis de datos con Python.. es muy bueno para obtener la base teórica requerida

Juan Sebastian Villalba Torres

student•

Pueden cargar el archivo con los datos a Google Colab sin la necesidad de descargar algún archivo de manera local. Se usa la url donde estan los datos. y el método pd.read_csv() Quedaria de la siguiente forma

url = 'https://seattlecentral.edu/qelp/sets/057/s057.txt'
df = pd.read_csv(url)
arr = df
values, dist = np.unique(arr, return_counts=True)
print(values)
plt.bar(values, dist)

Rafael Rivera

student•

Gran aporte Juan, gracias por compartir,

Me estaba sacando el siguiente error:

ImportError                               Traceback (most recent call last)
<ipython-input-7-b5bcfca36080> in <module>()
----> 1 df = pd.read_excel('s057.xls')
      2 arr = df['Normally Distributed Housefly Wing Lengths'].values[4:]
      3 values, dist = np.unique(arr, return_counts=True)
      4 print(values)
      5 plt.bar(values, dist)

4 frames
/usr/local/lib/python3.7/dist-packages/pandas/compat/_optional.py in import_optional_dependency(name, extra, errors, min_version)
    139                 return None
    140             elif errors == "raise":
--> 141                 raise ImportError(msg)
    142 
    143     return module

ImportError: Pandas requires version '1.2.0' or newer of 'xlrd' (version '1.1.0' currently installed).

Actualicé pandas pero nada, tu opción fue lo correcto.

sebastián Giraldo Vargas

student•

muchas gracias!

Diego Camilo Araque Barrera

student•

A continuación adjunto un resumen de la clase:

Camilo Gomez Osorio

student•

En la distribución Normal (Gaussiana) a partir de los datos del Excel debería ser arr = df['Normally Distributed Housefly Wing Lengths'].values[3:]

En vez de arr = df['Normally Distributed Housefly Wing Lengths'].values[4:]

Ya que Python inicia el conteo desde 0 y no desde 1, por lo que se está perdiendo el primer dato.

Tomas Dale

student•

Buen punto

Daniel Noreña

student•

Hola, algo que no me quedo muy claro es la diferencia entre pdf y pmf? Entendí que se refieren a lo mismo pero no estoy seguro de ello.

Jacobo G. Cerdán

student•

Si se compara, indica que los formatos de archivo PDF son más comunes en uso en comparación con los formatos de archivo PMF. Pero en los aspectos de seguridad, los formatos de archivo PMF son más seguros que los formatos de archivo PDF, ya que tienen la capacidad de proteger el contenido y, por lo tanto, proporcionar la confidencialidad adecuada a los datos. Ambos también se asemejan a la funcionalidad que los usuarios sin licencia solo pueden leer en el formato correspondiente.

Si quieres saber más, entra a esta página: https://sooluciona.com/diferencias-entre-pdf-y-pmf/

Sebastián Andrade

student•

te refieres a pdf y cdf?

SI te refieres a esto, la cdf es la probabilidad acumulada, es decir la integral de la funcion debido a que es una funcion continua, si fuera discreta seria la sumatoria.

Miguel Angel Reyes Moreno

student•

Minuto 12:13, es a partir del elemento 3! Los datos numéricos empiezan con 36, entonces la instrucción sería

df['Normally Distributed Housefly Wing Lengths'].values[3:]

Daniel Andrés Giraldo Benites

student•

umm he visto que otros compañeros han puesto lo mismo peor no entiendo porque?

Maria Alejandra Diaz Rojas

student•

Daniel, si abres el excel puedes ver que el primer valor es 36. Si te fijas en detalle el primer array que nos da python sobre los datos, quitando las posiciones donde hay strings, se empieza con 36. Como python, con los arreglos toma la primera posición como [0], por eso se empieza desde el 3.

Diego Fernando Torres Coy

student•

#EXERCISE TO PRACTICE CONTINUOUS DISTRIBUTION

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import norm

#Transforming continuous distribution formula, into code (density dist)

def gaussian(x,mu,sigma):
    return 1/(sigma*np.sqrt(2*np.pi))*np.exp(-0.5*pow((x-mu)/sigma,2))

#Using scipy Acumulated distribution 

dist= norm(0,1)
x_1=np.arange(-4,4,0.1)
y_1=[dist.cdf(value) for value in x_1]



if __name__ == "__main__":
    x= np.arange(-4,4,0.1)
    y= gaussian(x,0.0,1.0)
    plt.plot(x,y)
    plt.savefig('barras_cont.png')
    plt.show

    plt.plot(x_1,y_1)
    plt.savefig('barras_cont_2.png')
    plt.show

#EXERCISE TO PRACTICE CONTINUOUS DISTRIBUTION - WINGS SIZE OF FLIES 
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import norm

df= pd.read_excel('s057.xls')
arr= df['Normally Distributed Housefly Wing Lengths'].values[3:]
values,dist= np.unique(arr,return_counts=True)


if __name__ == "__main__":
    plt.bar(values,dist)
    plt.savefig('flies.png')
    plt.show

Daniel Andrés Giraldo Benites

student•

uff genial muchas gracias por compartir tu código

CRISTIAN BARBERO PÉREZ

student•

El término 1/σ√2Pi sirve para normalizar la distribución. Esto quiere decir que las probabilidad de que el valor esté entre menos infinito y más infinito tiene que ser igual a 1 (al 100%). Esto se traduce en que la integral de P(X), es decir el área bajo la curva, es igual a 1. De ahí que el valor máximo de la probabilidad acumulada también sea 1.

Alfonso Morán

student•

Pero de donde sale el raíz de 2*pi?

CRISTIAN BARBERO PÉREZ

student•

Es el resultado de la integral, aquí puedes ver como lo demuestran

Joseph Lázaro Ricardo

student•

Pandas requires version "1.2.0" or higher, imprimo la version de Pandas en Colab y dice 1.3.5 entonces si cumple, no se como arreglarlo.

¿Alguien me puede ayudar?

Tom Enrique Calderón Ramos

student•

Me pasó lo mismo, usa:

!pip install xlrd==2.0.1

Gabriela Obregón Ortiz

student•

Excelente ¡muchas gracias! estaba con el mismo problema.

Diego Alejandro Lesmes

student•

Buena clase, hasta esa explicación fue muy adecuada "pandas es la version de excel para python"... jajaj :green_heart:

Daniel Andrés Giraldo Benites

student•

jajaja mori con esa definición

Fernando Rodriguez-izquierdo Serrano

student•

Para poder ejecutar correctamente el apartado "Distribución normal (gausiana) a partir de los datos" he necesitado añadir la siguiente linea al comienzo del notebook.

!pip install xlrd==1.2.0

David Castillo

student•

A mi tambien me pidió atualizar la versión de panda. Lo bueno es con los mensajes de error uno puede investigar mucho jejeje.

Rodrigo Garza

student•

Gracias a este ayuda logré continuar la clase, indispensable para los que toman el curso ahora (en mi caso junio de 2022)

Edwin Barbosa Rodriguez

student•

El link del archivo en excel no esta disponible. Seria importante poderlo dejar en los recursos de las clase. Saludos.

Carlos Mazzaroli

student•

Adrian Duran

student•

Será que algún día lograré saber tanto como el profe (?) Who knows....

Aaron Contreras Garibay

student•

Tambien pueden usar el excel directamente desde la url.

df = pd.read_excel('https://seattlecentral.edu/qelp/sets/057/s057.xls')

Leandro Tenjo

student•

Buen truco. Así no hay que importar el archivo cada vez

Gracias ✌🏼

ImportError                               Traceback (most recent call last)
<ipython-input-7-b5bcfca36080> in <module>()
----> 1 df = pd.read_excel('s057.xls')
      2 arr = df['Normally Distributed Housefly Wing Lengths'].values[4:]
      3 values, dist = np.unique(arr, return_counts=True)
      4 print(values)
      5 plt.bar(values, dist)

4 frames
/usr/local/lib/python3.7/dist-packages/pandas/compat/_optional.py in import_optional_dependency(name, extra, errors, min_version)
    139                 return None
    140             elif errors == "raise":
--> 141                 raise ImportError(msg)
    142 
    143     return module

ImportError: Pandas requires version '1.2.0' or newer of 'xlrd' (version '1.1.0' currently installed).

#EXERCISE TO PRACTICE CONTINUOUS DISTRIBUTION

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import norm

#Transforming continuous distribution formula, into code (density dist)

def gaussian(x,mu,sigma):
    return 1/(sigma*np.sqrt(2*np.pi))*np.exp(-0.5*pow((x-mu)/sigma,2))

#Using scipy Acumulated distribution 

dist= norm(0,1)
x_1=np.arange(-4,4,0.1)
y_1=[dist.cdf(value) for value in x_1]



if __name__ == "__main__":
    x= np.arange(-4,4,0.1)
    y= gaussian(x,0.0,1.0)
    plt.plot(x,y)
    plt.savefig('barras_cont.png')
    plt.show

    plt.plot(x_1,y_1)
    plt.savefig('barras_cont_2.png')
    plt.show

#EXERCISE TO PRACTICE CONTINUOUS DISTRIBUTION - WINGS SIZE OF FLIES 
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import norm

df= pd.read_excel('s057.xls')
arr= df['Normally Distributed Housefly Wing Lengths'].values[3:]
values,dist= np.unique(arr,return_counts=True)


if __name__ == "__main__":
    plt.bar(values,dist)
    plt.savefig('flies.png')
    plt.show

Análisis de Distribuciones Continuas: Enfoque en la Gaussiana

Incertidumbre y probabilidad

Fundamentos de Probabilidad para Ciencia de Datos

Probabilidad en Machine Learning: Fuentes de Incertidumbre y Modelos

Fundamentos de probabilidad

Tipos de Probabilidad: Conjunta, Marginal y Condicional

Probabilidades Condicionales y Correlación de Eventos Aleatorios

Paradojas de Probabilidad: Niño o Niña y Monty Hall

Distribuciones de probabilidad

Funciones y Distribuciones de Probabilidad en Cálculo

Distribuciones Discretas: Bernoulli y Binomial

Cálculos con Distribución Binomial en Google Colab usando Python

Análisis de Distribuciones Continuas: Enfoque en la Gaussiana

Estimación de Distribuciones de Probabilidad en Google Colab

MLE (Maximum Likelihood Estimation)

Estimación de Máxima Verosimilitud en Modelado Estadístico

Regresión Lineal con Estimación de Máxima Verosimilitud en Machine Learning

Regresión Logística y Estimación de Máxima Verosimilitud

Visualización de Máxima Verosimilitud en Regresión Logística

Inferencia bayesiana

Teorema de Bayes: Aplicación en Diagnósticos Médicos

Clasificación Bayesiana y el Algoritmo Naive Bayes

Ejercicios de Probabilidad para Ciencia de Datos