Estimación de Máxima Verosimilitud en Modelado Estadístico

Curso de Matemáticas para Data Science: Probabilidad

Contenido del curso

Incertidumbre y probabilidad

Fundamentos de probabilidad

Distribuciones de probabilidad

MLE (Maximum Likelihood Estimation)

Inferencia bayesiana

Tomar examen

Estimación de Máxima Verosimilitud en Modelado Estadístico

Resumen

¿Qué es la estimación de máxima verosimilitud (MLE)?

La estimación de densidades de probabilidad es una parte crucial en el análisis de datos, y la estimación de máxima verosimilitud (MLE, por sus siglas en inglés) es una técnica poderosa en este ámbito. MLE nos permite estimar estas densidades dentro de un esquema de trabajo flexible y generalizado. Aquí exploramos los elementos esenciales de esta técnica y su relevancia en el contexto de machine learning y análisis probabilístico.

¿Cuáles son los pasos para aplicar MLE?

Elección de una distribución: Al igual que en los métodos anteriores, es fundamental escoger la distribución de probabilidad adecuada para los datos. Por ejemplo, asumiendo una distribución normal cuando los datos siguen un patrón gausiano.
Selección de parámetros: Una vez elegida la distribución, la siguiente tarea es determinar los parámetros que mejor se ajusten a los datos. Estos parámetros pueden ser el promedio y la desviación estándar en el caso de una distribución normal.
Restricción frecuentista: En la práctica, la muestra de datos que analizamos es solo una representación parcial de una población más grande y desconocida. La estimación debe realizarse bajo esta limitación, lo que implica aceptar que la distribución de nuestra muestra puede diferir de la distribución real de toda la población.

¿Cómo se convierte MLE en un problema de optimización?

La MLE se formula como un problema de optimización en el que buscamos maximizar la probabilidad de que los datos sigan la distribución seleccionada. El proceso general es:

Definición de variables: ‘x’ representa los datos, y ‘θ’ son los parámetros de la distribución que queremos ajustar.
Función de verosimilitud: La probabilidad de ajustar los datos a la distribución seleccionada se denota como 'l', y el objetivo es maximizar esta función, encontrando los parámetros que lo hagan posible.
Factorización de las probabilidades: A menudo, se puede descomponer la probabilidad conjunta de los datos como el producto de probabilidades de puntos individuales.

¿Por qué usar el logaritmo en MLE?

Multiplicar muchas probabilidades pequeñas puede resultar en underflow, donde los números se vuelven demasiado pequeños para ser computables por las máquinas. Para evitar esto:

Uso del logaritmo: La propiedad matemática del logaritmo convierte el problema de multiplicar probabilidades en el de sumar logaritmos. Esto no solo previene el underflow, sino que transforma números muy pequeños en números grandes negativos, más manejables computacionalmente.

¿Cómo se maximiza el logaritmo de la verosimilitud?

El problema central de MLE gira en torno a encontrar el máximo del logaritmo de la función de verosimilitud, lo cual es equivalente a maximizar la suma de los logaritmos de las probabilidades individuales. Este enfoque simplifica el proceso de cálculo y asegura robustez numérica.

Al optimizar, el resultado nos proporciona la densidad de probabilidad que mejor se adapta a los datos disponibles.

¿Qué sigue en el aprendizaje?

Con un fundamento sólido en MLE, el siguiente paso es aplicarlo a casos específicos. En la próxima clase, se explorará cómo esta técnica se integra con otros métodos de machine learning, como la regresión lineal, para demostrar su eficacia en problemas prácticos de análisis de datos. ¡Mantente motivado y sigue profundizando en este fascinante campo!

Jeinfferson Bernal G

Estudiante

Estimacion de Maxima verosimilitud (MLE)

Estimar la distribucion de probabilidad de un conjunto de datos es un proceso muy importante en probabilidad.

MLE es un framework o esquema de trabajo para estimacion de densidades de probabilidad.

Elementos de MLE

Escoger la distribucion teniendo solo una muestra de los datos
Escoger los parametros de la distribucion que mejor ajustan la distribucion a los datos

Existe un problema general de MLE: los datos obedecen a una distribucion de probabilidad de una poblacion enorme, pero nunca se va a tener todo el conocimiento de esa poblacion por lo que la distribucion de probabilidad de la muestra es diferente a la de la poblacion. Esto dificulta resolver el problema general asociado a toda la poblacion generando restricciones:

Restriccion 1: escoger la Distribucion de probabilidad sobre una muestra de datos

Luego de seleccionada la muestra y la distribucion, ajustamos los parametros de la distribucion de manera que podamos encontrar la distribucion que mejor se ajuste a los datos (Es un problema de Machine Learning)

El MLE es un problema de optimizacion

Esquema de trabajo

Tenemos un conjunto de datos X y conjunto de parametros de la distribucion que queremos ajustar
Existe una probabilidad de ajustar los datos a una distribucion en concreto, lo cual genera otra distribucion de probabilidad que llamamos L

Como existen muchos conjuntos de parametros que van a permiter ajustar los datos con diferentes grados de probabilidad, se escoge aquella combinacion cuya probabilidad es la maxima posible
La distribucion de probabilidad sobre el conjunto de datos X, a veces, se puede factorizar como el productos de varias probabilidades donde cada probabilidad corresponde a cada valor de X

Cuando se factoriza las probabilidades que son numeros pequeños, se obtiene un numero cada vez mas pequeño lo cual genera un problema en las computadoras conocido como underflow
Para resolverlo, se aplica el logaritmo a las probabilidades ya que los logaritmos tienen una propiedad interesante: el logaritmo de un producto es la suma de los logaritmos. Esto convierte el problema de multiplicaciones a sumas lo cual es mas facil de computar

Finalmente se calcula el maximo del logaritmo de la verosimilitud L que es igual a calcular el maximo de sumar los logaritmos de las probabilidades individuales donde cada probabilidad corresponde a un valor de X y theta

Josue Noha Valdivia

Rafael Fernando Gonzalez

Jacobo Ayala Giraldo

Daniel Andrés Giraldo Benites

Andres López

Miguel Guillen Paz

Cesar Augusto Morales Godoy

Juan R. Vergara M.

Pablo Reyes Abarca

Axel Yaguana

Team Platzi

Cristian Ruben Pereyra

Paredes Ruben Victor

Jhon Guevara

Julio Cesar Paz Zepeda

María Angélica

Francisco Vinueza

Miguel Torres

Erika Itzel Hernández López

Alejandro Cuello Maure

clint martinez

Andrés David Lizarazo Becerra

David Andres Bautista Campos

Juan Sebastián Vargas Castañeda

Alejandro Jorge Gonzalez

Usuario anónimo

User

Cristian Felipe Perez Cifuentes

Miguel Rodríguez

Leandro triboulard

Jorge Leonardo Céspedes Tapia

Estimación de Máxima Verosimilitud en Modelado Estadístico

Incertidumbre y probabilidad

Fundamentos de Probabilidad para Ciencia de Datos

Probabilidad en Machine Learning: Fuentes de Incertidumbre y Modelos

Fundamentos de probabilidad

Tipos de Probabilidad: Conjunta, Marginal y Condicional

Probabilidades Condicionales y Correlación de Eventos Aleatorios

Paradojas de Probabilidad: Niño o Niña y Monty Hall

Distribuciones de probabilidad

Funciones y Distribuciones de Probabilidad en Cálculo

Distribuciones Discretas: Bernoulli y Binomial

Cálculos con Distribución Binomial en Google Colab usando Python

Análisis de Distribuciones Continuas: Enfoque en la Gaussiana

Estimación de Distribuciones de Probabilidad en Google Colab

MLE (Maximum Likelihood Estimation)