Un vídeo para una demostración gráfica del MLE
https://www.youtube.com/watch?v=XepXtl9YKwc&t=87s
Incertidumbre y probabilidad
¿Qué es la probabilidad?
Probabilidad en machine learning
Fundamentos de probabilidad
Tipos de probabilidad
Ejemplos de cálculo de probabilidad
Ejemplos avanzados con probabilidad
Distribuciones de probabilidad
¿Qué es una distribución?
Distribuciones discretas
Usando la distribución binomial
Distribuciones continuas
¿Cómo estimar una distribución?
MLE (Maximum Likelihood Estimation)
¿Qué es MLE?
MLE en machine learning
Regresión logística
Aplicación de regresión logística
Inferencia bayesiana
Teorema de Bayes
Bayes en machine learning
Retos finales
No tienes acceso a esta clase
¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera
Aportes 34
Preguntas 3
Un vídeo para una demostración gráfica del MLE
https://www.youtube.com/watch?v=XepXtl9YKwc&t=87s
Les dejo un artículo de Towards Data Science escrito por Johnny Brooks-Bartlett muy fácil de digerir y que complementa muy bien la introducción del profe Francisco: Probability concepts explained: Maximum likelihood estimation
MLE (Maximum Likelihood Estimation)
O estimación de máxima verosimilitud. Consiste en escoger la distribucion que más se ajuste a nuestros datos, para ello maximizamos la probabilidad de nuesto modelo:
P(X,θ)=L(X,θ)
max L(X,θ) → maxΠP(Xi,θ)
Nota:
El producto de mútiples probabilidades (por tanto son menores a 1) genera número cada vez más pequeños al punto que no son reconocimos por la máquina, a esto se llama underflow para evitar esta situacion usamos logaritmos:
max log L(X,θ) → maxΣ log P(Xi,θ)
Es tan claro que mi única pregunta es:
En qué lugar puedo conseguir el termo que el profesor mostró al principio de la clase? XD
El objetivo del MLE es encontrar la manera más óptima de encajar una distribución a los datos
resumen: MLE, buscar la mejor forma de adaptar un algoritmo a una muestra, para predecir lo que sucederá con partículas que tienen comportamientos parecidos
Un poco para complementar:
min 0:35 -> Paranormal Distribution JAJAJA
Es un framework para estimación de densidades de probabilidades dentro de un esquema de trabajo muy general.
Estimar la distribucion de probabilidad de un conjunto de datos es un proceso muy importante en probabilidad.
MLE es un framework o esquema de trabajo para estimacion de densidades de probabilidad.
Elementos de MLE
Existe un problema general de MLE: los datos obedecen a una distribucion de probabilidad de una poblacion enorme, pero nunca se va a tener todo el conocimiento de esa poblacion por lo que la distribucion de probabilidad de la muestra es diferente a la de la poblacion. Esto dificulta resolver el problema general asociado a toda la poblacion generando restricciones:
Restriccion 1: escoger la Distribucion de probabilidad sobre una muestra de datos
Luego de seleccionada la muestra y la distribucion, ajustamos los parametros de la distribucion de manera que podamos encontrar la distribucion que mejor se ajuste a los datos (Es un problema de Machine Learning)
El MLE es un problema de optimizacion
Esquema de trabajo
¡SORPRENDIDO!
Como un problema matemático cambia por completo la eficiencia de una maquina.
Al margen de toda la explicación que por demás está clarísima me sorprende “el truco” (por llamarlo de forma coloquial) que se implementó con la operación de logaritmos, el ingenio es parte fundamental para resolver problemas!
Encontré un buen artículo sobre MLE 😃 :
https://www.kdnuggets.com/2019/11/probability-learning-maximum-likelihood.html
Hola a todos le dejo esta pagina q me parecio muy interesante espero q le sirva, saludos. https://seeing-theory.brown.edu/probability-distributions/es.html
likelihood lo podemos traducir como el encaje, es decir que tan bien podemos adaptar una distribucion de probabilidad a unos datos.
Esto con el animo de hacer mas facil hacer predicciones.
Underflow (Precisión limite de una computadora) se soluciona utilizando aplicando el Logaritmo de la probabilidad, por la propiedad log(a*b)=log(a)+log(b), entonces se convierte las multiplicaciones en suma y los resultados de los logaritmos se convierte en números negativos relativamente grandes.
MLE, o como lo aprendi en la universidad: ajuste de los datos a una distribución de probabilidades.
Les dejo una pagina relacionado al tema :
https://economipedia.com/definiciones/estimacion-de-maxima-verosimilitud.html
MLE Maximum Likelyhood Estimation
Un aporte más.
https://www.youtube.com/watch?v=e3ZJ-7QZM9I
https://www.youtube.com/watch?v=XepXtl9YKwc Este video me ayudo mucho a complementar los conceptos de esta clase
MLE: Un problema de optimización
El problema general de encontrar la densidad de probabilidad que mejor ajusta a un conjunto de datos (usando MLE):
Donde X es un conjunto de datos y theta son los parámetros disponibles
La probabilidad equivale a la verosimilitud (L)
La máxima verosimilitud implica la multiplicación de probabilidades de diferentes data points (i) de todo el conjunto de datos
Al multiplicar probabilidades (números muy pequeños) el producto es cada vez más pequeño, de manera que podría ser inaccesible para la computación (underflow).
Lo anterior se resuelve aplicando el logaritmo de las probabilidades en vez de las probabilidades, porque el logaritmo de un producto es la suma de los logaritmos (lo cual convierte los números pequeños de las probabilidades en números negativos que la computación sí puede sumar).
MLE
Una framework para estimación de densidades de probabilidad.
Elementos de MLE
Escoger la distribución:
Teniendo solo una muestra de los datos.
Escoger los parámetros de la distribución:
Que mejora, ajustan la distribución a los datos.
MLE encuentra los mejores valores para los parámetros de una función de densidad de probabilidad que maximizan la probabilidad de observar los datos que tenemos. Nos ayuda a ajustar nuestros modelos estadísticos a los datos y a realizar inferencias o predicciones basadas en esa distribución.
En el MLE (Maximum Likelihood Estimation) se suele utilizar el logaritmo natural de la función de verosimilitud para evitar problemas de underflow debido al Epsilon Machine, que es el menor número positivo que puede ser representado por una computadora.
Cuando se calculan las probabilidades conjuntas de observar los datos, estas suelen ser multiplicadas entre sí para obtener la verosimilitud total. Sin embargo, cuando se tienen muchos datos o probabilidades muy pequeñas, el resultado de estas multiplicaciones puede ser demasiado pequeño para ser representado por una computadora, lo que resulta en underflow.
Por lo tanto, para evitar este problema, se utiliza el logaritmo natural de la verosimilitud, lo que permite convertir las multiplicaciones en sumas. De esta manera, se evita el underflow y se pueden hacer cálculos numéricos más estables.
Si alguien quiere saber más sobre el "underflow " le sugiero consultar los siguientes documentos:
“The IEEE standard for floating-point arithmetic” de David Goldberg (IEEE Computer, 1991).
“What every computer scientist should know about floating-point arithmetic” de David Goldberg (ACM Computing Surveys, 1991).
“The limits of floating-point precision” de Nicholas J. Higham (SIAM News, 2002).
Creo que es importante saber hasta este punto los tipos de sistemas de Machine Learning.
Tipos de Sistemas de Machine Learning
Hay diferentes tipos de sistemas de Machine Learning. Podemos dividirlos en categorías dependiendo si:
Han sido capacitados con humanos o no
Supervisado
En este tipo de sistema de Machine Learning los datos con que tu alimentas el algoritmo, con la solución deseada, son referidos como “labels” (etiquetas).
Sin supervisión
Semi-supervisado
Machine Learning de Refuerzo
Si pueden aprender de forma incrementada
**Si pueden trabajar simplemente combinando nuevos puntos de datos, o si pueden detectar nuevos patrones en los datos, y luego construirán un modelo
**
Fuente: Guía Paso a Paso Para Implementar
Algoritmos De Machine Learning Con Python
MLE es el acrónimo de Maximum Likelihood Estimation (Estimación de Máxima Verosimilitud en español). Es un método para estimar los parámetros de una distribución de probabilidad a partir de un conjunto de datos. El objetivo del MLE es encontrar los valores de los parámetros que maximizan la probabilidad de los datos dados esos parámetros.🤔👩🏫
La idea detrás del MLE es que, si se tiene una muestra de datos generada por un proceso aleatorio con una cierta distribución de probabilidad, entonces la probabilidad de obtener esa muestra específica es máxima cuando los parámetros de la distribución son los valores verdaderos.
Para estimar los parámetros de una distribución de probabilidad utilizando el MLE, se debe calcular la función de verosimilitud de los datos. La función de verosimilitud es una función matemática que describe la probabilidad de obtener los datos dados los parámetros de la distribución. El objetivo es encontrar los valores de los parámetros que maximizan la función de verosimilitud.
Una vez encontrados los valores que maximizan la función de verosimilitud, se consideran los mejores estimadores de los parámetros verdaderos. El MLE es un método muy utilizado en estadísticas y tiene una gran variedad de aplicaciones en diferentes campos, como la economía, la medicina, la psicología, la ingeniería y las ciencias sociales.
Faltan las minúsculas a la derecha de las formulas del MLE para valores individuales, conceptualmente flojo una vez mas.
Elementos de MLE: Escoger distribucion & Escoger parametros de distribucion
Si alguna duda de MLE escribí un pequeño tutorial -> Tutorial : )
Muy buena esta clase, voy a seguir investigando sobre el MLE
¿Quieres ver más aportes, preguntas y respuestas de la comunidad?
o inicia sesión.