You don't have access to this class

Keep learning! Join and start boosting your career

Aprovecha el precio especial y haz tu profesión a prueba de IA

Antes: $249

Currency
$209
Suscríbete

Termina en:

0 Días
8 Hrs
51 Min
32 Seg

MLE en machine learning

12/17
Resources

What is maximum likelihood estimation (MLE)?

Maximum likelihood estimation (MLE) is a powerful fundamental mathematical technique in machine learning. It serves to fit probability distributions to data sets in a way that maximizes the adequacy of the description of these data. Whether for supervised problems, such as classification and regression, or unsupervised, such as clustering, MLE becomes a central tool.

Through a concrete example of linear regression, we can understand how MLE becomes an alternative way to approach the usual least squares problems. This equivalence highlights the power of MLE even in basic machine learning problems.

How is MLE applied in machine learning?

In machine learning, one fits densities to data using probability distributions. To illustrate this using linear regression, the fundamental equation of a line is y = mx + b, where m is the slope and b is the intercept. In data science, these are referred to as weight and bias respectively.

In MLE, it is about finding the probability that, given certain data (x), we can predict the outcome (y) based on a linear model. This translates to finding the maximum of the sum of log likelihoods for each pair of points X,Y in our data set using a modeling hypothesis h, which here is a straight line.

What role does the Gaussian distribution play in MLE?

A crucial aspect in maximum likelihood estimation applied to linear regression is the assumption that the noise or deviations of the data follow a Gaussian (or normal) distribution. This implies that the differences between the actual data and the average trend, represented by our line, are Gaussianly distributed.

The normal distribution allows us to formulate the model probabilistically under the hypothesis that the error follows such a distribution. When working with MLE, we assume our "f or p" (function or probability) to be Gaussian when modeling real data versus proposed models.

Is MLE equivalent to the least squares method?

Yes, maximum likelihood estimation is perfectly equivalent to the least squares method. In the least squares scheme, we calculate the error as the difference between the model predictions and the actual data, squaring this error to minimize the total sum of these errors.

Mathematically, the MLE process leads to the same result as least squares. Both techniques turn out to be two sides of the same coin, and this can be seen when one delves deeper into the underlying mathematical calculations. The logarithmic representation of errors in MLE shows that maximization of logarithmic probabilities and minimization of quadratic errors are equivalent processes.

Understanding this equivalence not only enriches our mathematical knowledge, but also enhances the appreciation of the value of probabilistic methods in machine learning. Thus, it is demonstrated that machine learning problems can and should be considered from a probabilistic point of view for a more complete and deeper understanding.

Contributions 38

Questions 12

Sort by:

Want to see more contributions, questions and answers from the community?

Hay un pequeño error en el paso donde dice que Log y e son inversas, creo hay que especificar que esa operación es inversa, el log(e), solo si se calcula el logaritmo natural osea el logaritmo en base e, porque si lo escribes solamente log se da a entender que es log base 10.

En esta clase, el profesor Francisco usa la minimización de mínimos cuadrados para estimar valores de parámetros para un modelo en el aprendizaje automático. Resulta que cuando se supone que el modelo es gaussiano, las estimaciones de MLE son equivalentes al método de mínimos cuadrados. Intuitivamente podemos interpretar la conexión entre los dos métodos entendiendo sus objetivos. Para la estimación de parámetros de mínimos cuadrados, queremos encontrar la línea que minimiza la distancia al cuadrado total entre los puntos de datos y la línea de regresión. En la estimación de máxima verosimilitud queremos maximizar la probabilidad total de los datos. Cuando se asume una distribución gaussiana, la probabilidad máxima se encuentra cuando los puntos de datos se acercan al valor medio. Dado que la distribución gaussiana es simétrica, esto equivale a minimizar la distancia entre los puntos de datos y el valor medio. Excelente clase!

Años me hubiera tomado demostrar esto, solo lo entendia graficamente 👍 gracias totales

Aquí mis apuntes de esta sesión:

MLE en Machine Learning

El MLE consiste en ajustar a un conjunto de datos, una distribucion que describa lo mejor posible esos datos.

En ML se reduce a Ajustar densidades a datos

Se aplica a problemas supervisados como la Clasificacion o Regresion y no supervisados como la Clusterizacion.

La Regresion Lineal con MLE se reduce a lo siguiente:

  • Se tiene un conjunto de datos sobre los cuales se intuye el modelo que sigue (en este caso lineal)
  • Los parametros de la ecuacion de la recta, en ML, son renombrados
  • Debemos encontrar el modelo lineal o la ecuacion de la recta que mejor se ajuste a un conjunto de datos aplicando MLE. Esto se expresa como sigue: La probabilidad que dado unos datos x se obtenga ‘y’ (variables del modelo lineal) se obtiene encontrando el maximo de los logaritmos de las probabilidades de cada pareja x y ‘y’ de un conjunto de datos suponiendo h que es el modelo que vamos a ajustar. En este caso, h es nuestra hipotesis de que el modelo que vamos ajustar es una linea recta.

En el minuto 6:58 es una explicación clave para entender la demostración.
Variable que es el ruido y la tendencia de la recta que se busca calcular, es equivalente a y-(mxi+b)

De modo que así puedes hacer que y-mu sea equivalente a yi-(mxi+b)

Desde mi punto de vista desde esa aclaración la demostración sale orgánicamente

Estas son las clases que me gustan: pura matemática dura. Me siento como pez en el agua, en lugar de usar colab con un millón de librerías que todavía no aprendimos a usar en la ruta de aprendizaje.

Puede que sea un comentario sencillo pero tal vez a alguien le sirva. Cuando el profe pone Log en realidad en Ln, esto es por que la inversa de e es ln, logaritmo natural, ya que, ln(e) = 1, por que la base del logaritmo es el mismo e. Si lo hicieramos con Log, esto es con un logaritmo en base 10 el resultado sería Log(e) = 0.43, lo cual no permite “anular” el e dentro de la intuición.

Excelente clase profundiza de una manera didáctica

En el aprendizaje automático, el MLE (Maximum Likelihood Estimation)

  • Se utiliza para estimar los parámetros de un modelo a partir de un conjunto de datos de entrenamiento. El objetivo es encontrar los valores de los parámetros que maximizan la probabilidad de los datos dados esos parámetros.

Por ejemplo

  • Si se tiene un modelo de clasificación basado en una distribución Gaussiana multivariada, se pueden estimar los parámetros del modelo (media y matriz de covarianza) utilizando MLE. El proceso consiste en encontrar los valores de los parámetros que maximizan la probabilidad de los datos dados esos parámetros.

En general, el MLE se utiliza para estimar los parámetros de un modelo en el que se conoce la distribución de probabilidad generadora de los datos, y se desea encontrar los valores de los parámetros que mejor se ajustan a esos datos. El MLE es un método popular en estadística y se utiliza en una variedad de aplicaciones en aprendizaje automático, incluyendo clasificación, regresión, y análisis de componentes principales.

La distribución Gaussiana multivariada es una generalización de la distribución Gaussiana univariada (o distribución normal) para el caso de varias variables aleatorias.

  • Una variable aleatoria seguirá una distribución Gaussiana multivariada si sigue una distribución normal en cada una de sus dimensiones.

  • La función de densidad de probabilidad de una variable aleatoria multivariada X con media mu y matriz de covarianza Sigma es:

p(x) = (2π)^(-k/2) |Sigma|^(-1/2) * exp[-(1/2)(x-mu)^T Sigma^-1 (x-mu)]

  • donde k es el número de dimensiones de X, mu es un vector de tamaño k que contiene las medias de las variables, Sigma es una matriz k x k de covarianzas y |Sigma| es el determinante de la matriz de covarianza.
Un ejemplo de una distribución gaussiana multivariada con dos dimensiones (x1,x2) con media [2,3] y matriz de covarianza [[1,0.5],[0.5,1]] sería:

p(x) = (2π)^(-2/2) |[[1,0.5],[0.5,1]]|^(-1/2) * exp[-(1/2)([x1,x2]-[2,3])^T [[1,0.5],[0.5,1]]^-1 ([x1,x2]-[2,3])]
  • En este caso, la función de densidad de probabilidad estaría dada por una función de dos variables x1 y x2 y su forma gráfica sería una elipse en el espacio de dos dimensiones.

  • La distribución Gaussiana multivariada se utiliza en una gran variedad de aplicaciones en estadística, incluyendo el análisis de datos, la clasificación y la inferencia estadística.

Recordé esta imagen que vi en un libro ❤️

Un saludo a todos, este tema para mi a sido complicado y me ha tomado mucho tiempo comprenderlo, logre encontrar un video que me ayudo a comprender y conectar ciertas cosas.
Les comparto el link:
https://www.youtube.com/watch?v=p59Rik4oHkQ
Espero que les sirve y ademas. les deseo buenas vibras.
Never stop learning ;3

Considero que hay una equivocación al explicar la solución de logaritmos de e, dado que si solo se considera log de algo es logaritmo de base 10, la connotación para logaritmo neperiano usualmente es ln. Cambien me gustaría acotar que en la penúltima linea baja toda la expresión del exponente de e y lo pone como si fuera un factor de e y dentro del logaritmo, sin embargo, lo que de verdad se aplica es la regla del sombrerito, que es convertir al exponente en un factor del logaritmo, es decir sacarlo afuera.
Lo menciono solo solo una cuestión de formas

Como ingeniero graduado de una universidad, aprendí de estadística en la carrera, aprendi de regresiones lineales, hice cursos de estadística en maestría y de machine learning. Es la primera vez que una clase me conecto un montón de cosas que antes tenia que dar por ciertas. Muchas gracias profesor Francisco.

Esta clase fue brutal ❤️.

Que geniales que so las deducciones matemáticas

Es decir, si tenemos un punto y la pendiente: tenemos la función.
y en ML, tenemos la distribución de probabilidad

No la inversa debiera ser el log natural (Ln), ya que el log tiene base 10 no e

Muy interesante la conexión con el método de los mínimos cuadrados! Excelente para las personas que venimos del mundo de la ingeniería sin mucho brackground en estadística.

Muy buena explicación!

Hola a todos, realmente excelente este apartado. El profesor francisco hizo la demostración de forma clara, precisa y utilizando los conocimientos previos necesarios.
Un problema digno de una evaluación.
Magistral su explicación; muy buena la demostración que ambos términos son iguales o que son la misma cosa.

Tan sencilla que resulta la regresión lineal pero tan útil que es a la vez, que increible es ver esta equivalencia entre el MLE y los minimos cuadrados.

DIOS esta clase es preciosa.

Excelente demostración, con esto sabemos de donde salen los argumentos para resolver, muy buenos los módulos

Considero que hay un error en la equivalencia de estas dos funciones, puesto que el intercepto suele representarse por b0 y la pendiente es el b1 que acompaña al x.

Que genial demostración del minuto 6! excelente profesor

https://www.youtube.com/watch?v=e3ZJ-7QZM9I
Me parece que con este video todo queda mas claro

creo que en la clase hay una confucion porque dan a entender que la hipotesis h es que los datos encajan en una linea reacta. realmente la hipotesis es que los datos tienen estadisticamente una distribucion muy paresida a la normal. por eso se aplica la funcion de probabilidad de una campana gausiana. porque se cumple segun nuestra hipotesis con parametros de media desviacion estandar continuidad de los datos etc. luego resulta que al maximisar esta funcion nos da lo mismo que si hubieramos tomado una aproximacion no probabilistica y hubiesemos querido minimizar el error pensando que los datos se parecen a una linea recta. pues decir que se parecen a una linea recta es decir que tienden a una media
🔎 **Dato interesante sobre MLE en Machine Learning**: El *Maximum Likelihood Estimation (MLE)* es como ajustar las piezas de un rompecabezas: busca los mejores parámetros que hacen que los datos encajen perfectamente con un modelo. ¡Es fundamental en muchos algoritmos de machine learning, como la regresión logística! 🌟 Lo mejor es que cuando tienes muchos datos, MLE tiende a encontrar los parámetros más precisos.
wuuaaaaao

Interesante como se usa la regresion lineal en machine learning. No imagine que tuviera esa capacidad. Si que hay mucho por aprender. Es diferente al que me enseñaron en Fisica. Si que es bueno conocer cosas nuevas.

La clase es muy interesante porque relaciona el MLE con los métodos conocidos de regresión lineal y de mínimos cuadrados.
No obstante, cuando el “tablero” tiene tanto escrito, me parece que no es fácil detectar dónde está escribiendo el profe o a qué se esta refiriendo (sobre todo cuando él lo da por supuesto: “¿Cómo se convierte éste?”, “esto que tenemos aquí”, “este término de acá”, etc… (en todo caso, la mayoría de las veces, encierra con un círculo o señala lo pertinente).
Pero no me parece que funcione bien este recurso “llenando tablero”.

En el laboratorio de Física si alguien se inventaba los datos para crear su función lineal el profe le solia cazar mirando la distribución de los errores en los datos… si no se ajustaba a una gausiana estaba suspenso aunque la ecuación lineal fuera cierta.

Ya saben, aprendar a copiar teneiendo esto en cuenta!!, es broma jajaj. Aprendan ciencia aprendan mates 😃

Que buena forma de explicar como podemos usar una regresión lineal en una distribución lineal teniendo en cuenta que el error de los datos respecto a la linea se ve como una gaussiana.

Dos cosas que hay que tener en cuenta:

  1. Cuando se trabaja con MCO (mínimos cuadrados ordinarios) los modelos están sujetos al cumplimiento de ciertos supuestos, como homoscedasticidad (varianza de los errores (noises) no atípica), normalidad, no autocorrelación, linealidad en los parámetros (b0, b1 …bn) y forma funcional correcta. Se utiliza para datasets no muy grandes, por ejemplo una relación entre el PIB y la pobreza anual de un país, medida en una serie de tiempo, por ejemplo desde el año 2000-2021

  2. Máxima verosimilitud nos ahorra tener que estimar supuestos y nos permite estimar modelos no lineales, por ejemplo una regresión logística o una probit, cuando la variable dependiente asume valores de 0 y 1, (1= ocurrencia de un suceso, 0 = no ocurrencia de ese suceso), y también es un método más eficiente para grandes cantidades de datos.