No tienes acceso a esta clase

隆Contin煤a aprendiendo! 脷nete y comienza a potenciar tu carrera

MLE en machine learning

12/17
Recursos

Aportes 36

Preguntas 12

Ordenar por:

驴Quieres ver m谩s aportes, preguntas y respuestas de la comunidad?

o inicia sesi贸n.

Por si quieren profundizar mas acerca de este tema, dejo este video que est谩 buen铆simo:
https://www.youtube.com/watch?v=Dn6b9fCIUpM&ab_channel=StatQuestwithJoshStarmer

A帽os me hubiera tomado demostrar esto, solo lo entendia graficamente 馃憤 gracias totales

Hay un peque帽o error en el paso donde dice que Log y e son inversas, creo hay que especificar que esa operaci贸n es inversa, el log(e), solo si se calcula el logaritmo natural osea el logaritmo en base e, porque si lo escribes solamente log se da a entender que es log base 10.

En esta clase, el profesor Francisco usa la minimizaci贸n de m铆nimos cuadrados para estimar valores de par谩metros para un modelo en el aprendizaje autom谩tico. Resulta que cuando se supone que el modelo es gaussiano, las estimaciones de MLE son equivalentes al m茅todo de m铆nimos cuadrados. Intuitivamente podemos interpretar la conexi贸n entre los dos m茅todos entendiendo sus objetivos. Para la estimaci贸n de par谩metros de m铆nimos cuadrados, queremos encontrar la l铆nea que minimiza la distancia al cuadrado total entre los puntos de datos y la l铆nea de regresi贸n. En la estimaci贸n de m谩xima verosimilitud queremos maximizar la probabilidad total de los datos. Cuando se asume una distribuci贸n gaussiana, la probabilidad m谩xima se encuentra cuando los puntos de datos se acercan al valor medio. Dado que la distribuci贸n gaussiana es sim茅trica, esto equivale a minimizar la distancia entre los puntos de datos y el valor medio. Excelente clase!

Aqu铆 mis apuntes de esta sesi贸n:

En el minuto 6:58 es una explicaci贸n clave para entender la demostraci贸n.
Variable que es el ruido y la tendencia de la recta que se busca calcular, es equivalente a y-(mxi+b)

De modo que as铆 puedes hacer que y-mu sea equivalente a yi-(mxi+b)

Desde mi punto de vista desde esa aclaraci贸n la demostraci贸n sale org谩nicamente

Excelente clase profundiza de una manera did谩ctica

Estas son las clases que me gustan: pura matem谩tica dura. Me siento como pez en el agua, en lugar de usar colab con un mill贸n de librer铆as que todav铆a no aprendimos a usar en la ruta de aprendizaje.

MLE en Machine Learning

El MLE consiste en ajustar a un conjunto de datos, una distribucion que describa lo mejor posible esos datos.

En ML se reduce a Ajustar densidades a datos

Se aplica a problemas supervisados como la Clasificacion o Regresion y no supervisados como la Clusterizacion.

La Regresion Lineal con MLE se reduce a lo siguiente:

  • Se tiene un conjunto de datos sobre los cuales se intuye el modelo que sigue (en este caso lineal)
  • Los parametros de la ecuacion de la recta, en ML, son renombrados
  • Debemos encontrar el modelo lineal o la ecuacion de la recta que mejor se ajuste a un conjunto de datos aplicando MLE. Esto se expresa como sigue: La probabilidad que dado unos datos x se obtenga 鈥榶鈥 (variables del modelo lineal) se obtiene encontrando el maximo de los logaritmos de las probabilidades de cada pareja x y 鈥榶鈥 de un conjunto de datos suponiendo h que es el modelo que vamos a ajustar. En este caso, h es nuestra hipotesis de que el modelo que vamos ajustar es una linea recta.

Esta clase fue brutal 鉂わ笍.

ok aqu铆 si ya comenc茅 a valer verga 馃槃

Como ingeniero graduado de una universidad, aprend铆 de estad铆stica en la carrera, aprendi de regresiones lineales, hice cursos de estad铆stica en maestr铆a y de machine learning. Es la primera vez que una clase me conecto un mont贸n de cosas que antes tenia que dar por ciertas. Muchas gracias profesor Francisco.

Puede que sea un comentario sencillo pero tal vez a alguien le sirva. Cuando el profe pone Log en realidad en Ln, esto es por que la inversa de e es ln, logaritmo natural, ya que, ln(e) = 1, por que la base del logaritmo es el mismo e. Si lo hicieramos con Log, esto es con un logaritmo en base 10 el resultado ser铆a Log(e) = 0.43, lo cual no permite 鈥渁nular鈥 el e dentro de la intuici贸n.

Que geniales que so las deducciones matem谩ticas

Es decir, si tenemos un punto y la pendiente: tenemos la funci贸n.
y en ML, tenemos la distribuci贸n de probabilidad

Considero que hay una equivocaci贸n al explicar la soluci贸n de logaritmos de e, dado que si solo se considera log de algo es logaritmo de base 10, la connotaci贸n para logaritmo neperiano usualmente es ln. Cambien me gustar铆a acotar que en la pen煤ltima linea baja toda la expresi贸n del exponente de e y lo pone como si fuera un factor de e y dentro del logaritmo, sin embargo, lo que de verdad se aplica es la regla del sombrerito, que es convertir al exponente en un factor del logaritmo, es decir sacarlo afuera.
Lo menciono solo solo una cuesti贸n de formas

No la inversa debiera ser el log natural (Ln), ya que el log tiene base 10 no e

Muy interesante la conexi贸n con el m茅todo de los m铆nimos cuadrados! Excelente para las personas que venimos del mundo de la ingenier铆a sin mucho brackground en estad铆stica.

Muy buena explicaci贸n!

Record茅 esta imagen que vi en un libro 鉂わ笍

Hola a todos, realmente excelente este apartado. El profesor francisco hizo la demostraci贸n de forma clara, precisa y utilizando los conocimientos previos necesarios.
Un problema digno de una evaluaci贸n.
Magistral su explicaci贸n; muy buena la demostraci贸n que ambos t茅rminos son iguales o que son la misma cosa.

Tan sencilla que resulta la regresi贸n lineal pero tan 煤til que es a la vez, que increible es ver esta equivalencia entre el MLE y los minimos cuadrados.

DIOS esta clase es preciosa.

Un saludo a todos, este tema para mi a sido complicado y me ha tomado mucho tiempo comprenderlo, logre encontrar un video que me ayudo a comprender y conectar ciertas cosas.
Les comparto el link:
https://www.youtube.com/watch?v=p59Rik4oHkQ
Espero que les sirve y ademas. les deseo buenas vibras.
Never stop learning ;3

Excelente demostraci贸n, con esto sabemos de donde salen los argumentos para resolver, muy buenos los m贸dulos

Considero que hay un error en la equivalencia de estas dos funciones, puesto que el intercepto suele representarse por b0 y la pendiente es el b1 que acompa帽a al x.

Que genial demostraci贸n del minuto 6! excelente profesor

https://www.youtube.com/watch?v=e3ZJ-7QZM9I
Me parece que con este video todo queda mas claro

En el aprendizaje autom谩tico, el MLE (Maximum Likelihood Estimation)

  • Se utiliza para estimar los par谩metros de un modelo a partir de un conjunto de datos de entrenamiento. El objetivo es encontrar los valores de los par谩metros que maximizan la probabilidad de los datos dados esos par谩metros.

Por ejemplo

  • Si se tiene un modelo de clasificaci贸n basado en una distribuci贸n Gaussiana multivariada, se pueden estimar los par谩metros del modelo (media y matriz de covarianza) utilizando MLE. El proceso consiste en encontrar los valores de los par谩metros que maximizan la probabilidad de los datos dados esos par谩metros.

En general, el MLE se utiliza para estimar los par谩metros de un modelo en el que se conoce la distribuci贸n de probabilidad generadora de los datos, y se desea encontrar los valores de los par谩metros que mejor se ajustan a esos datos. El MLE es un m茅todo popular en estad铆stica y se utiliza en una variedad de aplicaciones en aprendizaje autom谩tico, incluyendo clasificaci贸n, regresi贸n, y an谩lisis de componentes principales.

La distribuci贸n Gaussiana multivariada es una generalizaci贸n de la distribuci贸n Gaussiana univariada (o distribuci贸n normal) para el caso de varias variables aleatorias.

  • Una variable aleatoria seguir谩 una distribuci贸n Gaussiana multivariada si sigue una distribuci贸n normal en cada una de sus dimensiones.

  • La funci贸n de densidad de probabilidad de una variable aleatoria multivariada X con media mu y matriz de covarianza Sigma es:

p(x) = (2蟺)^(-k/2) |Sigma|^(-1/2) * exp[-(1/2)(x-mu)^T Sigma^-1 (x-mu)]

  • donde k es el n煤mero de dimensiones de X, mu es un vector de tama帽o k que contiene las medias de las variables, Sigma es una matriz k x k de covarianzas y |Sigma| es el determinante de la matriz de covarianza.
Un ejemplo de una distribuci贸n gaussiana multivariada con dos dimensiones (x1,x2) con media [2,3] y matriz de covarianza [[1,0.5],[0.5,1]] ser铆a:

p(x) = (2蟺)^(-2/2) |[[1,0.5],[0.5,1]]|^(-1/2) * exp[-(1/2)([x1,x2]-[2,3])^T [[1,0.5],[0.5,1]]^-1 ([x1,x2]-[2,3])]
  • En este caso, la funci贸n de densidad de probabilidad estar铆a dada por una funci贸n de dos variables x1 y x2 y su forma gr谩fica ser铆a una elipse en el espacio de dos dimensiones.

  • La distribuci贸n Gaussiana multivariada se utiliza en una gran variedad de aplicaciones en estad铆stica, incluyendo el an谩lisis de datos, la clasificaci贸n y la inferencia estad铆stica.

En el laboratorio de F铆sica si alguien se inventaba los datos para crear su funci贸n lineal el profe le solia cazar mirando la distribuci贸n de los errores en los datos鈥 si no se ajustaba a una gausiana estaba suspenso aunque la ecuaci贸n lineal fuera cierta.

Ya saben, aprendar a copiar teneiendo esto en cuenta!!, es broma jajaj. Aprendan ciencia aprendan mates 馃槂

Que buena forma de explicar como podemos usar una regresi贸n lineal en una distribuci贸n lineal teniendo en cuenta que el error de los datos respecto a la linea se ve como una gaussiana.

Dos cosas que hay que tener en cuenta:

  1. Cuando se trabaja con MCO (m铆nimos cuadrados ordinarios) los modelos est谩n sujetos al cumplimiento de ciertos supuestos, como homoscedasticidad (varianza de los errores (noises) no at铆pica), normalidad, no autocorrelaci贸n, linealidad en los par谩metros (b0, b1 鈥n) y forma funcional correcta. Se utiliza para datasets no muy grandes, por ejemplo una relaci贸n entre el PIB y la pobreza anual de un pa铆s, medida en una serie de tiempo, por ejemplo desde el a帽o 2000-2021

  2. M谩xima verosimilitud nos ahorra tener que estimar supuestos y nos permite estimar modelos no lineales, por ejemplo una regresi贸n log铆stica o una probit, cuando la variable dependiente asume valores de 0 y 1, (1= ocurrencia de un suceso, 0 = no ocurrencia de ese suceso), y tambi茅n es un m茅todo m谩s eficiente para grandes cantidades de datos.