2

Matemáticas de MLE (Clase 12)

Para un entendimiento profundo ver el tutorial del Andrés en: MLE

  • Hola a todos. Este es un recuento de la clase 12 del curso. Es más que nada un repaso, y un poquito de poner las ecuaciones de manera explícita por si alguno tiene dudas del flujo que el profe Pacho hace en esta clase.

Estimación de Máxima Verosimilitud

Esencia

  • Permite estimar densidades de probabilidad dentro de un esquema de trabajo general.

  • Un subconjunto del estudio de la probailidad para estimar las densidades de probabilidad de un conjunto de datos.

Elementos

  • Escoger distribución: Teniendo solo una muestra de datos.
  • Escoger parámetros de la distribución: Que mejor ajustan la distribución a los datos.

Densidad de probabilidad

  • En mi caso personal, describiría la estimación de máxima verosimilitud como la probabilidad máxima en que los datos se ajustan a un modelo. Si los datos son X y el modelo theta, se tiene la función que se quiere maximizar:
Captura de Pantalla 2021-06-04 a la(s) 10.03.04 p. m..png
  • Esto es, la probabilidad de que tus datos se ajusten al modelo. Para tener una nomenclatura más diciente, se nombra L (de likelihood) a la probabilidad en vez de P:
Captura de Pantalla 2021-06-04 a la(s) 10.05.22 p. m..png
  • Dado que X es un vector n-dimensional, se tiene:
    Captura de Pantalla 2021-06-04 a la(s) 10.06.15 p. m..png

  • Se puede escribir la probabilidad como:

Captura de Pantalla 2021-06-04 a la(s) 10.07.30 p. m..png

  • El conjunto de valores de X son conocidos. Se quiere saber la probabilidad de que esos valores ocurran para un parámetro desconocido theta. Sean los valores conocidos los números:
Captura de Pantalla 2021-06-04 a la(s) 10.08.08 p. m..png
  • Así pues podemos hacer más explícita la notación, diciendo que cada xi será igual a un valor conocido ai respectivo.
Captura de Pantalla 2021-06-04 a la(s) 10.29.50 p. m..png
  • Y dado que son probabilidades conjuntas, L se va a expresar como el producto de cada probabilidad:
Captura de Pantalla 2021-06-04 a la(s) 10.08.43 p. m..png
  • Esto es, probabilidad que x1 sea el valor a1 y al tiempo x2 tenga el valor a2 y así sucesivamente; todos usando el mismo parámetro desconocido theta.

  • Esto se puede escribir con la notación de productoria:

Captura de Pantalla 2021-06-04 a la(s) 10.09.43 p. m..png

Tomar el logaritmo

  • Como dice el profe Pacho, los valores de cada probabilidad están entre 0 y 1, fracciones propias. Por tanto al multiplicarlos obtienes números bastante pequeños, es decir con varios decimales en 0, del estilo: 0,00000x. Para solucionar esto, y a la vez aprovechar las propiedades matemáticas de los logaritmos se puede sacar el logaritmo a ambos lados de la ecuación:
Captura de Pantalla 2021-06-04 a la(s) 10.11.19 p. m..png
  • El lado derecho de la ecuación da:
Captura de Pantalla 2021-06-04 a la(s) 10.11.55 p. m..png
  • Por propiedades:
Captura de Pantalla 2021-06-04 a la(s) 10.12.57 p. m..png
  • Esto en notación de sumatoria queda:
Captura de Pantalla 2021-06-04 a la(s) 10.13.52 p. m..png

Maximización

  • Lo último es que la función de máxima verosimilitud se obtiene a partir del máximo de esta función L, dado que estás tratando de hallar el máximo chance de que los datos sean ajustados a un modelo.
Captura de Pantalla 2021-06-04 a la(s) 10.15.42 p. m..png
  • Ó:
Captura de Pantalla 2021-06-04 a la(s) 10.16.04 p. m..png

Cualquier duda o corrección es bienvenido : ) . Un saludo

Escribe tu comentario
+ 2
2
10581Puntos

Muy buen aporte. Pude comprender completamente la fórmula con tu explicación. Gracias