Regresión Lineal con Estimación de Máxima Verosimilitud en Machine Learning

Curso de Matemáticas para Data Science: Probabilidad

Contenido del curso

Incertidumbre y probabilidad

Fundamentos de probabilidad

Distribuciones de probabilidad

MLE (Maximum Likelihood Estimation)

Inferencia bayesiana

Tomar examen

Regresión Lineal con Estimación de Máxima Verosimilitud en Machine Learning

Resumen

¿Qué es la estimación de máxima verosimilitud (MLE)?

La estimación de máxima verosimilitud (MLE) es una poderosa técnica matemática fundamental en machine learning. Sirve para ajustar distribuciones de probabilidad a conjuntos de datos de manera que maximicen la adecuada descripción de estos datos. Ya sea para problemas supervisados, como la clasificación y la regresión, o no supervisados, como la clusterización, MLE se convierte en una herramienta central.

A través de un ejemplo concreto de regresión lineal, podemos entender cómo MLE se convierte en una forma alternativa de abordar los problemas habituales de mínimos cuadrados. Esta equivalencia destaca el poder de la MLE incluso en problemas básicos de machine learning.

¿Cómo se aplica MLE en machine learning?

En machine learning, uno ajusta densidades a datos utilizando distribuciones de probabilidad. Para ilustrar esto usando regresión lineal, la ecuación fundamental de una recta es y = mx + b, donde m es la pendiente y b es el intercepto. En ciencia de datos, estos son referidos como peso y bias respectivamente.

En MLE, se trata de encontrar la probabilidad de que, dados ciertos datos (x), podamos prever el resultado (y) en función de un modelo lineal. Esto se traduce en buscar el máximo de la suma de logaritmos de probabilidades para cada pareja de puntos X,Y de nuestro conjunto de datos usando una hipótesis de modelamiento h, que aquí es una recta.

¿Qué papel juega la distribución gaussiana en MLE?

Un aspecto crucial en la estimación de máxima verosimilitud aplicada a regresión lineal es el supuesto de que el ruido o las desviaciones de los datos siguen una distribución gaussiana (o normal). Esto implica que las diferencias entre los datos reales y la tendencia promedio, representada por nuestra recta, son gaussianamente distribuidas.

La distribución normal permite formular probabilísticamente el modelo bajo la hipótesis de que el error sigue dicha distribución. Al trabajar con MLE, asumimos nuestra "f o p" (función o probabilidad) como gausiana al modelar datos reales versus modelos propuestos.

¿Es MLE equivalente al método de mínimos cuadrados?

Sí, la estimación de máxima verosimilitud es perfectamente equivalente al método de mínimos cuadrados. En el esquema de mínimos cuadrados, calculamos el error como la diferencia entre las predicciones del modelo y los datos reales, elevando este error al cuadrado para minimizar la suma total de estos errores.

Matemáticamente, el proceso de MLE lleva al mismo resultado que el de mínimos cuadrados. Ambas técnicas resultan ser dos caras de la misma moneda, y esto se puede observar cuando se profundiza en los cálculos matemáticos subyacentes. La representación logarítmica de errores en MLE muestra que la maximización de las probabilidades logarítmicas y la minimización de errores cuadráticos son procesos equivalentes.

El entendimiento de esta equivalencia no solo enriquece nuestro conocimiento matemático, sino que también realza la apreciación del valor de los métodos probabilísticos en machine learning. Con ello, queda demostrado que los problemas de machine learning pueden y deben ser considerados desde un punto de vista probabilístico para una comprensión más completa y profunda.

Jhon Freddy Tavera Blandon

Estudiante

En el aprendizaje automático, el MLE (Maximum Likelihood Estimation)

Se utiliza para estimar los parámetros de un modelo a partir de un conjunto de datos de entrenamiento. El objetivo es encontrar los valores de los parámetros que maximizan la probabilidad de los datos dados esos parámetros.

Por ejemplo

Si se tiene un modelo de clasificación basado en una distribución Gaussiana multivariada, se pueden estimar los parámetros del modelo (media y matriz de covarianza) utilizando MLE. El proceso consiste en encontrar los valores de los parámetros que maximizan la probabilidad de los datos dados esos parámetros.

En general, el MLE se utiliza para estimar los parámetros de un modelo en el que se conoce la distribución de probabilidad generadora de los datos, y se desea encontrar los valores de los parámetros que mejor se ajustan a esos datos. El MLE es un método popular en estadística y se utiliza en una variedad de aplicaciones en aprendizaje automático, incluyendo clasificación, regresión, y análisis de componentes principales.

La distribución Gaussiana multivariada es una generalización de la distribución Gaussiana univariada (o distribución normal) para el caso de varias variables aleatorias.

Una variable aleatoria seguirá una distribución Gaussiana multivariada si sigue una distribución normal en cada una de sus dimensiones.
La función de densidad de probabilidad de una variable aleatoria multivariada X con media mu y matriz de covarianza Sigma es:

p(x) = (2π)^(-k/2) |Sigma|^(-1/2) * exp[-(1/2)(x-mu)^T Sigma^-1 (x-mu)]

donde k es el número de dimensiones de X, mu es un vector de tamaño k que contiene las medias de las variables, Sigma es una matriz k x k de covarianzas y |Sigma| es el determinante de la matriz de covarianza.

Un ejemplo de una distribución gaussiana multivariada con dos dimensiones (x1,x2) con media [2,3] y matriz de covarianza [[1,0.5],[0.5,1]] sería:

p(x) = (2π)^(-2/2) |[[1,0.5],[0.5,1]]|^(-1/2) * exp[-(1/2)([x1,x2]-[2,3])^T [[1,0.5],[0.5,1]]^-1 ([x1,x2]-[2,3])]

En este caso, la función de densidad de probabilidad estaría dada por una función de dos variables x1 y x2 y su forma gráfica sería una elipse en el espacio de dos dimensiones.
La distribución Gaussiana multivariada se utiliza en una gran variedad de aplicaciones en estadística, incluyendo el análisis de datos, la clasificación y la inferencia estadística.

Natalia Belenguer Sanmartin

Carlos Felipe Saldarriaga Bejarano

Ivan Ezequiel Mazzalay

Michael Stiven Estupiñan

Hermes A. J. Cabrera F.

Angel de Jesús Rubio Velázquez

Andrés David Lizarazo Becerra

Alejandro Cuello Maure

Rodrigo Martinez

Diego Alejandro Lesmes

Daniel Andrés Giraldo Benites

Diego Camilo Araque Barrera

Fernando La Chica

Jeinfferson Bernal G

JAVIER SANTIAGO SALGADO

Rubén Cuello

David E Marquez S

Juan David Alvarez Sarmiento

angel ayala

Sebastián Andrade

Luis Higuera

Gabriela Obregón Ortiz

Andrés Vivanco

Luis Alejandro Nieto Ruth

Axel Yaguana

Team Platzi

CRISTIAN BARBERO PÉREZ

Mirna Ampuero

Samuel Enrique Velásquez De La Cruz

Luis Felipe Duarte Herrera

Diego Buesaquillo

Carlos S. Aldazosa

Daniela Betancur

David Silva Apango

Regresión Lineal con Estimación de Máxima Verosimilitud en Machine Learning

Incertidumbre y probabilidad

Fundamentos de Probabilidad para Ciencia de Datos

Probabilidad en Machine Learning: Fuentes de Incertidumbre y Modelos

Fundamentos de probabilidad

Tipos de Probabilidad: Conjunta, Marginal y Condicional

Probabilidades Condicionales y Correlación de Eventos Aleatorios

Paradojas de Probabilidad: Niño o Niña y Monty Hall

Distribuciones de probabilidad

Funciones y Distribuciones de Probabilidad en Cálculo

Distribuciones Discretas: Bernoulli y Binomial

Cálculos con Distribución Binomial en Google Colab usando Python

Análisis de Distribuciones Continuas: Enfoque en la Gaussiana

Estimación de Distribuciones de Probabilidad en Google Colab

MLE (Maximum Likelihood Estimation)

Estimación de Máxima Verosimilitud en Modelado Estadístico