El teorema de Bayes no solo transforma la manera en que cuantificamos la incertidumbre, sino que también es el pilar de algunos de los algoritmos más utilizados en machine learning y ciencia de datos. Comprender cómo se conecta la optimización bayesiana con los modelos de clasificación te da una ventaja conceptual sólida para cualquier ruta profesional en datos.
¿Cuál es la diferencia entre MLE y MAP en machine learning?
En la escuela frecuentista trabajamos con el MLE (Maximum Likelihood Estimation), o estimación de máxima verosimilitud. Este enfoque busca los parámetros del modelo que maximizan la probabilidad de observar los datos dado un modelo H [00:48].
El análogo bayesiano se llama MAP (Maximum A Posteriori) [01:10]. En lugar de optimizar únicamente la verosimilitud, MAP maximiza la probabilidad posterior: dado un conjunto de datos D, ¿cuál es la probabilidad de que una hipótesis H describa esos datos?
Por el teorema de Bayes, la posterior se descompone así:
- Verosimilitud: probabilidad de D dado H.
- Prior: probabilidad asociada al modelo H.
- Evidencia: probabilidad del conjunto de datos D.
Como la evidencia permanece constante sin importar el modelo elegido, se puede omitir del proceso de optimización [02:42]. El problema se reduce entonces a maximizar el producto de la verosimilitud por la probabilidad prior. Toda la optimización bayesiana en machine learning parte de este esquema.
¿Por qué MAP y MLE son esquemas inversos?
Con MLE obtenemos datos a partir de parámetros: buscamos qué tan probable es observar los datos si asumimos ciertos parámetros. Con MAP hacemos lo contrario: obtenemos parámetros a partir de los datos [03:22]. Ambos son válidos para optimización, pero MAP incorpora conocimiento previo a través del prior, lo que puede producir estimaciones más robustas cuando se dispone de información adicional.
¿Qué es el clasificador Naive Bayes y por qué se llama ingenuo?
Un problema de clasificación consiste en asignar un documento o dato a una categoría —deportes, videojuegos, política— eligiendo aquella con la mayor probabilidad [03:50]. Cuando este clasificador se construye bajo filosofía bayesiana, necesitamos calcular la posterior para distintas hipótesis de modelamiento.
El obstáculo principal es que la verosimilitud conjunta resulta muy difícil de calcular porque el espacio muestral es extremadamente grande [05:08]. Si no hacemos ninguna simplificación, obtenemos el llamado clasificador de Bayes óptimo (Optimal Bayes Classifier) [05:25], que ofrece la mayor precisión posible pero es computacionalmente inviable en la práctica.
¿Cómo simplifica Naive Bayes el cálculo de probabilidades?
La solución consiste en factorizar la verosimilitud como un producto de probabilidades independientes para cada punto del dataset [05:55]:
- En lugar de evaluar la probabilidad conjunta de todos los datos, se calcula la probabilidad de cada observación X1, X2, …, XN de forma independiente dado el modelo H.
- Esta independencia reduce drásticamente el espacio muestral.
- Se itera el modelo sobre cada punto por separado.
Esta hipótesis de independencia condicional es justamente lo que da el nombre de Naive o ingenuo al clasificador [06:30]. Aunque es una simplificación fuerte, en la práctica Naive Bayes produce resultados sorprendentemente buenos en tareas como clasificación de texto.
¿Cómo se conectan estos conceptos con otros modelos de ciencia de datos?
El esquema bayesiano no se limita a clasificación. La misma lógica aplica a:
- Regresión lineal: donde H corresponde a diferentes rectas con distintos parámetros.
- Regresión logística: donde H son diferentes funciones sigmoides con diferentes parámetros beta.
- Cualquier modelo cuyos parámetros se puedan optimizar mediante MAP [03:10].
Dominar tanto el pensamiento frecuentista como el bayesiano permite abordar la estimación de distribuciones de probabilidad desde ambas perspectivas, ya sea con MLE o MAP [07:30]. Estos fundamentos son esenciales antes de profundizar en algoritmos más avanzados de clasificación, regresión o cualquier otra tarea de aprendizaje automático.
Si lograste seguir estos conceptos, comparte tu experiencia y tus dudas en la sección de comentarios.