Clasificación Bayesiana y el Algoritmo Naive Bayes

Clase 16 de 17 • Curso de Matemáticas para Data Science: Probabilidad

Contenido del curso

Incertidumbre y probabilidad

Fundamentos de probabilidad

Distribuciones de probabilidad

MLE (Maximum Likelihood Estimation)

Inferencia bayesiana

Tomar examen

Resumen

El teorema de Bayes no solo transforma la manera en que cuantificamos la incertidumbre, sino que también es el pilar de algunos de los algoritmos más utilizados en machine learning y ciencia de datos. Comprender cómo se conecta la optimización bayesiana con los modelos de clasificación te da una ventaja conceptual sólida para cualquier ruta profesional en datos.

¿Cuál es la diferencia entre MLE y MAP en machine learning?

En la escuela frecuentista trabajamos con el MLE (Maximum Likelihood Estimation), o estimación de máxima verosimilitud. Este enfoque busca los parámetros del modelo que maximizan la probabilidad de observar los datos dado un modelo H [00:48].

El análogo bayesiano se llama MAP (Maximum A Posteriori) [01:10]. En lugar de optimizar únicamente la verosimilitud, MAP maximiza la probabilidad posterior: dado un conjunto de datos D, ¿cuál es la probabilidad de que una hipótesis H describa esos datos?

Por el teorema de Bayes, la posterior se descompone así:

Verosimilitud: probabilidad de D dado H.
Prior: probabilidad asociada al modelo H.
Evidencia: probabilidad del conjunto de datos D.

Como la evidencia permanece constante sin importar el modelo elegido, se puede omitir del proceso de optimización [02:42]. El problema se reduce entonces a maximizar el producto de la verosimilitud por la probabilidad prior. Toda la optimización bayesiana en machine learning parte de este esquema.

¿Por qué MAP y MLE son esquemas inversos?

Con MLE obtenemos datos a partir de parámetros: buscamos qué tan probable es observar los datos si asumimos ciertos parámetros. Con MAP hacemos lo contrario: obtenemos parámetros a partir de los datos [03:22]. Ambos son válidos para optimización, pero MAP incorpora conocimiento previo a través del prior, lo que puede producir estimaciones más robustas cuando se dispone de información adicional.

¿Qué es el clasificador Naive Bayes y por qué se llama ingenuo?

Un problema de clasificación consiste en asignar un documento o dato a una categoría —deportes, videojuegos, política— eligiendo aquella con la mayor probabilidad [03:50]. Cuando este clasificador se construye bajo filosofía bayesiana, necesitamos calcular la posterior para distintas hipótesis de modelamiento.

El obstáculo principal es que la verosimilitud conjunta resulta muy difícil de calcular porque el espacio muestral es extremadamente grande [05:08]. Si no hacemos ninguna simplificación, obtenemos el llamado clasificador de Bayes óptimo (Optimal Bayes Classifier) [05:25], que ofrece la mayor precisión posible pero es computacionalmente inviable en la práctica.

¿Cómo simplifica Naive Bayes el cálculo de probabilidades?

La solución consiste en factorizar la verosimilitud como un producto de probabilidades independientes para cada punto del dataset [05:55]:

En lugar de evaluar la probabilidad conjunta de todos los datos, se calcula la probabilidad de cada observación X1, X2, …, XN de forma independiente dado el modelo H.
Esta independencia reduce drásticamente el espacio muestral.
Se itera el modelo sobre cada punto por separado.

Esta hipótesis de independencia condicional es justamente lo que da el nombre de Naive o ingenuo al clasificador [06:30]. Aunque es una simplificación fuerte, en la práctica Naive Bayes produce resultados sorprendentemente buenos en tareas como clasificación de texto.

¿Cómo se conectan estos conceptos con otros modelos de ciencia de datos?

El esquema bayesiano no se limita a clasificación. La misma lógica aplica a:

Regresión lineal: donde H corresponde a diferentes rectas con distintos parámetros.
Regresión logística: donde H son diferentes funciones sigmoides con diferentes parámetros beta.
Cualquier modelo cuyos parámetros se puedan optimizar mediante MAP [03:10].

Dominar tanto el pensamiento frecuentista como el bayesiano permite abordar la estimación de distribuciones de probabilidad desde ambas perspectivas, ya sea con MLE o MAP [07:30]. Estos fundamentos son esenciales antes de profundizar en algoritmos más avanzados de clasificación, regresión o cualquier otra tarea de aprendizaje automático.

Si lograste seguir estos conceptos, comparte tu experiencia y tus dudas en la sección de comentarios.

Comentarios

Valenttina Cardozo

student•

Me encantó este curso introductorio! Es el primero que veo con Pacho y me gustó que es muy claro y conciso

Ivan Ezequiel Mazzalay

student•

Está excelente este curso!!

Edwin Alfonso Vargas Cubides

student•

Cuando Veas este lo vas a entender mejor Curso de Introducción al Pensamiento Probabilístico

Josue Noha Valdivia

student•

MAP (Maximum a Posteriori Probability) De la misma manera que el algoritmo MLE consiste en maximizar la probabilidad para ajustarla mejor a los datos: P(h|D) = P(D|h)P(h)/P(D) → max P(h|D) = max P(D|h)P(h) Eliminamos P(D) puesto que es el mismo valor para el conjuto de datos

Nota:

Puesto que no podemos hallar la probabilidad de la verosimilitud de manera exacta (Lo que lllamaríamos un modelo Optimal Bayes) puesto que computacionalmente es muy complicado, simplificamos el modelo a la probabilidad de cada uno de los atributos (Modelo conocido como Naive Bayes): P(D|h) = P(X1,X2,...,Xn|h) = P(X1|h)P(X2|h)...P(Xn|h)

Sebastian Ovalle Ovalle

student•

Muchas gracias Josue, me salvaste todo el curso

Eric Gabriel Martinez Labrin

student•

Pensé en dejar de lado este curso debido a la pobre explicación de este profesor, el cual esta enfocado netamente a personas con estudios en el área. Pero agradezco que me recordó que ** en matemáticas siempre hay mas de una forma de hacer las cosas**, por eso busque otros métodos y explicaciones de lo que el decía y así logre entender de que se trata, (en si sólo me sirvieron los títulos de cada video). Recomiendo ampliamente al @team platzi, hacer este curso con lenguaje más universal para que las personas sin conocimiento previos lo entendamos, o mínimo, (como ya lo dije en varios comentarios anteriores), al empezar el curso indicar que conocimientos previos debemos tener para entender de qué habla, asi nos instruimos antes de empezar a tomarla y no sufrimos tanto en el proceso..

Victor Muchica Farfan

student•

Excelente curso con un gran profesor muy didactico para explicar algunos temas que son un poco densos, y lo mejor son los ejemplos dados. Mis felicitaciones.

Daniel Andrés Giraldo Benites

student•

a mi parecer de los mejores de la carrera de data science

Jeinfferson Bernal G

student•

Gran profesor.

Diego Alejandro Lesmes

student•

Sklearn y stats de python y R respecticamente permiten aplicar el clasificador de naive bayes en aprendizaje supervisado

Daniel Andrés Giraldo Benites

student•

pues si justamente son las aplicaciones estándar en data science

Wilson Delgado

student•

En el siguiente video explican con otro ejemplo lo que es Naive Bayes: https://www.youtube.com/watch?v=jS1CKhALUBQ

Daniel Andrés Giraldo Benites

student•

genial gracias por el aporte!

Jeinfferson Bernal G

student•

Gracias por el aporte!

Yimy Romero

student•

Buenas noches

En el taller de las lecturas 6-7-8, el profesor trató de escribir las siguientes ecuaciones:

$latex.png$

Espero contribuir. Saludos cordiales.

David Castillo

student•

Revisé el video que un compañero compartió anteriormente y pude finalmente quitarme las dudas en cuanto a la resolución del ejercicio.

Aqui el video

Carlos Alfredo Chire Chanji

student•

Ha sido uno de los mejores descubrimientos, un apasionado por enseñar, gracias por compartir.

Francisco Javier Granados Silva

student•

Tuve muchos problemas con este curso porque desconozco muchos conceptos. Sin embargo, al regresar a los primeros videos del curso, algunas cosas se vuelven mas claras. Admiro mucho el enorme conocimiento de Francisco. Es claro que entiende muy bien el tema y sabe explicarlo. Aun cuando me quedo con duda, estoy seguro que se deben mas a mi inexperiencia que a la calidad del curso.

Luis Felipe García

student•

Siento lo mismo

Andrés Fernández

student•

Este video está bastante bien para una explicación detallada de la aplicación de Naive Bayes a un ejemplo de clasificación de spam mail https://www.youtube.com/watch?v=O2L2Uv9pdDA

Yimy Romero

student•

Buenas noches

También presento las ecuaciones de las lecturas 9-10.

Un saludo.

Jeinfferson Bernal G

student•

Bayes en Machine Learning

En el area frecuentista se trabaja con el MLE (Estimacion de Maxima Verosimilitud), mientras que en el area bayesiana con MAP (Maximo Aposteriori). Consiste en lo siguiente:

Dado un conjunto de datos D, cual es la probabilidad de que conociendo el conjunto de datos D tenga una hipotesis h que describa D.
Por el T de Bayes tenemos que la Verosimilitud es: Cual es la probabilidad de D dado h P(D | h) por la probabilidad asociada a ese modelo h P(h) sobre las evidencias que en este caso son las probabilidades de ese conjunto de datos D, P(D)

En MLE se optimiza la Verosimilitud. En el esquema Bayesiano se optimiza la probabilidad a posteriori P(h | D). Esto se traduce en encontrar el maximo del producto de dos probabilidades.

La evidencia no se toma en cuenta porque, sin importar el modelo que estamos usando, la evidencia siempre es la misma. Ademas esto permite reducir el problema de 3 probabilidades a solo 2

En MAP lo que estamos es hallando un maximo con base a las probabilidades posteriori que es simplemente obtener unos parametros a partir de los datos y no obtener los datos a partir de parametros como en MLE

Clasificador de Naive Bayes

Este clasificador lo que hace es asignar una probabilidad de que un documento pertenezca a alguna de las categorias definidas y luego se selecciona la mayor de las probabilidades y decimos que ese documento pertences a la categoria con la mayor probabilidad.

Tambien pueden estar basados en una filosofia bayesiana. Esto implica calcular el maximo de la probabilidad posteriori que es: dado un conjunto de datos D, la probabilidad asociada de tener un modelo con unos parametros de modelamiento

max P(h | D)

Lo cual se reduce a calcular el maximo de la Verosimilitud que es: dada una hipotesis de modelamiento, la probabilidad de tener esos datos P(D | h) por la probabilidad asociada al modelo que estamos considerando P(h)

max P(h | D) = max P(D | h)*P(h)

El problema fundamental con el producto de probabilidades es que esas probabilidades son muy dificiles de calcular debido a que el espacio muestral es extremadamente grande.

Si no se considera las simplifcaciones sobre las probabilidades entonces se tiene un Clasificador Optimal Bayes. Lo ideal es llegar a un modelo con este esquema aunque en la realidad sea costoso computacionalmente

Otra manera de superar la dificultad es factorizar la similitud en probabilidades mas sencillas

P(D | h) = P({x1, x2, x3,..., xn} | h)

Esto se puede expresar como una probabilidad sobre cada punto del dataset de forma independiente (factorizar como un producto de probabilidades independientes). Esto reduce considerablemente el espacio muestral. A esta simplificacion se llama Naive Bayes

P(D | h) = P({x1, x2, x3,..., xn} | h) = P(x1 | h)*P(x2 | h)*.....*P(xn | h)

Ruddy Ramos

student•

Gracias por el aporte.

angel ayala

student•

excelente curso, los cursos de este profesor son los mejores

Daniel Andrés Giraldo Benites

student•

concuerdo contigo plenamente

Erick Saldaño

student•

Hola a Todos!. Es posible que puedan compartir cómo determinan qué modelo o hipótesis a utilizar según los ejemplos compartidos por el profesor. Un abrazo y muchas gracias

Jose Potes

student•

Si no entendiste nada sobre esto, no te preocupes, yo no entendí ni Jota, y si me dan ganas de repetir la clase, absolutamente no. creo sentir unas lineas mentales que se chocan al escuchar esta teoria tan compleja. asi que, aqui hay un video(en ingles), que explica detallamente(por no decir mejor), esta teoria. https://www.youtube.com/watch?v=jS1CKhALUBQ en verdad, creo que la clase ha sido pobre.

Enzo Gonzales

student•

Digo lo mismo, conoci estos conceptos en un intituto donde tuve una materia de probabilidad

Lo unico que entendi en estas clases en general, fue lo que yo ya conocia

Creo que solo los que ya tenian conocimiento previo y profundo podrian comprenderlo

sino, solo con esto no alcanza

Skarieth Ojeda

student•

Las formulas de varios PDFs no se pueden leer. Seria bueno que los subieran otra vez :)

Christian Rangel

student•

copia y pega en un Notebook de Jupyter

Roberth Mafla

student•

Creo que necesito ver dos veces este curso. Si bien tengo conocimientos en estadística, voy a profundizar nuevamente en la parte matemática fundamental de la estadística inferencial y lo veré nuevamente, creo que es una metodología para entender a la perfección lo que se explica aquí.

Martha Beatriz Espinoza Almerco

student•

De todos los profesores que he visto en Platzi, Francisco se lleva las 5 estrellas por las detalladas explicaciones y su didáctica . Me recuerda a mi estimado Profesor Clodomiro Miranda de Cálculo de Probabilidades de la UNALM. <3

Hermes A. J. Cabrera F.

student•

Hola Martha, concuerdo con tu apreciación sobre el profesor Francisco, es excelente comunicador y muy didáctico; los temas densos con él se hacen entendibles.

Braulio Alberto Bueno Pabon

student•

Que curso tan interesante. Justo lo que iba a decir.. que faltaban ejercicios prácticos para aplicar lo aprendido.
Nos vemos en la próxima clase para hacerlos. Gracias.

José Indalicio Carvajal Hernández

student•

tiene algunos ejercicios, y otro teóricos, de todas maneras puedes reforzar tu conocimientos con el material subido por el resto de compañeros

Miguel Angel Echavarria Velez

student•

Muy buen curso, explica muy bien!!

Clasificación Bayesiana y el Algoritmo Naive Bayes

Incertidumbre y probabilidad

Fundamentos de Probabilidad para Ciencia de Datos

Probabilidad en Machine Learning: Fuentes de Incertidumbre y Modelos

Fundamentos de probabilidad

Tipos de Probabilidad: Conjunta, Marginal y Condicional

Probabilidades Condicionales y Correlación de Eventos Aleatorios

Paradojas de Probabilidad: Niño o Niña y Monty Hall

Distribuciones de probabilidad

Funciones y Distribuciones de Probabilidad en Cálculo

Distribuciones Discretas: Bernoulli y Binomial

Cálculos con Distribución Binomial en Google Colab usando Python

Análisis de Distribuciones Continuas: Enfoque en la Gaussiana

Estimación de Distribuciones de Probabilidad en Google Colab

MLE (Maximum Likelihood Estimation)

Estimación de Máxima Verosimilitud en Modelado Estadístico

Regresión Lineal con Estimación de Máxima Verosimilitud en Machine Learning

Regresión Logística y Estimación de Máxima Verosimilitud

Visualización de Máxima Verosimilitud en Regresión Logística

Inferencia bayesiana

Teorema de Bayes: Aplicación en Diagnósticos Médicos

Clasificación Bayesiana y el Algoritmo Naive Bayes

Ejercicios de Probabilidad para Ciencia de Datos