Funcionamiento Matemático del Clasificador Naive Bayes

Clase 21 de 26 • Curso de Algoritmos de Clasificación de Texto

Contenido del curso

Desambiguación y etiquetado de palabras

Modelos Markovianos Latentes (HMM)

Algoritmo de Viterbi

Modelos Markovianos de máxima entropía (MEMM)

Clasificación de texto con NLTK

Implementación de un modelo de clasificación de texto

Tomar examen

Resumen

Comprender la lógica matemática detrás de un algoritmo de clasificación es fundamental para aplicarlo con criterio. El clasificador de Naive Bayes es uno de los modelos más utilizados en procesamiento de lenguaje natural, y su funcionamiento se basa en principios de probabilidad que, una vez desglosados, resultan sorprendentemente accesibles.

¿Cómo asigna Naive Bayes una categoría a un documento?

Naive Bayes es un clasificador probabilístico [0:13]. Esto significa que, dado un documento cualquiera, el modelo no elige una categoría de forma directa, sino que calcula una probabilidad para cada categoría posible — deportes, videojuegos, política o cualquier otra — y selecciona aquella con la probabilidad más alta.

La fórmula central parte de la probabilidad condicional: dado un documento D, ¿cuál es la probabilidad de que pertenezca a una categoría C? El modelo evalúa esta expresión para todas las categorías y elige la que arroje el valor máximo, de manera análoga a como se trabaja con modelos de Markov [0:49].

¿Qué papel juega la regla de Bayes en este proceso?

El nombre del algoritmo proviene directamente de la regla de Bayes [1:09]. Esta regla establece que la probabilidad posterior — es decir, la probabilidad de una categoría dado un documento — se calcula combinando tres elementos:

La probabilidad condicional previa (likelihood): probabilidad de encontrar ese documento dada una categoría.
La probabilidad de la categoría (prior): qué tan frecuente es esa categoría en el corpus.
La probabilidad del documento: qué tan frecuente es ese documento en todo el corpus.

Aquí aparece un truco elegante [1:38]: como se comparan varias categorías y todas las probabilidades comparten el mismo denominador (la probabilidad del documento), este se puede eliminar. La relación de orden se preserva — el valor más grande sigue siendo el más grande sin importar que se divida por la misma cantidad. Esto simplifica el problema a calcular solo dos probabilidades.

¿Qué es la hipótesis de Naive Bayes y por qué simplifica los cálculos?

Un documento se caracteriza por un conjunto de atributos o features [2:52]: palabras, n-gramas, bigramas, trigramas, categorías gramaticales o incluso caracteres individuales. La probabilidad condicional de un documento completo dado una categoría involucra todas estas variables simultáneamente.

La hipótesis de Naive Bayes [3:27] introduce una suposición de independencia condicional: la probabilidad conjunta de todos los features dado una categoría se descompone en el producto de las probabilidades individuales de cada feature. En otras palabras, el modelo asume que cada atributo contribuye de forma independiente a la clasificación.

Con esta hipótesis, la fórmula final queda expresada como:

La probabilidad de la categoría multiplicada por el producto (representado con la letra pi mayúscula) de todas las probabilidades condicionales de cada feature dado esa categoría [4:12].

¿Por qué se trabaja en espacio logarítmico?

Cuando el número de features es muy grande, multiplicar muchas probabilidades menores que uno genera valores extremadamente pequeños [4:40]. Por ejemplo, 0.1 × 0.2 × 0.03 ya produce un número diminuto, y con cientos de atributos el resultado puede ser tan cercano a cero que la máquina lo interprete como cero. Este problema se conoce como underflow [7:09].

Para evitarlo, se aplica la función logaritmo [5:07]. La propiedad clave es que el logaritmo convierte productos en sumas:

El logaritmo de la probabilidad de la categoría más la sumatoria de los logaritmos de cada probabilidad condicional individual.

Esto transforma números extremadamente pequeños en valores negativos manejables. Un valor como 0.0001 se convierte en algo cercano a -4, que es mucho más fácil de procesar computacionalmente [5:52]. Trabajar en el espacio logarítmico garantiza estabilidad numérica sin alterar qué categoría resulta ser la más probable.

¿Cómo se calculan estas probabilidades en la práctica?

Cada una de las probabilidades involucradas se obtiene haciendo conteos sobre el dataset [7:20], de forma similar a los procedimientos usados en modelos markovianos y de máxima entropía. La frecuencia con la que aparece cada feature dentro de cada categoría, y la frecuencia de cada categoría en el corpus, son los datos que alimentan la fórmula.

Esta conexión entre la fórmula matemática y los conteos reales sobre los datos es lo que permite traducir toda esta lógica a código en Python, convirtiendo ecuaciones en instrucciones de programación ejecutables. ¿Te queda claro cómo la hipótesis de independencia simplifica los cálculos? Comparte tus dudas o reflexiones en los comentarios.

Comentarios

Jaime Andres Valencia Gaviria

student•

puff solo en esta clase aprendí mas propiedades de los logaritmos y de las sumatorias que en 4 cursos de calculo de universidad

Farid Murzone

student•

La mejor clase del curso y una de las mejores que he visto en platzi. Tan solo con una pizarra, muy bien explicado. Clarísimo. Felicitaciones.

Diego Alejandro Lesmes

student•

Perfect! nota mental:

underflow: Sobrepasar la precisión de máquina con un espacio logaritmico :green_heart:

Jhon Freddy Tavera Blandon

student•

Naive Bayes es una familia de algoritmos de clasificación basados en el teorema de Bayes con una suposición clave: que las características de los datos son independientes entre sí, lo que se conoce como la suposición de independencia condicional. A pesar de que esta suposición no siempre es cierta en la práctica, los modelos Naive Bayes suelen ser efectivos, especialmente en problemas de clasificación de texto, como la detección de spam o el análisis de sentimientos.

Bryan Castano

student••

Wowww! Esta Clase me estallo la mente, Fue Genial, Mas aun cunado la vuelto a ver con mis apuntes de Pr{} && Stats quedo muy claor, me ugsto que usara la demostracion a nivel de matematicas de lLog| y Productorias, FUe Genial , VOlver a ver el Gran Teorema de Bayes de nuevo. \nAhora todo tiene mejor sentido para Algoritmos de Naive Bayes.

Gabriel Obregón

student•

🧠 Naive Bayes – Fundamentos Matemáticos

📘 1. Idea general

🔹 Naive Bayes = Clasificador probabilístico 🔹 Usa el Teorema de Bayes para decidir la categoría más probable. 🔹 Se aplica en clasificación de textos, correos, opiniones, etc.

Ejemplo:

P(deportes) = 0.6
P(política) = 0.3
P(videojuegos) = 0.1 ➡️ El modelo predice deportes (la mayor probabilidad).

💡 Objetivo: encontrar la categoría con mayor P(c|d).

⚙️ 2. Regla de Bayes

📏 Fórmula base: P(c|d) = [P(d|c) × P(c)] / P(d)

Significados:

🧩 P(c|d): probabilidad de que el documento d sea de la categoría c
📄 P(d|c): probabilidad de que d aparezca en la categoría c
📊 P(c): probabilidad general de la categoría
🔁 P(d): probabilidad total del documento (normalización)

🎯 Se elige la categoría con el valor más alto de P(c|d).

🧩 3. Hipótesis de independencia

Naive Bayes supone que las características del documento son independientes entre sí si se conoce la categoría.

🧮 Simplificación: P(d|c) = P(f1|c) × P(f2|c) × ... × P(fn|c)

🔹 Cada palabra o característica se evalúa de forma separada.

🔹 Esto reduce la complejidad del cálculo.

🔹 Aunque no siempre es 100% realista, funciona muy bien en la práctica.

🧮 4. Evitar problemas numéricos

🔻 Multiplicar muchas probabilidades pequeñas → produce números muy bajos. ⚠️ Riesgo: underflow (el sistema los trata como cero).

🔧 Solución: usar logaritmos

Transformación: log P(c|d) = log P(c) + log P(f1|c) + log P(f2|c) + ... + log P(fn|c)

💪 Ventajas:

Convierte multiplicaciones en sumas
Mantiene precisión
Mejora estabilidad numérica

📊 5. Cálculo de probabilidades

🟦 Probabilidad de la categoría (P(c)) → Frecuencia de la categoría en el conjunto de datos. Ejemplo: si 30 de 100 documentos son de deportes → P(c) = 0.3

🟩 Probabilidad condicional (P(fi|c)) → Frecuencia de la característica dentro de esa categoría. Ejemplo: la palabra “gol” aparece frecuentemente en textos de deportes.

📈 Resultado: se combinan ambas para calcular P(c|d).

🧱 6. Espacio logarítmico

Trabajar en el espacio logarítmico = usar log P en lugar de P.

🎯 Objetivo: evitar que valores muy pequeños se conviertan en cero. 💡 Beneficios:

Mayor precisión
Estabilidad en los cálculos
Escalabilidad (miles de características)

Sebastian Cobo Isaac

student•

¿Qué se hace cuando la probabilidad de un evento fi dado c es cero?, es que en la productoria el cero haría que toda la multiplicación me de cero y con los logaritmos se indeterminaría. Eso conlleva a que no pueda escoger el máximo.

Sebastian CONTRERAS

student•

Se usa un término denominado Laplace Smoothing, donde tanto al numerador como al denominador de esa probabilidad se les suma cierta cantidad y así esta probabilidad nunca será cero. Te invito a investigar de qué trata esa cantidad que se suma tanto arriba como abajo

MICHAEL LEONARDO AGUAS MURILLO

student•

Que locura esa deducción!!!

Romel Manrique

student•

Usualmente se utiliza los nombres

Likelihood para P(d|c) Prior P(c) y Discriminante para P(d)

Por si encuentran esos términos en diferente literatura.

Alexander carpio mamani

student•

uff buenardo el video :)

Francisco Garcia [C6]

student•

Marcelo Sánchez

student•

Excelente esta clase, es tan clara la forma en la que explica este docente, que con una sola frase disipo cualquier duda :)

Funcionamiento Matemático del Clasificador Naive Bayes

Desambiguación y etiquetado de palabras

Clasificación de Texto con Machine Learning

Etiquetado de Palabras en Python con NLTK y Stanza

Uso de Stanza para Procesamiento de Lenguaje Natural en Español

Modelos Markovianos Latentes (HMM)

Modelos Marcovianos Latentes en PLN: Fundamentos y Aplicaciones

Matemáticas de Cadenas de Markov y su Aplicación en Modelos Latentes

Modelos Marcovianos Latentes: Etiquetado Gramatical Automático

Implementación de Modelos Marcovianos Latentes en Python con Google Colab

Entrenamiento de Modelos Marcobianos Latentes en Python

Algoritmo de Viterbi

Decodificación de Secuencias con el Algoritmo de Viterbi

Cálculo de Probabilidades en el Algoritmo de Viterbi

Implementación del Algoritmo de Viterbi en Python con NumPy

Implementación del Algoritmo Viterbi para Modelos Ocultos de Markov

Implementación de Modelos Ocultos de Markov en NLTK y Python

Modelos Markovianos de máxima entropía (MEMM)

Modelos Marcovianos de Máxima Entropía en Clasificación de Etiquetas

Algoritmo BiTerbi en Modelos de Máxima Entropía

Entrenamiento y Decodificación de Modelos Marcobianos en Bitterbi

Clasificación de texto con NLTK

Clasificación de Texto en Machine Learning: Teorías y Aplicaciones

Clasificación de Nombres por Género con NLTK en Python

Clasificación de Nombres con Naive Bayes en Python

Clasificación de correos: Filtrado de spam con Naive Bayes

Implementación de un modelo de clasificación de texto

Funcionamiento Matemático del Clasificador Naive Bayes

Preparación de Datos para Modelo Naive Bayes en Python

Implementación del Algoritmo Naive Bayes en Python con spaCy

Implementación del Método Predict en Naive Bayes Clasificador

Métricas de Evaluación en Modelos de Clasificación: Accuracy, Precision y Recall

Clasificación de Sentimientos con Reviews de Amazon