Bienvenido a Platzi

Gabriel Obregón

Gabriel Obregón

student
hace 5 meses

🧠 Naive Bayes – Fundamentos Matemáticos

📘 1. Idea general

🔹 Naive Bayes = Clasificador probabilístico 🔹 Usa el Teorema de Bayes para decidir la categoría más probable. 🔹 Se aplica en clasificación de textos, correos, opiniones, etc.

Ejemplo:

  • P(deportes) = 0.6
  • P(política) = 0.3
  • P(videojuegos) = 0.1 ➡️ El modelo predice deportes (la mayor probabilidad).

💡 Objetivo: encontrar la categoría con mayor P(c|d).

⚙️ 2. Regla de Bayes

📏 Fórmula base: P(c|d) = [P(d|c) × P(c)] / P(d)

Significados:

  • 🧩 P(c|d): probabilidad de que el documento d sea de la categoría c
  • 📄 P(d|c): probabilidad de que d aparezca en la categoría c
  • 📊 P(c): probabilidad general de la categoría
  • 🔁 P(d): probabilidad total del documento (normalización)

🎯 Se elige la categoría con el valor más alto de P(c|d).

🧩 3. Hipótesis de independencia

Naive Bayes supone que las características del documento son independientes entre sí si se conoce la categoría.

🧮 Simplificación: P(d|c) = P(f1|c) × P(f2|c) × ... × P(fn|c)

🔹 Cada palabra o característica se evalúa de forma separada.

🔹 Esto reduce la complejidad del cálculo.

🔹 Aunque no siempre es 100% realista, funciona muy bien en la práctica.

🧮 4. Evitar problemas numéricos

🔻 Multiplicar muchas probabilidades pequeñas → produce números muy bajos. ⚠️ Riesgo: underflow (el sistema los trata como cero).

🔧 Solución: usar logaritmos

Transformación: log P(c|d) = log P(c) + log P(f1|c) + log P(f2|c) + ... + log P(fn|c)

💪 Ventajas:

  • Convierte multiplicaciones en sumas
  • Mantiene precisión
  • Mejora estabilidad numérica

📊 5. Cálculo de probabilidades

🟦 Probabilidad de la categoría (P(c)) → Frecuencia de la categoría en el conjunto de datos. Ejemplo: si 30 de 100 documentos son de deportes → P(c) = 0.3

🟩 Probabilidad condicional (P(fi|c)) → Frecuencia de la característica dentro de esa categoría. Ejemplo: la palabra “gol” aparece frecuentemente en textos de deportes.

📈 Resultado: se combinan ambas para calcular P(c|d).

🧱 6. Espacio logarítmico

Trabajar en el espacio logarítmico = usar log P en lugar de P.

🎯 Objetivo: evitar que valores muy pequeños se conviertan en cero. 💡 Beneficios:

  • Mayor precisión
  • Estabilidad en los cálculos
  • Escalabilidad (miles de características)
No hay respuestas
Curso de Algoritmos de Clasificación de Texto

Curso de Algoritmos de Clasificación de Texto

Resuelve tareas de clasificación de texto con algoritmos de Machine Learning. Aprende a predecir el género de nombres y detectar spam en correos electrónicos. Desarrolla modelos personalizados e implementa Naive Bayes desde cero usando Python.

Curso de Algoritmos de Clasificación de Texto
Curso de Algoritmos de Clasificación de Texto

Curso de Algoritmos de Clasificación de Texto

Resuelve tareas de clasificación de texto con algoritmos de Machine Learning. Aprende a predecir el género de nombres y detectar spam en correos electrónicos. Desarrolla modelos personalizados e implementa Naive Bayes desde cero usando Python.