Implementación del Algoritmo Naive Bayes en Python con spaCy

Clase 23 de 26 • Curso de Algoritmos de Clasificación de Texto

Contenido del curso

Desambiguación y etiquetado de palabras

Modelos Markovianos Latentes (HMM)

Algoritmo de Viterbi

Modelos Markovianos de máxima entropía (MEMM)

Clasificación de texto con NLTK

Implementación de un modelo de clasificación de texto

Tomar examen

Resumen

Construir un clasificador de texto desde cero permite comprender a fondo cómo funcionan las probabilidades detrás de algoritmos como Naive Bayes. En esta sesión se implementa paso a paso una clase en Python que integra el tokenizador de spaCy, calcula probabilidades prior y prepara los conteos condicionales necesarios para clasificar documentos, todo dentro de un enfoque de programación orientada a objetos.

¿Por qué usar el espacio logarítmico en Naive Bayes?

El algoritmo de Naive Bayes requiere multiplicar muchas probabilidades. Cuando estas son valores muy pequeños, la precisión de máquina —que es finita— puede redondear el resultado a cero [0:42]. La solución es trabajar en el espacio logarítmico: al aplicar logaritmos, un producto de probabilidades se transforma en una suma de logaritmos, evitando el desbordamiento numérico.

Esta transformación es la fórmula central que se implementa dentro del método fit de la clase. Se consideran primero los logaritmos de las probabilidades prior de cada clase y luego los de las probabilidades condicionales de cada palabra dada una categoría.

¿Qué es el suavizado de Laplace y cuándo se necesita?

Existen escenarios donde una palabra no aparece en ningún documento de cierta categoría, lo que genera una probabilidad condicional igual a cero. Como el logaritmo de cero no se puede calcular, se aplica el suavizado de Laplace [3:08]: se suma 1 al numerador (conteo de la palabra) y se suma la longitud total del vocabulario al denominador. Si el vocabulario tiene 100 palabras, el denominador crece en 100 y el numerador solo en 1, normalizando la distribución sin distorsionarla.

¿Cómo funciona el tokenizador de spaCy?

La librería spaCy es una de las más robustas para llevar modelos de procesamiento del lenguaje natural a producción [0:06]. Su tokenizador se configura importando un vocabulario del idioma deseado:

python from spacy.tokenizer import Tokenizer from spacy.lang.en import English

nlp = English() tokenizer = Tokenizer(nlp.vocab)

El objeto nlp agrupa diferentes etapas de procesamiento en un mismo flujo [1:43]. Al pasarle el vocabulario del inglés al Tokenizer, este aplica reglas lingüísticas preconstruidas para separar el texto en tokens de forma inteligente. En Google Colab, spaCy ya viene preinstalada, por lo que no se requiere pip install [1:27].

¿Cómo se estructura la clase NaiveBayesClassifier en Python?

La clase sigue el patrón estándar de machine learning: un método fit para entrenar y un método predict para generar predicciones [4:40]. Dentro de __init__ se crean el objeto nlp y el Tokenizer como atributos propios de la clase.

python class NaiveBayesClassifier: def init(self): nlp = English() self.tokenizer = Tokenizer(nlp.vocab)

tokenize(document): recibe un texto y devuelve una lista de tokens en minúsculas usando t.text.lower() [3:42].
word_counts(words): recorre una lista de palabras y construye un diccionario donde cada llave es una palabra y su valor es el número de apariciones [4:06].

Estas dos funciones son utilidades internas que el método fit invoca durante el entrenamiento.

¿Qué calcula el método fit?

El método fit recibe los datos de entrenamiento y sus clases correspondientes [5:05]. Internamente realiza lo siguiente:

Identifica las clases únicas para soportar clasificación multiclase, no solo binaria [5:20].
Inicializa un conjunto vacío para el vocabulario y diccionarios para conteos de clases y conteos condicionales.
Recorre cada clase y calcula el logaritmo de la probabilidad prior: log(conteo_clase / n) usando np.log [7:05].
Recorre cada documento junto con su categoría mediante zip(data, classes) y tokeniza el texto [8:05].
Por cada token, lo agrega al vocabulario si no existe y acumula su conteo dentro del diccionario de conteos condicionales correspondiente a esa clase [8:55].

python self.log_class_prior_prob[c] = np.log(self.class_count[c] / n)

Esta línea resume el cálculo prior en el espacio logarítmico para cada categoría c.

¿Por qué usar programación orientada a objetos para este algoritmo?

Esta es la primera vez en el curso que se emplea programación orientada a objetos para implementar un algoritmo de machine learning [10:20]. La ventaja es clara: los diccionarios y variables calculados durante el entrenamiento quedan almacenados como atributos de la instancia, por lo que al momento de predecir no es necesario recalcular ni reescribir código. La estructura fit → predict replica el diseño de librerías como scikit-learn, facilitando la reutilización y el mantenimiento.

Si deseas profundizar en el manejo de clases, métodos y atributos en Python, complementa con el curso de Programación Orientada a Objetos disponible en Platzi. ¿Qué parte de la implementación te resultó más interesante? Comparte tu experiencia en los comentarios.

Comentarios

Omar Larasa

student•

Hola, me ha parecido algo tedioso el proceso del fit siento que me pierdo entre tanto for, pero lo que hice fue comentar casi todas las lineas para saber por qué se hicieron. Si a alguien le sirve aquí dejo el código de fit

# como tal al entrenar andamos calculando las probabilidades para
  # hacer las predicciones. Dichas quedan alojadas en los diccionarios
  # creo que en el de log_classPriorProb y el de wordConditionalCounts
  # que va en un formato CLASS:{WORD: NUMBER} asi es por la prob
  # condicional de que tan probables son los dos juntos
  def fit(self, data, clases):
    n = len(data) # longitud de datos de entrenamiento
    self.unique_clases = set(clases) # identificar cuantas clases unicas hay
    # con la finalidad de una clasificación multiclase
    self.vocab = set()
    self.classCount = {} # C(c)
    self.log_classPriorProb = {} # log(P(c))
    self.wordConditionalCounts = {} # C(w|c)
    # CONTEO DE CLASES
    for c in clases:
      if c in self.classCount.keys(): # buscamos la clase si ya existe
        self.classCount[c] += 1 # si si le agregamos una
      else:
        self.classCount[c] = 1
    # CALCULO DE PROBABILIDADES P(c)
    for c in self.classCount.keys():
      # la probabilidad de la clase es la cantidad de veces que sale
      # entre la longitud del corpus
      self.log_classPriorProb[c] = math.log(self.classCount[c]/n)
      # ya que iteramos cada clase hay que aprovechar para hacer el
      # el calculo de los conteos
      self.wordConditionalCounts[c] = {}
    # CALCULO DE LOS CONTEOS C(w|c)
    for text, c in zip(data, clases): # ITERANDO TODO EL CORPUS
      # contamos las palabras del texto iterado
      counts = self.word_counts(self.tokenize(text))
      # iteramos cada palabra del texto
      for word, count in count.items(): # ITERANDO LOS CONTEOS (PALABRA, CLASE)
        # si la palabra no esta en el vocab la agregamos
        if word not in self.vocab:
          self.vocab.add(word)
        # si la palabra no esta en los conteos
        if word not in seld.wordConditionalCounts[c]:
          # primero creamos el elemento, CLASS:{WORD: NUMBER}
          self.wordConditionalCounts[c][word] = 0.0
        # en el for sumamos los conteos
        self.wordConditionalCounts[c][word] += count
        # CLASS:{WORD: NUMBER} asi es por la prob condicional de que
        # tan probables son los dos juntos

Omar Larasa

student•

Hola, una disculpa, se me fueron un par de errores en el código de arriba.

Uno es el de count en lugar de counts en un for, ese lo resuelve el profe en la case siguiente
Otro esta en la la línea de if word no in self.... en las ultimas lineas que se me fue un seld en lugar de self

        if word not in seld.wordConditionalCounts[c]:

Eduardo Reyes

student•

Haces bien, cuando necesitas repasar eso ayuda como no tienes una idea XD

Héctor Triviño González

student•

Un aspecto que he notado en algunas clases es verificar que un key se encuentre en un diccionario usando if w in wordCount.keys(). Lo cual no es incorrecto, pero si se procesa una cantidad de datos significativamente mayor, es posible que se note alguna diferencia en tiempo de ejecución en comparación a usar directamente la siguiente sentencia que cumple la misma función if w in wordCount. Lo menciono porque, si no me equivoco en cada iteración se obtiene una nueva lista de keys con la sentencia wordCount.keys().

Adjunto evidencia, al ejecutar el siguiente script:

import time

dict_length = 10

def loop_with_keys(d):
  new_dict = {}
  for key in d:
    if key in new_dict.keys():
      new_dict[key] = key
    else:
      new_dict[key] = key
  return new_dict

def loop_without_keys(d):
  new_dict = {}
  for key in d:
    if key in new_dict:
      new_dict[key] = key
    else:
      new_dict[key] = key
  return new_dict

dict_val = {i: i for i in range(dict_length)}

start_keys = time.time()
loop_with_keys(dict_val)
end_keys = time.time()
print('With .keys()', end_keys - start_keys)

start_no_keys = time.time()
loop_without_keys(dict_val)
end_no_keys = time.time()

print('Without .keys()', end_no_keys - start_no_keys)

Este script lo único que hace es generar un diccionario del 0 al dict_length que se indique, enviarlo a las respectivas funciones que únicamente corren el diccionario y asignan la misma clave y valor a un diccionario interno y retorna ese diccionario, importante mencionar que nunca se ejecuta le proceso dentro del if, sino el bloque de código dentro del else, pero siempre se validará el condicional, y esto es lo que se evaluaría en tiempo, de tal manera que con 10 elementos la salida es:

With .keys() 5.245208740234375e-06
Without .keys() 2.86102294921875e-06

Se nota ligeramente la diferencia, pero al cambiar la longitud del diccionario a dict_length = 10000000, obtuve los siguientes resultados:

With .keys() 2.7152957916259766
Without .keys() 1.6436471939086914

En fin, me pareció algo interesante a tomar en consideración🤔

Francisco Garcia [C6]

student•

Es necesario verlo mas de una vez ;-)

Alexander carpio mamani

student•

así es :) jajaaja

Alexander carpio mamani

student•

exquisita clase.

Gabriel Obregón

student•

🧠 FICHA VISUAL DE ESTUDIO — spaCy + Naive Bayes en NLP

🔹 1. ¿Qué es spaCy?

📘 spaCy es una librería poderosa para el procesamiento de lenguaje natural (NLP).

Ventajas principales:

⚡ Tokenizador rápido y eficiente
🧩 Ideal para proyectos en producción
📚 Documentación clara y completa

💡 En este tema: se integra spaCy con el algoritmo Naive Bayes para crear un clasificador de texto.

🔹 2. Tokenización con spaCy

✂️ Tokenizar = dividir un texto en palabras o unidades más pequeñas.

🧾 Ejemplo práctico:

from spacy.tokenizer import Tokenizer

from spacy.lang.en import English

nlp = English()

tokenizer = Tokenizer(nlp.vocab)

tokens = tokenizer("Este es un ejemplo de texto para tokenizar.")

tokens_words = [token.text for token in tokens]

print(tokens_words)

📎 Resultado: ['Este', 'es', 'un', 'ejemplo', 'de', 'texto', 'para', 'tokenizar', '.'] 🎯 Objetivo: preparar el texto para el entrenamiento de modelos NLP.

🔹 3. Evitar el problema de las probabilidades bajas

🧮 En Naive Bayes, se multiplican muchas probabilidades pequeñas →

➡️ los números se vuelven diminutos y se pierde precisión.

💡 Solución: Espacio logarítmico

Multiplicación → se convierte en suma de logaritmos.
Evita errores numéricos y mejora la estabilidad del modelo.

📊 Ejemplo conceptual: En lugar de P1 * P2 * P3 → usamos log(P1) + log(P2) + log(P3)

🔹 4. Suavizado de Laplace

🚫 Evita que una palabra con frecuencia cero elimine una clase completa.

🧩 Idea clave:

“Siempre suma 1 al numerador y el tamaño del vocabulario al denominador.”

🧮 Ejemplo rápido: Si el vocabulario = 100 palabras → Nueva probabilidad = (conteo + 1) / (total + 100)

✅ Beneficio: ninguna palabra tiene probabilidad igual a 0.

🔹 5. Implementación orientada a objetos

💻 En POO (Programación Orientada a Objetos), el código es modular y reutilizable. Aquí se muestra cómo crear una clase básica NaiveBayesClassifier.

⚙️ tokenize() → Normaliza y divide el texto

def tokenize(self, doc):

return [token.text.lower() for token in self.tokenizer(doc)]

🔠 Convierte el texto a minúsculas y lo separa en tokens.

📊 word_count() → Cuenta palabras del vocabulario

def word_count(self, words):

count = {}

for w in words:

count[w] = count.get(w, 0) + 1

return count

📈 Sirve para calcular frecuencias, base del cálculo probabilístico.

🧩 fit() → Entrenamiento del modelo

def fit(self, data, classes):

n = len(data)

self.vocab = set()

self.class_count = {}

self.word_conditional_counts = {}

for c in classes:

self.class_count[c] = self.class_count.get(c, 0) + 1

import numpy as np

for c, count in self.class_count.items():

self.vocab.update(set(data[c]))

self.word_conditional_counts[c] = {word: 0 for word in self.vocab}

for text in data[c]:

word_counts = self.word_count(self.tokenize(text))

for word, count in word_counts.items():

self.word_conditional_counts[c][word] += count

self.log_class_prior = {

c: np.log(count / n) for c, count in self.class_count.items()

}

📘 Lo que hace:

Cuenta las clases.
Crea el vocabulario.
Calcula log-probabilidades por clase.

🎯 Resultado: modelo listo para predecir con precisión.

Cristian Y. Juzga

student•

Hola!

Desde mi Mariquina en local me salió el siguiente error:

UnsupportedOperation: fileno

Más detalle:

Saben a que se debe esto? Ya he instalado la librería spacy en el ambiente.

Juan Pablo Penagos Oquendo

student•

Desde mi maquina local , luego de instalar spacy , tengo el siguiente error al correr :

Codigo = from spacy.tokenizer import Tokenizer Error = ModuleNotFoundError: No module named 'spacy'

alguien sabes como puedo solucionar esto ? Gracias!

Hecot Pulido

student•

Aquí info sobre como instalar spacy: https://spacy.io/usage

Jhon Freddy Tavera Blandon

student•

Variables y Proceso de Entrenamiento:

self.unique_clases: conjunto de clases únicas en el dataset.
self.vocab: conjunto de todas las palabras en el dataset.
self.classCount: cuenta de la frecuencia de cada clase.
self.log_classPriorProb: logaritmo de la probabilidad a priori de cada clase (P(c)).
self.wordConditionalCounts: cuenta de la frecuencia de palabras por clase (C(w|c)).

Implementación del Algoritmo Naive Bayes en Python con spaCy

Desambiguación y etiquetado de palabras

Clasificación de Texto con Machine Learning

Etiquetado de Palabras en Python con NLTK y Stanza

Uso de Stanza para Procesamiento de Lenguaje Natural en Español

Modelos Markovianos Latentes (HMM)

Modelos Marcovianos Latentes en PLN: Fundamentos y Aplicaciones

Matemáticas de Cadenas de Markov y su Aplicación en Modelos Latentes

Modelos Marcovianos Latentes: Etiquetado Gramatical Automático

Implementación de Modelos Marcovianos Latentes en Python con Google Colab

Entrenamiento de Modelos Marcobianos Latentes en Python

Algoritmo de Viterbi

Decodificación de Secuencias con el Algoritmo de Viterbi

Cálculo de Probabilidades en el Algoritmo de Viterbi

Implementación del Algoritmo de Viterbi en Python con NumPy

Implementación del Algoritmo Viterbi para Modelos Ocultos de Markov

Implementación de Modelos Ocultos de Markov en NLTK y Python

Modelos Markovianos de máxima entropía (MEMM)

Modelos Marcovianos de Máxima Entropía en Clasificación de Etiquetas

Algoritmo BiTerbi en Modelos de Máxima Entropía

Entrenamiento y Decodificación de Modelos Marcobianos en Bitterbi

Clasificación de texto con NLTK

Clasificación de Texto en Machine Learning: Teorías y Aplicaciones

Clasificación de Nombres por Género con NLTK en Python

Clasificación de Nombres con Naive Bayes en Python

Clasificación de correos: Filtrado de spam con Naive Bayes

Implementación de un modelo de clasificación de texto

Funcionamiento Matemático del Clasificador Naive Bayes

Preparación de Datos para Modelo Naive Bayes en Python

Implementación del Algoritmo Naive Bayes en Python con spaCy

Implementación del Método Predict en Naive Bayes Clasificador

Métricas de Evaluación en Modelos de Clasificación: Accuracy, Precision y Recall

Clasificación de Sentimientos con Reviews de Amazon