Preparación de Datos para Modelo Naive Bayes en Python

Clase 22 de 26 • Curso de Algoritmos de Clasificación de Texto

Contenido del curso

Desambiguación y etiquetado de palabras

Modelos Markovianos Latentes (HMM)

Algoritmo de Viterbi

Modelos Markovianos de máxima entropía (MEMM)

Clasificación de texto con NLTK

Implementación de un modelo de clasificación de texto

Tomar examen

Resumen

Construir un clasificador de correos electrónicos desde cero requiere una preparación de datos sólida y herramientas adecuadas para el procesamiento de texto. En esta sesión se aborda cómo organizar un corpus de correos almacenados en archivos individuales, consolidarlos en estructuras manejables en Python y se presenta Spacy, una librería profesional de procesamiento de lenguaje natural que será clave en la implementación del algoritmo de Naive Bayes.

¿Cómo se organizan los datos del corpus de correos electrónicos?

El punto de partida es un repositorio de datasets que contiene correos electrónicos en formato plaintext [0:43]. A diferencia del ejercicio anterior donde se trabajó con archivos CSV y pocos datos, ahora se utiliza un corpus más grande para entrenar el modelo con mayor robustez.

La estructura del corpus es particular: cada correo electrónico es un archivo independiente dentro de dos subcarpetas llamadas ham y spam [1:25]. Los archivos vienen comprimidos en formato .zip, por lo que el primer paso es extraerlos. Una vez descomprimidos, se obtiene una carpeta (por ejemplo, Corpus1) con las dos subcarpetas mencionadas.

Cada archivo representa un único correo electrónico.
La carpeta donde se encuentra determina su etiqueta de clase: spam o ham.
Los correos de spam contienen ofertas o contenido no deseado.

¿Qué librerías se necesitan para la preparación?

Se importan dos librerías fundamentales desde el inicio del notebook en Google Colab [0:25]:

math: se utilizará para calcular los logaritmos de las probabilidades, un paso esencial en el cálculo probabilístico de Naive Bayes.
os: permite listar archivos dentro de un directorio mediante el comando os.listdir(), indispensable para recorrer las carpetas del corpus.

El comando os.listdir() [3:06] devuelve una lista con todos los nombres de archivos contenidos en una ruta específica, lo que lo convierte en la herramienta ideal para iterar sobre cada correo del dataset.

¿Cómo se consolidan los datos en listas de Python?

Como cada data point está en un archivo separado, se necesita unificar todo en un solo corpus. Para ello se crean dos listas [2:23]:

data: almacena el contenido de texto de cada correo.
clases: almacena la etiqueta correspondiente (spam o ham).

El proceso de lectura de los correos de spam sigue esta lógica [2:36]:

python for file in os.listdir('corpus1/spam/'): with open('corpus1/spam/' + file, encoding='latin1') as f: data.append(f.read()) clases.append('spam')

Se usa with open para abrir cada archivo con la ruta completa concatenada. El parámetro encoding='latin1' [3:45] es necesario porque el dataset contiene caracteres especiales que requieren esta codificación, según indica la documentación del corpus.

Para los correos ham, el código es prácticamente idéntico [4:29], cambiando únicamente la ruta de la carpeta y la etiqueta:

python for file in os.listdir('corpus1/ham/'): with open('corpus1/ham/' + file, encoding='latin1') as f: data.append(f.read()) clases.append('ham')

Al finalizar, se verifica la longitud del corpus con len(data) o len(clases), obteniendo un total de 5172 correos electrónicos [5:22], divididos entre ham y spam.

¿Qué es Spacy y por qué usarlo en Naive Bayes?

Spacy es una librería de procesamiento de lenguaje natural reconocida por su robustez y capacidad para llevar modelos a producción [5:52]. Se introduce como una herramienta nueva en el flujo de trabajo, y su función principal en este contexto es el tokenizador.

El tokenizer de Spacy [6:05] se encarga de dividir el texto en unidades individuales (tokens) de forma eficiente y confiable. A diferencia de métodos simples como split(), el tokenizador de Spacy maneja casos complejos de puntuación, caracteres especiales y estructuras lingüísticas.

Permite implementar pipelines completos de procesamiento de texto.
Su documentación es extensa y accesible.
Está diseñado para entornos de producción, no solo experimentación.

Familiarizarse con Spacy representa una ventaja significativa, ya que abre la puerta a flujos de trabajo profesionales en NLP. La implementación concreta del tokenizador y su integración con el algoritmo de Naive Bayes se desarrollará en la siguiente sesión.

¿Ya habías trabajado con Spacy o es tu primer acercamiento? Comparte tu experiencia en los comentarios.

Comentarios

Henry Mendiburu Díaz

student•

++Librerías para NLP++

NLTK: Esta es la lib con la que todos empiezan, sirve mucho para pre-procesamiento, crear los tokens, stemming, POS tagging, etc https://www.nltk.org/

TextBlob: fue creada encima de NLYK y es fácil de usar. Incluye algunas funcionalidades adicionales como análisis de sentimiento y spell check. https://textblob.readthedocs.io/en/dev/

Gensim: contruida específicamente para modelado de temas e incluye multiples técnicas (LDA y LSI). También calcula similitud de documentos. https://radimrehurek.com/gensim/

SpaCy: Puede hacer muchísimas cosas al estilo de NLTK pero es bastante más rápido. https://spacy.io/

Ariel Sharpe

student•

Yo use adapte el código de la clase de SPAM para diferenciar entre textos de diseño y técnicos, conseguí un 88% de eficiencia, me pregunto si conseguiré mas con el código de las siguientes clases.

Jaime Andres Valencia Gaviria

student•

a que te refieres con de diseño y tecnicos ?

Ariel Sharpe

student•

textos que hablan de diseñó y textos que hablan de temas técnicos

Daniel Agustín Luis Garcia

student•

El link del repo de datasets está caido. Acá les dejo un repo que contiene la misma información:

Gabriel Obregón

student•

🧠✨ Preparación de datos para Naive Bayes en Python

🎯 Objetivo

Construir un modelo Naive Bayes que clasifique correos electrónicos como: 📩 Spam (no deseado) o 💌 Ham (legítimo).

👉 El proceso incluye preparar los datos, organizar el corpus y usar spaCy para el análisis del lenguaje.

🧰 Entorno y recursos

💻 Entorno: Google Colab

📦 Datos: Archivos ZIP con correos electrónicos

📁 Estructura: Carpetas separadas para “spam” y “ham”

🧩 Librerías clave

🔹 math ➡️ Para operaciones matemáticas (como logaritmos). 📊 Se usa en los cálculos de probabilidad del modelo.

🔹 os ➡️ Para manejar archivos y carpetas. 📂 Permite listar, leer y recorrer los correos del corpus.

🗂️ Organización de los datos

📥 1. Extraer archivos

Descomprime el archivo ZIP.
Crea dos carpetas: 📁 corpus/spam → correos no deseados 📁 corpus/ham → correos válidos

🧮 2. Crear listas

data → almacena el contenido de los correos. clases → guarda la etiqueta correspondiente ("spam" o "ham").

🧾 Código base en Python

import os

data = []

clases = []

# Correos spam

for file in os.listdir("corpus/spam"):

with open(f"corpus/spam/{file}", encoding="latin1") as f:

data.append(f.read())

clases.append("spam")

# Correos ham

for file in os.listdir("corpus/ham"):

with open(f"corpus/ham/{file}", encoding="latin1") as f:

data.append(f.read())

clases.append("ham")

✅ Resultado: corpus con más de 5,000 correos electrónicos listos para el modelo.

Jhon Freddy Tavera Blandon

student•

from sklearn.feature_extraction.text import CountVectorizerfrom sklearn.model_selection import train_test_splitfrom sklearn.naive_bayes import MultinomialNBfrom sklearn.metrics import accuracy_score # Datos de ejemplodocuments = ['Este es un documento de ejemplo', 'El clima es agradable hoy', 'Spam correo electrónico está llegando', 'Este es un mensaje importante, no es spam'] labels = ['ham', 'ham', 'spam', 'ham'] vectorizer = CountVectorizer()X = vectorizer.fit_transform(documents)y = labels X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) classifier = MultinomialNB()classifier.fit(X_train, y_train) y_pred = classifier.predict(X_test)accuracy = accuracy_score(y_test, y_pred) print(f'Precisión del modelo: {accuracy:.2f}')

Francisco Garcia [C6]

student•

Excelente

Preparación de Datos para Modelo Naive Bayes en Python

Desambiguación y etiquetado de palabras

Clasificación de Texto con Machine Learning

Etiquetado de Palabras en Python con NLTK y Stanza

Uso de Stanza para Procesamiento de Lenguaje Natural en Español

Modelos Markovianos Latentes (HMM)

Modelos Marcovianos Latentes en PLN: Fundamentos y Aplicaciones

Matemáticas de Cadenas de Markov y su Aplicación en Modelos Latentes

Modelos Marcovianos Latentes: Etiquetado Gramatical Automático

Implementación de Modelos Marcovianos Latentes en Python con Google Colab

Entrenamiento de Modelos Marcobianos Latentes en Python

Algoritmo de Viterbi

Decodificación de Secuencias con el Algoritmo de Viterbi

Cálculo de Probabilidades en el Algoritmo de Viterbi

Implementación del Algoritmo de Viterbi en Python con NumPy

Implementación del Algoritmo Viterbi para Modelos Ocultos de Markov

Implementación de Modelos Ocultos de Markov en NLTK y Python

Modelos Markovianos de máxima entropía (MEMM)

Modelos Marcovianos de Máxima Entropía en Clasificación de Etiquetas

Algoritmo BiTerbi en Modelos de Máxima Entropía

Entrenamiento y Decodificación de Modelos Marcobianos en Bitterbi

Clasificación de texto con NLTK

Clasificación de Texto en Machine Learning: Teorías y Aplicaciones

Clasificación de Nombres por Género con NLTK en Python

Clasificación de Nombres con Naive Bayes en Python

Clasificación de correos: Filtrado de spam con Naive Bayes

Implementación de un modelo de clasificación de texto

Funcionamiento Matemático del Clasificador Naive Bayes

Preparación de Datos para Modelo Naive Bayes en Python

Implementación del Algoritmo Naive Bayes en Python con spaCy

Implementación del Método Predict en Naive Bayes Clasificador

Métricas de Evaluación en Modelos de Clasificación: Accuracy, Precision y Recall

Clasificación de Sentimientos con Reviews de Amazon