Preparación de Datos para Modelo Naive Bayes en Python

Clase 22 de 26 • Curso de Algoritmos de Clasificación de Texto

Resumen

¿Cómo preparar los datos para el modelo Naive Bayes en Python?

El modelado de texto requiere una preparación meticulosa de los datos, y hoy nos adentraremos en cómo llevarlo a cabo para implementar un algoritmo Naive Bayes utilizando Python. En esta ocasión, aprovecharemos el ambiente de Google Colab para escribir y ejecutar el código necesario, comenzando con la configuración y extracción de datos desde archivos en formato ZIP. Este proceso es esencial para cualquier usuario que desee construir un modelo de clasificación de correos electrónicos, diferenciando entre spam y no spam (ham). ¡Sumérgete en el fascinante mundo del procesamiento de lenguaje natural!

¿Qué librerías necesitamos para comenzar?

Para el correcto desarrollo de nuestro proyecto, requieres de ciertas librerías que son cruciales para el cálculo de probabilidades y la manipulación de archivos. Aquí te presentamos las principales:

Mathematics (Math): Útil para realizar cálculos matemáticos como los logaritmos, esenciales en el método de Naive Bayes.
Operating System (OS): Nos ayuda a manejar el sistema de archivos, listando y leyendo cada correo almacenado en el directorio.

¿Cómo organizamos y leemos los datos?

Para el entrenamiento eficaz de nuestro modelo, es vital manejar los datos correctamente. Usaremos un corpus de correos electrónicos, cada uno almacenado en archivos independientes. La estructura de nuestro manejo de datos puede resumirse en los siguientes pasos:

Extracción de archivos: De un ZIP a carpetas individuales (“spam” y “ham”), donde cada archivo representa un correo.
Creación de listas: Para almacenar tanto los datos como las clases (etiquetas) de los correos.

El proceso se detalla en el siguiente código:

import os

# Inicializamos listas para los datos y las clases
data = []
clases = []

# Lectura de los archivos de spam
for file in os.listdir("corpus/spam"):
    with open(f"corpus/spam/{file}", encoding="latin1") as f:
        data.append(f.read())
        clases.append("spam")

# Lectura de los archivos de ham
for file in os.listdir("corpus/ham"):
    with open(f"corpus/ham/{file}", encoding="latin1") as f:
        data.append(f.read())
        clases.append("ham")

Con el código anterior, logramos cargar y etiquetar más de cinco mil correos electrónicos para nuestro corpus.

¿Cómo introducimos la librería spaCy y qué beneficios tiene?

La innovación en procesamiento de lenguaje natural (NLP) es clave y spaCy es una herramienta excepcional para esta tarea. Al integrar esta librería, brindarás robustez y fluidez a tu pipeline de NLP.

Algunos de los beneficios de spaCy incluyen:

Tokenización avanzada: Permite dividir textos en unidades más pequeñas, mejorando enormemente el análisis.
Modelo NLP escalable: Facilita la transición de proyectos desde el desarrollo hasta la producción de manera eficiente.

Próximamente, en nuestra siguiente clase, exploraremos más a fondo el tokenizador de spaCy y cómo integrarlo efectivamente en nuestro pipeline de NLP. ¡Continúa descubriendo, no te detengas!

Henry Mendiburu Díaz

student•

++Librerías para NLP++

NLTK: Esta es la lib con la que todos empiezan, sirve mucho para pre-procesamiento, crear los tokens, stemming, POS tagging, etc https://www.nltk.org/

TextBlob: fue creada encima de NLYK y es fácil de usar. Incluye algunas funcionalidades adicionales como análisis de sentimiento y spell check. https://textblob.readthedocs.io/en/dev/

Gensim: contruida específicamente para modelado de temas e incluye multiples técnicas (LDA y LSI). También calcula similitud de documentos. https://radimrehurek.com/gensim/

SpaCy: Puede hacer muchísimas cosas al estilo de NLTK pero es bastante más rápido. https://spacy.io/

Ariel Sharpe

student•

Yo use adapte el código de la clase de SPAM para diferenciar entre textos de diseño y técnicos, conseguí un 88% de eficiencia, me pregunto si conseguiré mas con el código de las siguientes clases.

Jaime Andres Valencia Gaviria

student•

a que te refieres con de diseño y tecnicos ?

Ariel Sharpe

student•

textos que hablan de diseñó y textos que hablan de temas técnicos

Gabriel Obregón

student•

🧠✨ Preparación de datos para Naive Bayes en Python

🎯 Objetivo

Construir un modelo Naive Bayes que clasifique correos electrónicos como: 📩 Spam (no deseado) o 💌 Ham (legítimo).

👉 El proceso incluye preparar los datos, organizar el corpus y usar spaCy para el análisis del lenguaje.

🧰 Entorno y recursos

💻 Entorno: Google Colab

📦 Datos: Archivos ZIP con correos electrónicos

📁 Estructura: Carpetas separadas para “spam” y “ham”

🧩 Librerías clave

🔹 math ➡️ Para operaciones matemáticas (como logaritmos). 📊 Se usa en los cálculos de probabilidad del modelo.

🔹 os ➡️ Para manejar archivos y carpetas. 📂 Permite listar, leer y recorrer los correos del corpus.

🗂️ Organización de los datos

📥 1. Extraer archivos

Descomprime el archivo ZIP.
Crea dos carpetas: 📁 corpus/spam → correos no deseados 📁 corpus/ham → correos válidos

🧮 2. Crear listas

data → almacena el contenido de los correos. clases → guarda la etiqueta correspondiente ("spam" o "ham").

🧾 Código base en Python

import os

data = []

clases = []

# Correos spam

for file in os.listdir("corpus/spam"):

with open(f"corpus/spam/{file}", encoding="latin1") as f:

data.append(f.read())

clases.append("spam")

# Correos ham

for file in os.listdir("corpus/ham"):

with open(f"corpus/ham/{file}", encoding="latin1") as f:

data.append(f.read())

clases.append("ham")

✅ Resultado: corpus con más de 5,000 correos electrónicos listos para el modelo.

Jhon Freddy Tavera Blandon

student•

from sklearn.feature_extraction.text import CountVectorizerfrom sklearn.model_selection import train_test_splitfrom sklearn.naive_bayes import MultinomialNBfrom sklearn.metrics import accuracy_score # Datos de ejemplodocuments = ['Este es un documento de ejemplo', 'El clima es agradable hoy', 'Spam correo electrónico está llegando', 'Este es un mensaje importante, no es spam'] labels = ['ham', 'ham', 'spam', 'ham'] vectorizer = CountVectorizer()X = vectorizer.fit_transform(documents)y = labels X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) classifier = MultinomialNB()classifier.fit(X_train, y_train) y_pred = classifier.predict(X_test)accuracy = accuracy_score(y_test, y_pred) print(f'Precisión del modelo: {accuracy:.2f}')

Francisco Garcia [C6]

student•

Excelente