Clasificación de Texto en Machine Learning: Teorías y Aplicaciones

Clase 17 de 26 • Curso de Algoritmos de Clasificación de Texto

Contenido del curso

Desambiguación y etiquetado de palabras

Modelos Markovianos Latentes (HMM)

Algoritmo de Viterbi

Modelos Markovianos de máxima entropía (MEMM)

Clasificación de texto con NLTK

Implementación de un modelo de clasificación de texto

Tomar examen

Resumen

Entender cómo funciona la clasificación en machine learning aplicada a texto abre la puerta a resolver problemas muy diversos, desde análisis de sentimiento hasta priorización de peticiones en un CRM. Esta segunda parte del curso amplía la perspectiva: lo que antes se limitaba a etiquetar palabras por categorías gramaticales ahora se extiende a un flujo completo de procesamiento que aplica para cualquier tarea de clasificación.

¿Cómo funciona el flujo de clasificación en machine learning?

El proceso general de clasificación parte de un conjunto de datos o corpus de documentos [0:36]. De cada documento se extraen atributos, es decir, características relevantes que el algoritmo utilizará para aprender patrones. Esos documentos ya cuentan con etiquetas asignadas: categorías que representan lo que queremos predecir, como el tema de conversación, el sentimiento o el tipo de petición en un call center [0:55].

Una vez extraídos y vectorizados los atributos, el algoritmo se entrena para asociar cada combinación de atributos con la etiqueta correcta. A este enfoque se le conoce como aprendizaje de máquina supervisado (supervised machine learning), porque el modelo siempre conoce la respuesta esperada durante el entrenamiento [1:33].

¿Qué diferencia hay entre entrenamiento y predicción?

El flujo tiene dos fases claramente diferenciadas:

Fase de entrenamiento: el algoritmo aprende la relación entre atributos y etiquetas usando datos conocidos.
Fase de predicción: el modelo ya entrenado recibe un documento nuevo, le aplica el mismo preprocesamiento para extraer atributos y predice la etiqueta correspondiente [1:43].

Si el modelo de clasificación es bueno, será capaz de generalizar y asignar correctamente etiquetas a documentos que nunca ha visto antes. Esta capacidad de generalización es lo que define la calidad de cualquier modelo predictivo.

¿En qué categorías se dividen las técnicas de clasificación?

Las técnicas se agrupan en tres grandes familias [2:11]:

Basadas en teoría de la probabilidad: calculan la probabilidad de que un dato pertenezca a una categoría. Es el enfoque principal de la primera parte del curso.
Basadas en teoría de la información: utilizan métricas como la entropía para decidir cómo separar las categorías.
Basadas en espacios vectoriales: representan los datos como vectores y son más comunes cuando se trabaja con datos estructurados.

¿Qué aplicaciones tiene la clasificación de palabras y de documentos?

La clasificación puede operar a dos niveles distintos según la granularidad del texto que se analiza.

En clasificación de palabras [2:33] encontramos aplicaciones como:

Identificar el género de una persona a partir de su nombre.
Etiquetar palabras con sus categorías gramaticales (POS tagging).
Bloquear palabras ofensivas para filtros de spam o moderación en redes sociales.

En clasificación de documentos [2:55] las aplicaciones incluyen:

Análisis de sentimiento: dividir textos en positivos o negativos.
Detección de tópicos: agrupar documentos por tema, como deporte, tecnología o gastronomía.
Priorización en CRM: categorizar automáticamente peticiones o quejas de usuarios según su tipo, lo que permite una atención más eficiente.

La diversidad de aplicaciones crece conforme se comprende que la tarea de clasificación va mucho más allá de asignar etiquetas gramaticales. Cada problema nuevo donde existan categorías predefinidas y datos etiquetados es un candidato para aplicar este flujo de trabajo.

Si ya trabajaste con etiquetado gramatical en la primera parte, ahora es momento de pensar en qué otros problemas podrías aplicar este mismo esquema. ¿Qué tipo de documentos clasificarías en tu contexto profesional? Comparte tu idea en los comentarios.

Comentarios

Gabriel Salvador

student•

Que bueno! ya podré clasificar sus mensajes en cortantes y no cortantes

Omar Larasa

student•

JAJAJAJAJAJAJAJA

Ian Cristian Ariel Yané

student•

Un crack diria que dediques ese tiempo a crear un algoritmo para memjorar tu vida

Jhon Freddy Tavera Blandon

student•

Clasificación de texto con NLTK

La clasificación de texto es el proceso de asignar una categoría o etiqueta a un texto según su contenido. Este proceso tiene aplicaciones en múltiples campos, como el análisis de sentimientos, la detección de spam, la clasificación de noticias y muchos otros.

El problema general de la clasificación de texto

El objetivo de la clasificación de texto es aprender un modelo a partir de un conjunto de datos etiquetados (texto con etiquetas o categorías) que pueda predecir la categoría de un nuevo documento no etiquetado. El problema de la clasificación de texto se puede dividir en dos partes:

Preprocesamiento del texto: Convertir el texto en una representación numérica o de características para que pueda ser entendido por un algoritmo de clasificación.

Entrenamiento del clasificador: Entrenar un modelo de clasificación que pueda aprender las relaciones entre los datos de entrada (características del texto) y las etiquetas de salida.

Clasificación de palabras

En la clasificación de palabras, el objetivo es asignar una categoría o etiqueta a cada palabra en un contexto. Un caso típico de esto es el etiquetado gramatical (POS Tagging), donde cada palabra de una oración se etiqueta con su correspondiente categoría gramatical (sustantivo, verbo, adjetivo, etc.).

Clasificación de documentos

En la clasificación de documentos, el objetivo es asignar una etiqueta a un documento completo (como una revisión, un correo electrónico o un artículo). Por ejemplo, puedes clasificar correos electrónicos como "spam" o "no spam", o clasificar reseñas de productos como "positivas" o "negativas".

Diego Alejandro Lesmes

student•

La verdad espero ansioso el análisis de sentimientos! :smiley:

Jose Daniel Gallegos Padilla

student•

Interesante las diferentes aplicaciones que se le puede dar a NLP como saber los topicos de conversacion.

Francisco Garcia [C6]

student•

Excelente

Gabriel Obregón

student•

🎯 ¿QUÉ ES LA CLASIFICACIÓN?

La clasificación es el proceso mediante el cual un modelo de machine learning asigna categorías a distintos tipos de datos. Su meta es transformar datos en información útil usando aprendizaje supervisado.

📌 Ejemplos prácticos:

💬 Detectar sentimientos (positivo / negativo).
☎️ Clasificar llamadas o correos por tipo.
🗂️ Organizar textos o mensajes por tema.

🧩 Idea clave: el modelo aprende de ejemplos conocidos y luego predice etiquetas para nuevos datos.

⚙️ FLUJO DE PROCESAMIENTO

1️⃣ Recolección de datos 📥 Se reúnen ejemplos o documentos, con o sin etiquetas.

2️⃣ Preprocesamiento 🧰 Se limpian los datos y se extraen los atributos relevantes.

3️⃣ Entrenamiento supervisado 🧠 El algoritmo aprende de los ejemplos etiquetados para reconocer patrones.

4️⃣ Predicción 🚀 El modelo aplica lo aprendido para etiquetar nuevos datos.

📊 Resumen visual: Datos → Limpieza → Aprendizaje → Predicción ✅

🧩 TIPOS DE TÉCNICAS DE CLASIFICACIÓN

🔹 Basadas en probabilidad

Calculan la probabilidad de que un dato pertenezca a una clase.
Ejemplo: Naive Bayes.

🔹 Basadas en teoría de la información

Evalúan la información compartida entre variables.
Se usan para elegir las características más útiles.

🔹 Basadas en espacios vectoriales

Representan los datos como puntos en un espacio geométrico.
Miden distancias o similitudes entre clases. 💡 Recuerda: cada técnica ofrece una forma distinta de entender y dividir los datos.

🗂️ APLICACIONES PRINCIPALES

🔤 Clasificación de palabras

🔠 Determinar el género de un nombre.
✍️ Etiquetar palabras por categoría gramatical.
🚫 Filtrar palabras ofensivas (spam, redes sociales).

📄 Clasificación de documentos

💭 Análisis de sentimiento (positivo / negativo).
🧾 Identificación de temas: deporte, política, gastronomía...
🧩 Priorización en CRM: organizar solicitudes o quejas.

📈 Aplicación general: permite automatizar tareas y mejorar la organización de grandes volúmenes de información.

Clasificación de Texto en Machine Learning: Teorías y Aplicaciones

Desambiguación y etiquetado de palabras

Clasificación de Texto con Machine Learning

Etiquetado de Palabras en Python con NLTK y Stanza

Uso de Stanza para Procesamiento de Lenguaje Natural en Español

Modelos Markovianos Latentes (HMM)

Modelos Marcovianos Latentes en PLN: Fundamentos y Aplicaciones

Matemáticas de Cadenas de Markov y su Aplicación en Modelos Latentes

Modelos Marcovianos Latentes: Etiquetado Gramatical Automático

Implementación de Modelos Marcovianos Latentes en Python con Google Colab

Entrenamiento de Modelos Marcobianos Latentes en Python

Algoritmo de Viterbi

Decodificación de Secuencias con el Algoritmo de Viterbi

Cálculo de Probabilidades en el Algoritmo de Viterbi

Implementación del Algoritmo de Viterbi en Python con NumPy

Implementación del Algoritmo Viterbi para Modelos Ocultos de Markov

Implementación de Modelos Ocultos de Markov en NLTK y Python

Modelos Markovianos de máxima entropía (MEMM)

Modelos Marcovianos de Máxima Entropía en Clasificación de Etiquetas

Algoritmo BiTerbi en Modelos de Máxima Entropía

Entrenamiento y Decodificación de Modelos Marcobianos en Bitterbi

Clasificación de texto con NLTK

Clasificación de Texto en Machine Learning: Teorías y Aplicaciones

Clasificación de Nombres por Género con NLTK en Python

Clasificación de Nombres con Naive Bayes en Python

Clasificación de correos: Filtrado de spam con Naive Bayes

Implementación de un modelo de clasificación de texto

Funcionamiento Matemático del Clasificador Naive Bayes

Preparación de Datos para Modelo Naive Bayes en Python

Implementación del Algoritmo Naive Bayes en Python con spaCy

Implementación del Método Predict en Naive Bayes Clasificador

Métricas de Evaluación en Modelos de Clasificación: Accuracy, Precision y Recall

Clasificación de Sentimientos con Reviews de Amazon