Clasificación de Texto en Machine Learning: Teorías y Aplicaciones

Clase 17 de 26Curso de Algoritmos de Clasificación de Texto

Contenido del curso

Resumen

Entender cómo funciona la clasificación en machine learning aplicada a texto abre la puerta a resolver problemas muy diversos, desde análisis de sentimiento hasta priorización de peticiones en un CRM. Esta segunda parte del curso amplía la perspectiva: lo que antes se limitaba a etiquetar palabras por categorías gramaticales ahora se extiende a un flujo completo de procesamiento que aplica para cualquier tarea de clasificación.

¿Cómo funciona el flujo de clasificación en machine learning?

El proceso general de clasificación parte de un conjunto de datos o corpus de documentos [0:36]. De cada documento se extraen atributos, es decir, características relevantes que el algoritmo utilizará para aprender patrones. Esos documentos ya cuentan con etiquetas asignadas: categorías que representan lo que queremos predecir, como el tema de conversación, el sentimiento o el tipo de petición en un call center [0:55].

Una vez extraídos y vectorizados los atributos, el algoritmo se entrena para asociar cada combinación de atributos con la etiqueta correcta. A este enfoque se le conoce como aprendizaje de máquina supervisado (supervised machine learning), porque el modelo siempre conoce la respuesta esperada durante el entrenamiento [1:33].

¿Qué diferencia hay entre entrenamiento y predicción?

El flujo tiene dos fases claramente diferenciadas:

  • Fase de entrenamiento: el algoritmo aprende la relación entre atributos y etiquetas usando datos conocidos.
  • Fase de predicción: el modelo ya entrenado recibe un documento nuevo, le aplica el mismo preprocesamiento para extraer atributos y predice la etiqueta correspondiente [1:43].

Si el modelo de clasificación es bueno, será capaz de generalizar y asignar correctamente etiquetas a documentos que nunca ha visto antes. Esta capacidad de generalización es lo que define la calidad de cualquier modelo predictivo.

¿En qué categorías se dividen las técnicas de clasificación?

Las técnicas se agrupan en tres grandes familias [2:11]:

  • Basadas en teoría de la probabilidad: calculan la probabilidad de que un dato pertenezca a una categoría. Es el enfoque principal de la primera parte del curso.
  • Basadas en teoría de la información: utilizan métricas como la entropía para decidir cómo separar las categorías.
  • Basadas en espacios vectoriales: representan los datos como vectores y son más comunes cuando se trabaja con datos estructurados.

¿Qué aplicaciones tiene la clasificación de palabras y de documentos?

La clasificación puede operar a dos niveles distintos según la granularidad del texto que se analiza.

En clasificación de palabras [2:33] encontramos aplicaciones como:

  • Identificar el género de una persona a partir de su nombre.
  • Etiquetar palabras con sus categorías gramaticales (POS tagging).
  • Bloquear palabras ofensivas para filtros de spam o moderación en redes sociales.

En clasificación de documentos [2:55] las aplicaciones incluyen:

  • Análisis de sentimiento: dividir textos en positivos o negativos.
  • Detección de tópicos: agrupar documentos por tema, como deporte, tecnología o gastronomía.
  • Priorización en CRM: categorizar automáticamente peticiones o quejas de usuarios según su tipo, lo que permite una atención más eficiente.

La diversidad de aplicaciones crece conforme se comprende que la tarea de clasificación va mucho más allá de asignar etiquetas gramaticales. Cada problema nuevo donde existan categorías predefinidas y datos etiquetados es un candidato para aplicar este flujo de trabajo.

Si ya trabajaste con etiquetado gramatical en la primera parte, ahora es momento de pensar en qué otros problemas podrías aplicar este mismo esquema. ¿Qué tipo de documentos clasificarías en tu contexto profesional? Comparte tu idea en los comentarios.

      Clasificación de Texto en Machine Learning: Teorías y Aplicaciones