Clasificación de Tickets con Procesamiento de Lenguaje Natural

Clase 8 de 35 • Curso de MLOPS: Despliegue de Modelos de Machine Learning

Contenido del curso

Fundamentos de MLOps y tracking de modelos

Tracking del ciclo de vida de modelos de machine learning

Orquestación de pipelines de machine learning

Despliegue de modelo de machine learning

Monitoreo de modelo de machine learning en producción

Tomar examen

Resumen

Cuando una empresa recibe miles de tickets de soporte cada día, clasificarlos manualmente deja de ser viable. Aquí es donde el procesamiento de lenguaje natural (NLP) se convierte en una herramienta fundamental para automatizar la categorización de esas solicitudes en tópicos como cuentas bancarias, hipotecas o préstamos. A continuación se explica el flujo completo de preparación de datos que permite llegar a un modelo de machine learning listo para clasificar tickets de forma automática.

¿Qué problema de negocio resuelve la clasificación automática de tickets?

El data set con el que se trabaja contiene registros donde un cliente se comunica con una empresa, genera un ticket y describe con texto libre la situación que experimentó [0:10]. Las columnas más relevantes son el texto del ticket y la etiqueta que indica la categoría del problema. El reto es que existen aproximadamente setenta y ocho etiquetas distintas [8:48], lo que representa un obstáculo para cualquier modelo predictivo porque tantas dimensiones diluyen la capacidad de generalización.

Por eso, antes de entrenar un modelo, es necesario:

Procesar y limpiar el texto original.
Reducir la cantidad de etiquetas a un número manejable.
Generar representaciones numéricas que el modelo pueda consumir.

¿Cómo funciona el módulo de text processing?

El primer paso del pipeline vive en una clase llamada TextProcessing [1:28]. Esta clase agrupa varios métodos que transforman el texto crudo en información útil.

¿Qué transformaciones aplica al texto?

Tokenización: divide cada frase en unidades mínimas llamadas tokens [1:48].
Remoción de stop words: elimina palabras vacías según el idioma configurado en el constructor [1:55].
Lematización: reduce cada token a su forma base o lema para unificar variantes de una misma palabra [2:01].
POS tagging: asigna una categoría gramatical a cada token, lo que permite filtrar o ponderar según su función sintáctica [2:07].

Todos estos pasos se encadenan en un método llamado text_processing que ejecuta el pipeline de principio a fin [2:13]. Además, la clase incluye métodos auxiliares para leer archivos JSON o CSV, renombrar columnas, aplicar feature engineering básico y eliminar datos faltantes [2:30]. Todo se integra en un método run que orquesta la ejecución completa y retorna la data procesada lista para la siguiente etapa [2:45].

Un detalle importante es el tratamiento de información sensible. Cuando el texto original contiene datos personales como identificaciones, números o fechas, estos se reemplazan con caracteres "X" en mayúscula [7:18]. Esto garantiza la protección de datos sin perder el contexto semántico necesario para la clasificación.

¿Qué hace el módulo de feature extraction y cómo reduce las etiquetas?

Una vez que el texto está limpio, entra en juego la clase FeatureExtraction [3:18]. Su primer trabajo es convertir el corpus de texto en una representación vectorial mediante el TF-IDF Vectorizer [3:40], que pondera la importancia de cada término según su frecuencia en el documento y en todo el corpus.

¿Cómo se aplica topic modeling para reducir categorías?

Con setenta y ocho tópicos originales, muchos se solapan. El módulo utiliza un modelo llamado ENMF (Ensemble Non-negative Matrix Factorization) para agrupar etiquetas similares y proponer un número reducido de tópicos [4:12]. El número de componentes se define como parámetro de entrada y, en este caso, se reduce a tres categorías finales [5:12]:

Cuentas de banco y servicios.
Reportes de crédito.
Préstamos.

Cada registro del data set recibe un peso por cada tópico resultante. La columna Relevant Topics indica cuál tópico tiene mayor probabilidad para ese ticket [9:28]. Finalmente, un topic mapping traduce los índices numéricos a strings legibles para facilitar la interpretación [5:22].

¿Por qué es importante el análisis exploratorio previo?

Antes de modelar, un EDA (Exploratory Data Analysis) permite entender la distribución de los datos [7:42]. El notebook incluido muestra el texto original frente al texto procesado, la distribución de las etiquetas y análisis de bigramas y trigramas, que son paquetes de dos o tres tokens consecutivos que revelan patrones frecuentes en cada categoría [8:20].

La ejecución práctica es directa desde la terminal: primero se corre python utils/text_processing [6:30] y luego python utils/feature_extraction [7:00]. El segundo módulo es considerablemente más rápido porque solo modela las etiquetas y genera las nuevas features con los pesos del modelo de reducción de tópicos.

Con estos datos ya procesados y las etiquetas reducidas, el siguiente paso natural es profundizar en el modelado de datos y el tracking de experimentos. Si has trabajado con clasificación de texto en tus proyectos, comparte qué técnicas de reducción de dimensionalidad te han dado mejores resultados.

Comentarios

Christian Julian Acosta Santamaria

student•

Hola, dos cositas:

puede que en el archivo textprocessing.py salte un error AttributeError: 'TextProcessing' object has no attribute 'language'. Este se corrige entrando al código del script y aproximadamente en la línea 32 aparece self.lenguaje = language es un typo de la profe, sería cambiarlo por self.language = language
Si alguien recibe los siguientes errores el ejecutar utils/textprocessing.py:

Resource stopwords not found.

Resource punkt not found.

Es necesario abrir python en la terminal (con python o python3) y ejecutar las siguientes dos lineas

import nltk

nltk.download('stopwords') si es para stopwords
nltk.download('punkt') si es para punkt

Espero les sirva!!!

De igual manera el mismo error les arroja la respuesta

Octavio De Paula

student•

La pregunta que yo me hago es, por que sos tan crack?

Daniel Andres Rojas Paredes

student•

gracias el primero ya lo habia corregido una vez pero al pasar el segundo copie y pegue de nuevo el codigo a ver si con eso se arreglaba( la primera lo transcibi a mano) . muchas gracias por tu aporte

Ignacio Milesi

student•

Hola. Creo que hay un error cuando se define el topic mas relevante para cada ticket.

Si vemos el print al terminar de ejecutar feature_extraction.py , el ticket_2 y ticket_3 deberia clasificarlo como topic 1, ya que es el que posee mayor valor (0.06), pero no es asi, los clasifica como topic 2 y topic 0 respectivamente.

El error se encuentra en la funcion de create_topics(), en la linea de:

top_topics = np.argmax(self.df.values, axis=1)

hay que reemplaza self.df.values por self.W quedando:

top_topics = np.argmax(self.W, axis=1)

Tambien habria que cambiar la cantidad de topic generados, ya que se pide que se generen 4 pero solo se clasifican 3. Para ello, en la funcion run(), en la linea de:

extracted_topics = self.topic_modeling_nmf(n_components=4)

Cambiar el valor de n_components de 4 por 3, quedando:

extracted_topics = self.topic_modeling_nmf(n_components=3)

Creo que los nuevos termicos de cada topick estan un poco mejor relacionados:

Topic 0 "Bank Account Services": account, bank, check, money, chase, deposit, fund, day, claim, fee, branch, call, transact, number, charg
Topic 1 "Credit Report or Prepaid Card": credit, card, report, chase, inquiri, charg, account, disput, compani, score, letter, author, fraud, inform, us
Topic 2 "Mortgage/Loan": payment, loan, chase, mortgag, month, home, interest, time, pay, year, modif, rate, amount, fee, letter

Ignacio Milesi

student•

La definicion del topick relevante despues de realizar los cambios queda como:

topic0 topic1 topic2 relevant_topics

ticket_0 0.03 0.01 0.02 0

ticket_1 0.01 0.02 0.00 1

ticket_2 0.00 0.06 0.00 1

ticket_3 0.02 0.07 0.01 1

ticket_4 0.08 0.00 0.00 0

María Camila Durango Barrera

teacher•

Hola, Ignacio, sí, tienes toda la razón, mil gracias por el warning, te lo agradezco un montón! Muy piloso.

Cantilever Cantilever

student•

Creo que hay que actualizar la liga de recursos por que esta apunta platzi/Mlops-platzi, que es un fork del repositorio Mariac-db/Mlops-platzi y entonces esté último está 5 commits por delante del repositorio de recursos que son precisamente los commits donde se corrigen los bugs.

Daniel Andres Rojas Paredes

student•

Este es mi primer curso con temas de procesamiento natural , me demore casi 4 horas leyendo los archivos que se mencionan en este curso y entendiendo un 70 % de ellos. Hace poco me sentia casi listo para empezar a buscar trabajo como dassta sciense jr pero este curso en 8 clases me bajo los humos con toda

Daniel Andres Rojas Paredes

student•

En el contexto del procesamiento de lenguaje natural, stemming y lemmatization son técnicas para reducir palabras a su raíz.

Stemming corta las palabras a su forma base, a menudo de manera abrupta y sin considerar el contexto gramatical. Por ejemplo, "jugar", "jugando" y "jugó" podrían convertirse en "jug".
Lemmatization, por otro lado, considera el contexto y convierte palabras a su forma base o lema, como "jugar" para todas sus variaciones. Esto produce resultados más precisos y coherentes.

Ambos métodos tienen su utilidad dependiendo del enfoque que se necesite en la clasificación de texto.

Franco Ccapa

student•

If you can't run textprocessing your problem could be related to a lack of declaration in the downloading section, try to use these lines: nltk.download("averaged_perceptron_tagger") nltk.download("punkt") nltk.download("punkt_tab") nltk.download(f"averaged_perceptron_tagger_eng")

Daniel Andres Rojas Paredes

student•

en el feature extraction no me queda claro porqe le dieron esos nombres a los topick esos labels en el diccionario en el que asssignan los numeros 0 1 y 2 a strings.

Daniel Andres Rojas Paredes

student•

✅ Corrected version of your message:

I already inspected the pyproject.toml file and the nltk library is there. Someone told me that what I need to do is open Python 3 in my terminal, run import nltk, and then nltk.download('stopwords'). I would like to know why this will work.

🧠 Answer with Confidence: Very High

Yes, that will work — but not because the library was missing. Instead, you're missing a separate downloadable resource that nltk needs to function properly.

📦 nltk uses external data files, not just code

When you install nltk using Poetry, you get the code — but not all of its language data, which is stored separately.

For example:

stopwords → list of common words to ignore in NLP
punkt → tokenizer models
wordnet → lexical database

These are stored in ~/.cache/nltk (or sometimes in nltk_data folders).

✅ Why this works:

import nltk nltk.download('stopwords')

This opens a download manager (or silently downloads) from the official NLTK servers.
It installs the "stopwords" data set into your system or user directory.
After that, you can use:from nltk.corpus import stopwords stopwords.words("english")

Without downloading it, this would raise an error like:

LookupError: Resource stopwords not found.

🛠 If you're in a team/project

You can automate this step by adding a script to your project or notebook:

import nltk nltk.download("stopwords")

Or run this once in your environment:

poetry run python -c "import nltk; nltk.download('stopwords')"

To avoid needing manual download later.

Let me know if you want to pre-download all common NLTK data or share it with other machines.

rogelio cortez

student•

Hola !

Alguien me podria decir como activar el entorno , no veo el nombre para poder activarlo.

Mil gracias

Jairo Avelar Renteria

student•

alguien me puede decir donde esta ese archivo que no lo encuentro

Clasificación de Tickets con Procesamiento de Lenguaje Natural

Fundamentos de MLOps y tracking de modelos

Implementación de MLOps para Modelos de Machine Learning

Principios y Etapas del MLOps en Machine Learning

Componentes de Infraestructura en MLOps: Control, Integración y Monitorización

Tracking de Modelos de Machine Learning con MLflow Local

Seguimiento local de experimentos con MLflow usando folder personalizado

Tracking de Experimentos con MLflow y Bucket en SQLite

Tracking de Experimentos de Machine Learning con AWS y MLflow

Tracking del ciclo de vida de modelos de machine learning