Preprocesamiento y Predicción de Texto en Modelos de Machine Learning

Curso de MLOPS: Despliegue de Modelos de Machine Learning

Contenido del curso

Fundamentos de MLOps y tracking de modelos

Tracking del ciclo de vida de modelos de machine learning

Orquestación de pipelines de machine learning

Despliegue de modelo de machine learning

Monitoreo de modelo de machine learning en producción

Tomar examen

Preprocesamiento y Predicción de Texto en Modelos de Machine Learning

Resumen

¿Cómo procesamos y predecimos datos de texto en un modelo batch?

Para trabajar con procesamiento por lotes, o batch processing, es esencial estructurar los datos adecuadamente. En este contexto, usaremos la clase "Sentence" que hereda de "BaseModel" y acepta dos parámetros principales: "client name" y "text". Esta estructura nos permitirá iterar a través de los datos del request, que se espera como una lista de strings. A continuación, en un bucle for, recorreremos cada sentencia o string que compone esta lista.

¿Cómo pre-procesamos y vectorizamos las sentencias?

El primer paso en el procesamiento involucra la vectorización. Utilizamos una función de preprocesamiento llamada "preprocessing function" que toma como argumento el texto de cada sentencia: sentence.text. El objetivo es convertir este texto en una matriz dispersa utilizando un Convectorizer y transformaciones basadas en la frecuencia inversa (TF-IDF).

El resultado es una matriz con:

Número de filas: Corresponde al número de documentos, textos o sentencias.
Columnas: Representan las palabras únicas en el conjunto de datos.

Dado que las matrices dispersas suelen incluir muchos ceros, configuramos x_dense como dicha estructura y continuamos apilándola verticalmente para que el modelo interprete correctamente la representación de los datos.

process_data_vectorize = preprocessing_function(sentence.text)
x_dense = some_sparse_matrix_creation_method(process_data_vectorize)

¿Cómo se generan las predicciones del modelo?

Con nuestra representación de datos en su lugar, podemos proceder con las predicciones. El modelo, previamente cargado, utilizará el método .predict, que procesará la matriz dispersa x_dense. Los resultados se almacenarán en una lista de predicciones.

Luego, decodificamos estas predicciones mediante label_mapping, extrayendo el valor en la primera posición ya que se asume que habrá un único elemento en cada iteración del list.

preds = model.predict(x_dense)
decoded_pred = decode_predictions(label_mapping, preds[0])

¿Cómo almacenamos y devolvemos las predicciones?

Una vez obtenidas, las predicciones se encapsulan en un objeto denominado prediction_ticket, el cual contiene información del cliente y la predicción decodificada. Este objeto se imprime y luego todas las predicciones se almacenan en una lista llamada preds_list a través del método append.

Para finalizar, las predicciones se guardan en la base de datos utilizando una sesión previamente definida y el método session.commit para realizar la inserción masiva. Finalmente, se cierra la sesión, asegurando que los datos estén persistentes y listos para su consulta.

session.add(prediction_ticket)
session.commit()
session.close()

Antes de retornar las predicciones, se debe definir el formato de salida, que en la mayoría de los casos será un JSON. Este formato se regresa mediante un método return que estructura dicha lista de predicciones para su fácil consumo.

return {"predictions": preds_list}

En resumen, al inicializar la aplicación, se debe asegurar que la base de datos y estructuras necesarias estén configuradas correctamente. A través de eventos de inicio (startup), la creación de la base de datos y sus tablas se gestionará eficazmente, sentando las bases para operaciones futuras.

Omar Santa Cruz

Estudiante

•

Buen explicación, el flujo ya es funcional, pero para llevarlo a un nivel de MLOps maduro, hoy existen criterios más estrictos que aseguran que la API sea estable y no se muera bajo carga real.

Iterar sobre las oraciones con un for y llamar a .predict() n veces para una sola carga batch no es buena práctica. Los modelos de ML están optimizados para operaciones matriciales. Lo correcto es vectorizar toda la lista de textos de una y pasarle esa matriz al modelo. algo como :

all_texts = [s.text for s in data.sentences]
X_transformed = preprocessing_fn(all_texts)
preds = app.state.model.predict(X_transformed)

Crear la sesión de la base de datos manualmente y cerrarla al final es peligroso. Si el código truena en medio de la predicción, la sesión se queda abierta y eventualmente saturarán el pool de conexiones, tirando la API. Es mejor abrirla conección dentro de un with/yield para asegurar que la conexión se cierre pase lo que pase.

def get_db():
    with Session(engine) as session:
        yield session

Hacer .toarray() y np.vstack() sobre matrices dispersas consume muchísima RAM. Muchos algoritmos de Scikit-Learn aceptan matrices dispersas nativamente. Convertir todo a denso en producción es la forma más rápida de obtener un error de Out of Memory y que el contenedor se reinicie. Para evitar llegar a esto, el problema raíz que se debe mejorar está en la función de preprocesamiento: al iterar texto por texto con un ciclo for, se genera una lista de matrices sueltas que obliga a la API a usar vstack como "parche". La solución es vectorizar toda la lista de textos de un solo golpe, lo cual devuelve una única matriz dispersa nativa lista para el modelo. Como regla de oro en producción: siempre validen la estructura de datos de punta a punta para no forzar conversiones que terminen matando la memoria del servidor.Regla General para Producción : Cualquier llamada a transform(),predict(), predict_proba() debe recibir el payload o batch completo de un solo jalón. Jamás deben meterse estos métodos dentro de un ciclo for.. Si rompen el batch para procesar de uno en uno, anulan esa optimización y obligan al servidor a pagar el peaje del intérprete de Python en cada iteración, creando un cuello de botella masivo en el CPU. PD: Ya que estamos en estas recuerden siempre , cuidado con Pandas en pruducción, por el mismo principio
Usar global label_mapping es una práctica débil de programación.

Preprocesamiento y Predicción de Texto en Modelos de Machine Learning

Fundamentos de MLOps y tracking de modelos

MLOps para llevar modelos a producción

Principios y Etapas del MLOps en Machine Learning

Componentes de Infraestructura en MLOps: Control, Integración y Monitorización

Tracking de Modelos de Machine Learning con MLflow Local

Seguimiento local de experimentos con MLflow usando folder personalizado

MLflow com backend SQLite local

Tracking de Experimentos de Machine Learning con AWS y MLflow

Tracking del ciclo de vida de modelos de machine learning

Clasificación de Tickets con Procesamiento de Lenguaje Natural

Tracking de Datos y Modelado con MNLflow y Scikit-learn

Métricas e hiperparámetros con MLflow

Tracking de Modelos y Métricas con MLflow y CycleLearn

Optimización de Hiperparámetros en Modelos de Machine Learning

Creación y gestión de experimentos con MLflow y Scikit-Learn

Cómo promover modelos MLflow a producción

Testar modelos MLflow em produção

Tracking y Trazabilidad en MLOps con MLflow

Orquestación de pipelines de machine learning

Creación de tareas en Prefect para flujos de Machine Learning

Creación de Flujos de Trabajo con Prefect para Machine Learning

Pipeline de Machine Learning para Clasificación de Tickets

Pipeline de Procesamiento y Entrenamiento de Modelos de Datos

Ejecución de Flujos de Trabajo con Prefect: Conceptos y Prácticas

Orquestación de Flujos Flexibles con Prefect y Python

Despliegue de modelo de machine learning

Despliegue de Aplicaciones con Docker y FAS API en AWS

Creación de Aplicación con PaaS API, Docker y Grafana