Tracking de Datos y Modelado con MNLflow y Scikit-learn

Clase 9 de 35 • Curso de MLOPS: Despliegue de Modelos de Machine Learning

Resumen

¿Cómo se realiza el seguimiento de datos con MNLflow?

Para realizar un seguimiento eficaz de los datos con MNLflow, es crucial que los datos hayan sido preprocesados adecuadamente. Este trabajo previo asegura que el flujo de trabajo se desarrolle sin contratiempos, lo cual es fundamental para cualquier análisis robusto de Machine Learning. MNLflow, en combinación con Python, scikit-learn y técnicas de Logging, ofrece una solución poderosa para manejar este proceso, además de permitir el registro de eventos durante la ejecución que facilitan la identificación de posibles problemas. A través de la importación de librerías nativas de Python y el establecimiento de funciones clave, se organiza el trabajo para un flujo de Baseline efectivo.

¿Cómo se gestionan las funciones y los datos preprocesados?

La estructura del flujo comienza con la definición de funciones que faciliten el trabajo. Por ejemplo, una función para leer archivos CSV ayudará a recuperar datos ya procesados. Esta etapa también incluye la visualización de datos para entender su forma y organización, identificando aspectos como el desbalance en las etiquetas. Este análisis inicial es esencial para planificar cómo abordar el modelado y mitigar el desbalance.

Las etiquetas disponibles pueden visualizarse utilizando un "value count", lo cual revela la distribución y ayuda a identificar la necesidad de ajustes o técnicas adicionales. Subsecuentemente, se implementa un TrackingUri que, junto con un backend como mlflow, organiza los experimentos y clasifica las transformaciones, datos y resultados.

¿Qué herramientas se utilizan para la transformación y vectorización de datos?

El preprocesamiento del texto es un paso crítico en el análisis de datos. Usamos una funcionalidad clave como count vectorizer para vectorizar el corpus, convirtiéndolo en una representación numérica. Este procedimiento es invaluable para garantizar que las transformaciones aplicadas durante el entrenamiento se conserven e implementen correctamente en un entorno de producción.

Un aspecto esencial es guardar las transformaciones en un archivo de tipo picol, asegurando así que cualquier procesamiento esté alineado tanto para la fase de modelado como para la de producción. Además, técnicas como la frecuencia inversa de documentos se almacenan para su uso posterior, ayudando en el análisis de lenguaje natural.

En la división de los datos, los conjuntos de entrenamiento y prueba no son simplemente textuales. Ya se han transformado en características, así facilitando el trabajo del modelado que requiere representaciones numéricas, crucial en el aprendizaje automático.

¿Cómo implementar un reporte de clasificación con MLEflow?

Al implementar un displayClassificationReport, se inician procesos que analizan y evalúan el modelo, permitiendo el seguimiento y registro de métricas. Los modelos se preparan con anterioridad, y al ejecutarlos se rastrea la metadata a través de MLEflow. Identificar el nombre del modelo y etiquetar al desarrollador ofrece claridad sobre quién y cómo se llevó a cabo el trabajo.

¿Qué argumentos y buenas prácticas se deben considerar?

Los argumentos clave incluyen:

Modelo: objeto previamente entrenado.
Nombre del modelo: facilita la identificación en la UI de MLEflow.
Developer: etiqueta que identifica el responsable del desarrollo.
Datos de entrenamiento y prueba: X-Train, Y-Test, Y-Train, Y-Test.

Documentación con DocStrings es esencial para describir las funciones, los argumentos de entrada y los valores de retorno, promoviendo claridad y reutilización del código.

¿Cómo ejecutar experimentos y anotar resultados?

Al ejecutar MLEflow start run, se inicia un experimento identificando claramente cada ejecución gracias a los run name. Esto no solo facilita el seguimiento de parámetros sino también el registro eficiente de resultados. Se emplea una lista vacía para almacenar métricas y se detalla un procedimiento sistemático para recoger predicciones y notas de los efectores.

Estas métricas incluyen cálculos del ROC AOC en distintas configuraciones, como el promedio ponderado y la clasificación multiclase, permitiéndonos ajustar los resultados y ofrecer una visión completa del rendimiento del modelo.

La capacidad de desarrollar un entorno bien documentado y controlado asegura un aprendizaje efectivo. Además, esta práctica reafirma que las metodologías implementadas son confiables durante el proceso y escalando a producción. ¡Sigue explorando y aprendiendo más sobre MNLflow y técnicas modernas de análisis de datos para elevar tus habilidades en Machine Learning!

Enzo Gonzales

student•

Para hacer tracking de experimentos con MLflow sin entrar en detalles técnicos, sigue estos pasos básicos:

1. Instala MLflow:

Primero, asegúrate de tener MLflow instalado en tu entorno de trabajo. Es una herramienta que te ayudará a registrar y organizar tus experimentos de machine learning.

2. Configura un Experimento:

En MLflow, un "experimento" es un contenedor para todas las ejecuciones relacionadas con un proyecto. Configura un experimento donde vas a almacenar los resultados de tus modelos.

3. Inicia una Ejecución de Experimento:

Cuando estés listo para entrenar un modelo, inicia una "ejecución" dentro de ese experimento. Esto es como decirle a MLflow: "Voy a comenzar a entrenar un modelo, por favor, registra todo lo que haga".

4. Registra Parámetros y Métricas:

Durante el entrenamiento del modelo, puedes registrar:

Parámetros: Variables que estás utilizando, como el número de árboles en un bosque aleatorio.
Métricas: Resultados que obtienes, como la precisión del modelo.

5. Guarda el Modelo:

Después de entrenar tu modelo, puedes guardarlo en MLflow para que quede registrado junto con sus parámetros y métricas. Esto te permite tener un historial completo de cada modelo que entrenaste.

6. Explora y Compara Resultados:

MLflow tiene una interfaz visual que te permite ver todos los experimentos que has realizado. Puedes comparar diferentes ejecuciones para ver qué parámetros funcionaron mejor.

7. Opcional: Usa la Nube:

Si trabajas en un proyecto grande o en equipo, puedes configurar MLflow para guardar toda esta información en la nube, lo que facilita el acceso desde cualquier lugar y la colaboración con otras personas.

Resumen:

Hacer tracking de experimentos con MLflow te permite:

Organizar y registrar todos los detalles de tus experimentos.
Comparar resultados entre diferentes versiones de modelos.
Mantener un historial claro de lo que has hecho, lo que facilita repetir o mejorar los experimentos en el futuro.

Kevin Pérez García

student•

Pésima práctica guardar metadatos como parámetros.

EDWING ALFONSO ARENAS RUEDA

student•

pienso que es un proyecto muy complejo, para explicar la funcionalidad de guardar los metadatos como parametros en mlflow

Juan Pablo Lopez Mejia

student•

El tema es complejo, falta mucha pedagogía por parte de la profe en el curso.

EDWING ALFONSO ARENAS RUEDA

student•

sere honesto, tengo poca experiencia en modelado basado en texto, tengo mas preferencia a modelos de regresion o clasificacion; pero bueno, hay que echarle ganas puede ser util mas luego

Daniel Augusto Muñoz Viveros

student•

df_tickets.sample(5) no muestra las 5 primeras filas... este hace un muestreo y selecciona 5 filas de forma aleatoria, por eso cada vez que se corre dicha línea el id y los mismos datos son distintos cada vez. Para mostrar las 5 primeras filas se puede usar df_tickets.head(5), incluso para mostrar las ultimas 5 filas se puede usar df_tickets.tail(5). Dependiendo del número dentro de los parentesis es el numero de filas que arroja.