Tracking y Trazabilidad en MLOps con MLflow

Clase 16 de 35 • Curso de MLOPS: Despliegue de Modelos de Machine Learning

Contenido del curso

Fundamentos de MLOps y tracking de modelos

Tracking del ciclo de vida de modelos de machine learning

Orquestación de pipelines de machine learning

Despliegue de modelo de machine learning

Monitoreo de modelo de machine learning en producción

Tomar examen

Resumen

Garantizar la trazabilidad de cada experimento, cada versión de datos y cada modelo es lo que separa un flujo de Machine Learning artesanal de uno verdaderamente profesional. El tracking dentro de MLOps no es un paso opcional: es el eje que conecta la preparación de datos, la creación del modelo y su disponibilización en producción.

¿Por qué el tracking es esencial en la preparación de datos?

El camino comienza mucho antes de entrenar un modelo. La preparación de datos involucra varias subetapas que deben quedar registradas para poder reproducir cualquier resultado [0:12]:

Adquisición y limpieza: se ingestan los datos crudos y se eliminan inconsistencias.
Análisis y transformación: los datos se exploran y se aplican las transformaciones necesarias.
Validación: mediante pruebas unitarias se verifica el tipado y el contenido interno de cada campo.
Feature engineering: se definen o crean las características que alimentarán al modelo, y se dividen los datos en conjuntos de entrenamiento, test y validación.

Trackear estos datos significa saber exactamente con qué versión de datos se entrenó cada modelo [1:04]. Si se aplicó cierta transformación, debe quedar identificada mediante un versionado claro que permita recorrer toda la línea de tiempo de experimentación.

¿Qué rol juega el versionado en la creación del modelo?

Una vez listos los datos, la etapa de creación del modelo incluye optimización y validación cruzada para seleccionar el mejor candidato a producción [1:28]. Aquí el tracking cobra otro nivel de importancia: no solo se versiona la data y los artefactos, sino que al modelo se le asigna una versión y un stage —por ejemplo, testing o productivo— dentro de un registro de modelos. Esto permite manipularlo desde repositorios e incluirlo en pipelines de disponibilización [1:43].

¿Cómo ML Flow facilita el tracking en cada componente?

ML Flow ofrece cuatro pilares que cubren todo el ciclo [2:08]:

Modelos: permite desplegar cualquier tipo de modelo en diversos ambientes.
Tracking: almacena metadata como requerimientos de Python, hiperparámetros, versión del código, artefactos y datos.
Proyectos: empaqueta el código fuente para replicar experimentos cuando sea necesario.
Registro: asigna estados a los modelos (testing o productivo) y facilita su integración en flujos de trabajo, especificando qué versión de datos y qué versión de modelo se utilizan [2:44].

Una ventaja destacada de ML Flow es su interoperabilidad: se integra con facilidad con herramientas como TensorFlow Extended, PyTorch, Keras, Scikit-learn y Transformers [3:35].

¿Cómo impacta el tracking en la colaboración del equipo?

En un equipo de MLOps no trabaja solo el ingeniero de Machine Learning. Conviven científicos de datos, ingenieros de datos y managers [3:05]. Las buenas prácticas de tracking permiten que todos trabajen de forma armónica sin importar el rol:

Los ingenieros de datos suministran los insumos para el análisis y modelado.
Los científicos de datos identifican el mejor modelo según las métricas obtenidas.
Los ingenieros de ML registran el modelo, ejecutan pruebas y gestionan la infraestructura necesaria.

Esta cultura compartida de versionado y registro elimina ambigüedades y hace reproducible cada decisión.

¿Qué recomendaciones seguir para un tracking efectivo?

Tres puntos clave cierran el panorama de buenas prácticas [4:28]:

Automatizar los tres principios de MLOps: diseño, desarrollo y operaciones. La madurez de un flujo se mide por la ausencia de intervención manual.
Almacenar toda la metadata posible: versiones de modelos, versiones de datos, hiperparámetros y dependencias. Esto permite especificar con precisión cada componente dentro del flujo de trabajo.
No omitir pruebas en ningún nivel [5:05]: validar las transformaciones de datos antes de que se conviertan en input del modelo, probar los datos que ingresan al servicio en producción y verificar la infraestructura —memoria, procesadores, GPU— para optimizar tiempos de cómputo y rendimiento.

Estas validaciones de infraestructura permiten inferir con anticipación los requerimientos necesarios para disponibilizar el modelo como servicio o aplicación [5:36].

Si ya estás implementando tracking en tus proyectos de ML, comparte qué herramientas o prácticas te han dado mejores resultados.