Tracking de Experimentos con MLflow y Bucket en SQLite

Clase 6 de 35 • Curso de MLOPS: Despliegue de Modelos de Machine Learning

Contenido del curso

Fundamentos de MLOps y tracking de modelos

Tracking del ciclo de vida de modelos de machine learning

Orquestación de pipelines de machine learning

Despliegue de modelo de machine learning

Monitoreo de modelo de machine learning en producción

Tomar examen

Resumen

Cuando trabajas con modelos de machine learning y necesitas registrar cada experimento de forma estructurada, utilizar un backend basado en una base de datos marca una diferencia importante. Aquí se explica cómo configurar MLflow para que las entidades —métricas, hiperparámetros y metadatos— se almacenen en SQLite, manteniendo los artefactos en la carpeta habitual mlruns.

¿Cómo funciona el flujo de tracking con un backend en SQLite?

El esquema general es muy parecido al tracking local que ya se conoce. Tu código de machine learning sigue comunicándose con MLflow, y los artefactos (modelos serializados, gráficas, archivos auxiliares) continúan guardándose en la carpeta mlruns. La diferencia central es que las entidades —todo lo que se registra y no es un artefacto— ahora se persisten en una base de datos compatible con SQLite [0:26].

Esto significa que cada run queda almacenado de manera organizada dentro de un archivo .db, lo cual facilita consultas y comparaciones cuando ejecutas múltiples combinaciones de hiperparámetros durante la optimización de un modelo.

¿Qué cambios se necesitan en el código?

El código base es prácticamente el mismo que se ha venido utilizando. Solo hay dos ajustes clave [0:50]:

set_tracking_uri: se modifica para indicar que el backend será SQLite, apuntando a la ruta del archivo de base de datos.
set_experiment: se asigna un nombre único al experimento; en el ejemplo se usó experiment_backend.

Al ejecutar el script, MLflow crea automáticamente el archivo backend.db [1:10]. Ese archivo es la base de datos donde se acumulan las ejecuciones con sus métricas, parámetros y demás información registrada.

¿Cómo se lanza la interfaz de MLflow con backend store?

Para visualizar los resultados en la UI de MLflow es necesario un comando especial que incluye el argumento --backend-store-uri, seguido de la ruta donde se encuentra el archivo .db [1:30].

Antes de ejecutar el comando, verifica dos cosas:

Tu entorno virtual debe estar activado.
Debes estar posicionado en el mismo nivel de directorio donde se encuentran los archivos de tracking.

Una vez lanzado el servidor, MLflow devuelve una dirección IP con un puerto que puedes pegar en tu navegador [1:56]. Al acceder, encontrarás el experimento creado con todos los runs registrados, incluyendo parámetros, métricas, entornos, requerimientos y el modelo serializado [2:14].

¿Cuáles son las limitantes del tracking local?

Aunque el backend con SQLite organiza mejor la información, sigue existiendo una restricción importante: todo permanece en tu máquina local [2:36]. Si necesitas compartir los resultados de un experimento con tu equipo de trabajo, no será posible de forma directa porque los datos no están accesibles desde otras máquinas.

Esta limitante se resuelve almacenando los experimentos en un bucket en la nube, de modo que otros desarrolladores y miembros del equipo puedan consultar la misma información desde cualquier lugar [2:50]. Ese paso representa la evolución natural del flujo de trabajo: pasar de un entorno local a uno colaborativo y compartido.

Si ya estás experimentando con distintas configuraciones de hiperparámetros, prueba este enfoque con SQLite como paso intermedio antes de migrar a la nube. Comparte en los comentarios qué configuración de backend te ha funcionado mejor en tus proyectos.

Comentarios

Camilo Amadio Crv

student•

Un comment que me costó semanas aprender, triple '/' es path relativo y cuadruple '/' es path absoluto

Santiago Ahumada Lozano

student•

Tracking de Modelos con MLflow y SQLite

Introducción 🚀

Cómo realizar el seguimiento de modelos utilizando MLflow y SQLite, pero con un enfoque adicional: el uso de un "bucket". Este enfoque nos permitirá almacenar las entidades en una base de datos SQLite, ofreciendo ventajas significativas para colaboración y accesibilidad.

Paso a Paso 🛠️

Desarrollo de Código de Machine Learning Comienza desarrollando el código de Machine Learning que deseas seguir y mejorar.
Tracking con MLflow Utiliza MLflow para realizar el seguimiento de tus experimentos. Los artefactos se seguirán almacenando en la carpeta mlruns
Ejecución del Código

Ejecuta tu código. Automáticamente se creará un archivo bucket.db, que es la base de datos SQLite que actúa como el "bucket" para tus entidades.
Almacenamiento en un Bucket

En lugar de almacenar todas las entidades localmente, ahora utilizaremos un "bucket". Este "bucket" es una base de datos SQLite que contendrá información como métricas, hiperparámetros y otros detalles relevantes para cada ejecución.

Ventajas 🌟

Este enfoque resuelve limitaciones al permitir compartir experimentos con equipos de trabajo. Al almacenar la información en un bucket, múltiples desarrolladores pueden acceder y colaborar en el mismo conjunto de datos, fomentando un entorno colaborativo y eficiente.

Enzo Gonzales

student•

El tracking de modelos con MLflow y SQLite se refiere al proceso de registrar, monitorear y gestionar experimentos y modelos de machine learning utilizando la herramienta MLflow en combinación con una base de datos SQLite para almacenar la información.

Aquí te explico cada componente:

1. MLflow:

MLflow es una plataforma de código abierto que facilita la gestión del ciclo de vida de los modelos de machine learning. Esto incluye cuatro componentes principales:

Tracking: Registro de experimentos, parámetros, métricas, y artefactos.
Projects: Organización del código en un formato reproducible.
Models: Gestión y despliegue de modelos.
Registry: Registro centralizado de modelos para la colaboración.

2. Tracking con MLflow:

El componente de tracking en MLflow permite a los científicos de datos y equipos de machine learning realizar un seguimiento detallado de los experimentos que ejecutan. Por ejemplo, puedes registrar:

Parámetros de entrada: Variables de configuración, como el número de árboles en un modelo de bosque aleatorio.
Métricas de rendimiento: Como la precisión, el recall, o cualquier otra métrica relevante.
Artefactos: Archivos generados, como gráficos, modelos entrenados, etc.
Código fuente: El código utilizado en cada experimento.

3. SQLite:

SQLite es una base de datos ligera y autónoma que se utiliza comúnmente para aplicaciones de menor escala, como el desarrollo o aplicaciones locales. Cuando se utiliza con MLflow, SQLite puede ser el backend de la base de datos donde se almacenan los registros de experimentos de MLflow.

Cómo funciona el tracking de modelos con MLflow y SQLite:

Configuración de MLflow para usar SQLite: Se configura MLflow para que utilice una base de datos SQLite como backend para almacenar la información de tracking. Esto generalmente implica especificar la URI de la base de datos SQLite en la configuración de MLflow.
Registro de experimentos: A medida que realizas experimentos de machine learning, MLflow registra automáticamente todos los detalles en la base de datos SQLite. Esto incluye parámetros, métricas, artefactos, y más.
Consulta y análisis: Puedes consultar la base de datos SQLite para revisar los experimentos anteriores, comparar resultados, y analizar el rendimiento de los modelos.
Reproducibilidad: Al tener todo registrado en MLflow, puedes replicar experimentos anteriores, facilitando la reproducibilidad y el seguimiento de los resultados a lo largo del tiempo.

Omar Santa Cruz

student•

Esto es lo que pasa:

Cuando defines el --backend-store-uri como un folder local (file:///...), MLflow crea tanto la metadata como los artefactos en ese mismo folder, normalmente dentro de subcarpetas como mlruns/.
Si no especificas --backend-store-uri, MLflow por defecto usa ./mlruns/ para todo.
Si defines el backend como una base de datos SQL, ahí solo se guarda la metadata (runs, parámetros, métricas, tags), y los artefactos siguen yendo al default artifact store, que si no lo cambias, es ./mlruns/.
Para separar artefactos de metadata, necesitas explícitamente --default-artifact-root apuntando a otra carpeta o storage (S3, GCS, etc.).

Daniel Andres Rojas Paredes

student•

No es necesario tener un manejador de SQLite instalado en tu sistema operativo para trabajar con bases de datos SQLite a través de MLflow. MLflow maneja la conexión y la creación de la base de datos automáticamente cuando especificas la URI de tracking. Al usar el bucket en SQLite, MLflow crea el archivo bucket.db sin requerir instalación adicional. Sin embargo, tener conocimientos básicos sobre cómo interactuar con SQLite puede ser útil para tareas de administración avanzada.

Tracking de Experimentos con MLflow y Bucket en SQLite

Fundamentos de MLOps y tracking de modelos

Implementación de MLOps para Modelos de Machine Learning

Principios y Etapas del MLOps en Machine Learning

Componentes de Infraestructura en MLOps: Control, Integración y Monitorización

Tracking de Modelos de Machine Learning con MLflow Local

Seguimiento local de experimentos con MLflow usando folder personalizado