Ejecución de Flujos de Trabajo con Prefect: Conceptos y Prácticas

Clase 21 de 35 • Curso de MLOPS: Despliegue de Modelos de Machine Learning

Resumen

¿Cómo ejecutar un flujo con Prefect?

Ejecutar un flujo con Prefect puede ser una experiencia enriquecedora, especialmente después de diseñar e implementar diversas tasks. Ahora, el siguiente paso es poner en marcha este flujo. Antes de proceder, ten en cuenta dos aspectos fundamentales:

Activar el entorno predefinido: Asegúrate de que tu entorno de trabajo esté activo.
Inicializar el servidor de Prefect: Si aún no lo has hecho, inicia el servidor en otra terminal para tener todo preparado.

Una vez asegurados estos dos puntos, navega al directorio raíz del proyecto donde se encuentra tu flujo. A continuación, ejecuta el módulo que contiene tu flujo con el siguiente comando en tu terminal:

python orchestration/nombre_modulo.py

Es probable que la primera tarea tarde algunos minutos, dado que se están procesando grandes volúmenes de datos. Una vez finalizada, el resto de las tareas se ejecutarán de forma secuencial, aprovechando los datos procesados por la primera tarea.

¿Qué resultados podemos esperar al correr esto?

Una vez ejecutado el flujo, visualizarás en la terminal que cada tarea se ha completado con éxito. Incluso podrás ver métricas como la accuracy en los reportes de entrenamiento. Esto ofrece un panorama completo del rendimiento del flujo. Navegando a la interfaz de Prefect, en la sección MLEplowruns, podrás ver detalles como el tiempo total de ejecución (por ejemplo, 2 minutos con 43 segundos) y los logs de cada tarea.

Las tareas se dividen en:

Text processing
Feature extraction
Entrenamiento del modelo

Además, aunque no lo implementemos ahora, es interesante saber que Prefect permite la integración de subflows, es decir, ejecutar un flujo dentro de otro. Esta funcionalidad es útil si en algún momento lo requieres.

¿Cómo visualizar y entender las relaciones entre tareas?

Una de las ventajas más destacadas de visualización es poder analizar las relaciones entre las tareas que componen tu flujo. Esto se representa de forma gráfica en Prefect, facilitando la comprensión de cómo interactúan y se sincronizan:

Ejecuciones en serie y en paralelo: Puedes decidir si algunas tareas se ejecutarán una tras otra o simultáneamente. Las tareas independientes, por ejemplo, pueden correr en paralelo.
Facilidad en la configuración: Puedes ajustar parámetros de instancia, como el tamaño (medium, large, etc.) y seleccionar si utilizarás recursos adicionales como GPUs para trabajos más complejos.

Estos elementos dotan de flexibilidad a los workflows, permitiendo ajustes y personalizaciones según las necesidades específicas del proyecto.

Por último, aunque no se han generado artifacts en este ejemplo, es recomendable explorar esta opción y consultar la documentación para profundizar en la integración y maximizar el potencial de Prefect en futuros proyectos. Con perseverancia y curiosidad, cada flujo que construyas será más sofisticado y eficiente. ¡Sigue aprendiendo e innovando!

Comentarios

Christian Julian Acosta Santamaria

student•

En el archivo text_processing.py también es necesario cambiar el path de data_processed y el de data_raw, puesto que está puesto el de la profesora.

cipriano salazar

student•

adicional cambiar también el Path de

DATA_PATH_PROCESSED

en el archivo config.py

Robert Yesid Barrios Acendra

student•

¿Cómo hago si el proyecto trata de varios modelos que predigan 4 cosas distintas (regresión) a partir de una misma data? Porque a partir de una misma data, podrían ser 4 formas distintas de preprocesamiento de los datos, solo por mencionar una task de ejemplo. Pienso que tocaría modularizar las tasks en archivos separados.

william albeiro amaya patiño

student•

hola, como soluciono este error: mlflow.exceptions.MlflowException: The configured tracking uri scheme: 'file' is invalid for use with the proxy mlflow-artifact scheme. The allowed tracking schemes are: {'http', 'https'}

Juan Acevedo

student•

Algo que estuve notando , a la hora de hacer el tracking , mlflow trata e cargarlos por default, pero como siempre, no es solo buena practica sino es casi obligatorio fijar la uri de donde se va a guardar el tracking

Pablo Núñez

student•

aparte se implementar prefect en mlops, en que otras situaciones es recomendable implementarlo?

Pablo Núñez

student•

me gustó mucho conocer prefect en este curso. suelo utilizar airflow pero creo que esta solución da una alternativa más, valiendonos de algún cron

cipriano salazar

student•

una recomendación en el archivo

orchestrate_with_prefect.py

es recomendable colocar lo siguiente

import nltk

nltk.download('stopwords')

nltk.download('punkt')

Pablo Campiño

student•

De la clase: Tracking de experimentos con MLflow: preprocesamiento de datos y con base en el aporte de Ignacio Milesi que avala María Camila, resulta lo siguiente:

Train Accuracy: 0.9892254370102471, Test Accuracy: 0.9715239936719986

Y estos tiempos:

Pablo Campiño

student•

Pablo Campiño

student•

De la clase: Tracking de experimentos con MLflow: preprocesamiento de datos y con base en el aporte de Ignacio Milesi que avala María Camila, resulta lo siguiente:

Train Accuracy: 0.9892254370102471, Test Accuracy: 0.9715239936719986

Y estos tiempos:

Pablo Campiño

student•

De la clase: Tracking de experimentos con MLflow: preprocesamiento de datos y con base en el aporte de Ignacio Milesi que avala María Camila, resulta lo siguiente:

Train Accuracy: 0.9892254370102471
Test Accuracy: 0.9715239936719986

Pablo Campiño

student•

De la clase: Tracking de experimentos con MLflow: preprocesamiento de datos y con base en el aporte de Ignacio Milesi que avala María Camila, resulta lo siguiente:

Train Accuracy: 0.9892254370102471
Test Accuracy: 0.9715239936719986

Pablo Campiño

student•

De la clase: Tracking de experimentos con MLflow: preprocesamiento de datos y con base en el aporte de Ignacio Milesi que avala María Camila Durango Barrera, resulta lo siguiente:

Train Accuracy: 0.9892254370102471

Test Accuracy: 0.9715239936719986

Ejecución de Flujos de Trabajo con Prefect: Conceptos y Prácticas

Fundamentos de MLOps y tracking de modelos

Implementación de MLOps para Modelos de Machine Learning

Principios y Etapas del MLOps en Machine Learning

Componentes de Infraestructura en MLOps: Control, Integración y Monitorización

Tracking de Modelos de Machine Learning con MLflow Local

Seguimiento local de experimentos con MLflow usando folder personalizado

Tracking de Experimentos con MLflow y Bucket en SQLite

Tracking de Experimentos de Machine Learning con AWS y MLflow

Tracking del ciclo de vida de modelos de machine learning

Clasificación de Tickets con Procesamiento de Lenguaje Natural

Tracking de Datos y Modelado con MNLflow y Scikit-learn

Tracking de Métricas e Hiperparámetros con Validación Cruzada

Tracking de Modelos y Métricas con MLflow y CycleLearn

Optimización de Hiperparámetros en Modelos de Machine Learning

Creación y gestión de experimentos con MLflow y Scikit-Learn

Promoción y Gestión de Modelos en Azure con MLflow

Validación de Modelos de Machine Learning con MLflow y SciPy

Tracking y Trazabilidad en MLOps con MLflow

Orquestación de pipelines de machine learning

Creación de tareas en Prefect para flujos de Machine Learning

Creación de Flujos de Trabajo con Prefect para Machine Learning

Pipeline de Machine Learning para Clasificación de Tickets

Pipeline de Procesamiento y Entrenamiento de Modelos de Datos

Ejecución de Flujos de Trabajo con Prefect: Conceptos y Prácticas

Orquestación de Flujos Flexibles con Prefect y Python

Despliegue de modelo de machine learning

Despliegue de Aplicaciones con Docker y FAS API en AWS

Creación de Aplicación con PaaS API, Docker y Grafana

Preprocesamiento y Predicción de Texto en Modelos de Machine Learning

Configuración de Base de Datos en SQLModel y Docker Compose

Despliegue Local y en AWS de Aplicaciones con Docker y Postman

Implementación de Modelos en Entornos Productivos con AWS y Docker

Autoescalado y Entrega Continua de Modelos en Producción

Monitoreo de modelo de machine learning en producción

Monitoreo de Modelos en Producción: Estrategias y Métricas Clave

Monitoreo de Modelos en Producción: Calidad de Datos y Data Drift

Modelo de Clasificación con Support Vector Classifier

Análisis de Drift y Valores Faltantes con Evidently

Creación de Dashboards y Visualizaciones en Grafana para Machine Learning

Mejora de Procesos MLOps e Infraestructura Escalable