Creación de Flujos de Trabajo con Prefect para Machine Learning

Clase 18 de 35 • Curso de MLOPS: Despliegue de Modelos de Machine Learning

Resumen

¿Qué es un flow y cómo se compone?

Un flow es el orquestador de las tareas necesarias para resolver un problema de machine learning. Es crucial entender que un flow agrupa múltiples tareas, cada una con una función específica. En el desarrollo de un proyecto de machine learning, el flow es una herramienta esencial que permite estructurar, automatizar y optimizar los procesos desde la obtención de datos hasta la implementación de un modelo.

¿Cómo definimos y componemos un flow en Visual Studio Code?

Para definir un flow en Visual Studio Code, se requiere definir las tareas necesarias y luego integrarlas en un solo flujo. El ejemplo que abordamos utiliza un flow para la clasificación de iris. Este incluye tareas como la obtención de datos, la división en conjunto de entrenamiento y prueba, y el entrenamiento de un modelo usando un clasificador aleatorio (Random Forest Classifier).

# Ejemplo de código para dividir datos utilizando Scikit Learn
from sklearn.model_selection import train_test_split

def split_data(data):
    X = data['data']
    y = data['target']
    return train_test_split(X, y, test_size=0.2, random_state=42)

¿Qué tareas añadimos a un flow?

Las tareas que usualmente añadimos a un flow están orientadas al flujo completo del proceso de machine learning. Las tareas más comunes son:

Obtención de datos: Extraemos los datos usando Scikit Learn.
División de datos (split data): Dividimos los datos en entrenamiento y prueba.
Entrenamiento del modelo (train model): Entrenamos un modelo para predecir o clasificar los datos.

Ejemplo de entrenamiento de un modelo usando Random Forest

from sklearn.ensemble import RandomForestClassifier

def train_model(X_train, y_train): model = RandomForestClassifier() model.fit(X_train, y_train) accuracy = model.score(X_train, y_train) print(f"Accuracy: {accuracy}") return model

¿Cuáles son las ventajas de implementar flows?

Implementar flows presenta una serie de ventajas sustanciales. Entre ellas, permite automatizar los procesos repetitivos, minimizando errores humanos y aumentando la eficiencia del proyecto. Además, la visualización y seguimiento de cada tarea dentro de un flow es más sencilla, especialmente si utilizamos herramientas como Prefect para ejecutarlos.

¿Cómo se ejecuta un flow en Prefect?

Para ejecutar un flow en Prefect es necesario tener un servidor prefabricado y correr los scripts correspondientes:

# Ejecutando el servidor de Prefect
prefect server start

# Ejecutando el script con el flow
python my_flow_script.py

Terminal A: Inicializa el servidor de Prefect.
Terminal B: Ejecuta el script.

¿Qué debemos tener en cuenta al crear flujos automáticos?

Al crear flujos de trabajo, es vital que consideremos los parámetros que cada flow puede recibir. Esto incluye los nombres, descripciones, etiquetas, entre otros. Además, la integración con programadores externos como Cron puede facilitar la ejecución periódica de estos flujos, lo cual es indispensable para tareas recurrentes como el reentrenamiento de modelos.

¿Cómo gestionamos los artefactos generados en flows?

En un flow, una tarea puede generar artefactos como salidas. Por ejemplo, la división de datos puede producir archivos comprimidos para su uso futuro, minimizando el impacto en la memoria. Es recomendable familiarizarse con la creación y gestión de estos artefactos como parte integral de los procesos de machine learning.

En resumen, dominar los fundamentos y aplicaciones de los flows es esencial para cualquier profesional en el ámbito de machine learning, ya que permite llevar las tareas experimentales a entornos productivos de manera eficiente y eficaz.

Comentarios

Sebastian Sarasti

student•

Supongamos el siguiente caso:

- Necesito hacer el deploy de un modelo en cualquier cloud (para este caso AWS). El hecho de usar prefect para hacer pipelines automáticamente me obliga a tener un server corriendo prefect 24/7? Acaso eso no incrementaría el costo de mi deploy?

María Camila Durango Barrera

teacher•

Para responder a esta pregunta, y es muy buena por cierto, te refieres a ejecutar un pipeline de MLOps todos los días a cierta hora? si a eso te refieres, esto no es muy común... sin embargo en algunos casos sí lo es, por ej para aplicaciones como las Industrias de comercio electrónico o servios financieros podrían ejecutarlos de forma diaria sin ningún problema.

Si estás implementando un pipeline de MLOps que requiere ejecución regular, entonces SÍ es cierto que mantener un servidor disponible las 24 horas del día podría aumentar los costos de tu despliegue, especialmente si estás utilizando recursos de la nube que se facturan por tiempo de ejecución o por el tiempo que los recursos están activos.

Sin embargo, hay formas de mitigar estos costos, y se me ocurran algunas de muchas opciones:

Ejecución bajo demanda: Como mencioné anteriormente, puedes utilizar servicios de cómputo en la nube que escalen automáticamente según la carga de trabajo. Esto significa que solo pagarías por el tiempo de CPU y otros recursos que realmente utilizas, en lugar de mantener un servidor siempre activo que podría resultar costoso $$$.
Optimización de recursos: Revisa tu pipeline y busca formas de optimizar el uso de recursos, como reducir el tiempo de ejecución de tareas, optimizar el código para utilizar menos recursos, o utilizar servicios de cómputo más eficientes; una vez me pasó que estaba tomando muchísimo un algoritmo en entrenar y me tocó sentarme a analizar la complejidad con notación Big O, logramos reducir la complejidad y nos ahorró HORAS y dinero.
Uso de instancias reservadas o savings plans: Algunos proveedores de nube ofrecen descuentos significativos si comprometes a utilizar ciertos recursos durante un período de tiempo específico. Esto podría ser beneficioso si sabes que necesitarás mantener un servidor activo durante largos períodos.
Apagar el servidor fuera del horario laboral: Si tus flujos de trabajo no necesitan ejecutarse durante todo el día, considera apagar el servidor fuera del horario laboral o en momentos en los que no se espera actividad.

En resumen, sí, mantener un servidor disponible las 24 horas del día podría aumentar los costos de tu despliegue, pero hay estrategias que puedes implementar para mitigar estos costos y optimizar el uso de recursos en la nube.

¡Me encantó tu pregunta!

Sebastian Sarasti

student•

Creo que no me explique muy bien. Hay cosas que me gustaron de prefect, principalmente el hecho de los retry, y me gustaría aplicarlo en mis pipelines.

Mi pregunta iba al hecho, de que necesitaría un server para el prefect y otro para mi pipeline. Por ejemplo, podría correr mi modelo en AWS Batch cada lunes (no importa la periodicidad), pero para acceder a la magia de los beneficios de prefect necesitaría otro server que corre prefect? Eso no me queda muy claro, ya que en la clase lo hacemos en local en otra terminal, y si bien para entender cómo funciona vale, para ponerlo en producción me confunde.

Caso contrario, entendí que prefect sería como zenml, y solo usaría los decoradores para "adornar" la forma en que mi código está escrito.

Agradecería su respuesta.

Lorena Galván

student•

Para practicar el uso de artifacts, pueden guardar las predicciones y_test como tabla usando la funcion create_table_artifact(). La tabla puede ser una lista de listas o un diccionario.

from prefect.artifacts import create_table_artifact

import numpy as np

def predictions(predicted_data):

""" to save predictions from testing """

y_list = [predicted_data.tolist()]

create_table_artifact(

key="testing-predictions",

table= y_list,

description= "data predicted under testing"

)

dentro del iris_classification() inserten al final:

predictions(y_test)

Cristian Y. Juzga

student•

Hola!

Ya he iniciado el servidor de prefect

Pero cuando ejecuto el script (en una nueva terminal como se indica en el video) me salta el siguiente error:

No se si estoy omitiendo algo del video?

Como puedo solucionar esto??

Daniel Alejandro Ramirez Gomez

student•

prefect profile use local

Usa esto para definir el lugar donde se ejecutara prefect. :)

Creación de Flujos de Trabajo con Prefect para Machine Learning

Fundamentos de MLOps y tracking de modelos

Implementación de MLOps para Modelos de Machine Learning

Principios y Etapas del MLOps en Machine Learning

Componentes de Infraestructura en MLOps: Control, Integración y Monitorización

Tracking de Modelos de Machine Learning con MLflow Local

Seguimiento local de experimentos con MLflow usando folder personalizado

Tracking de Experimentos con MLflow y Bucket en SQLite

Tracking de Experimentos de Machine Learning con AWS y MLflow

Tracking del ciclo de vida de modelos de machine learning

Clasificación de Tickets con Procesamiento de Lenguaje Natural

Tracking de Datos y Modelado con MNLflow y Scikit-learn

Tracking de Métricas e Hiperparámetros con Validación Cruzada

Tracking de Modelos y Métricas con MLflow y CycleLearn

Optimización de Hiperparámetros en Modelos de Machine Learning

Creación y gestión de experimentos con MLflow y Scikit-Learn

Promoción y Gestión de Modelos en Azure con MLflow

Validación de Modelos de Machine Learning con MLflow y SciPy

Tracking y Trazabilidad en MLOps con MLflow

Orquestación de pipelines de machine learning

Creación de tareas en Prefect para flujos de Machine Learning

Creación de Flujos de Trabajo con Prefect para Machine Learning

Pipeline de Machine Learning para Clasificación de Tickets

Pipeline de Procesamiento y Entrenamiento de Modelos de Datos

Ejecución de Flujos de Trabajo con Prefect: Conceptos y Prácticas

Orquestación de Flujos Flexibles con Prefect y Python

Despliegue de modelo de machine learning

Despliegue de Aplicaciones con Docker y FAS API en AWS

Creación de Aplicación con PaaS API, Docker y Grafana

Preprocesamiento y Predicción de Texto en Modelos de Machine Learning

Configuración de Base de Datos en SQLModel y Docker Compose

Despliegue Local y en AWS de Aplicaciones con Docker y Postman

Implementación de Modelos en Entornos Productivos con AWS y Docker

Autoescalado y Entrega Continua de Modelos en Producción

Monitoreo de modelo de machine learning en producción

Monitoreo de Modelos en Producción: Estrategias y Métricas Clave

Monitoreo de Modelos en Producción: Calidad de Datos y Data Drift

Modelo de Clasificación con Support Vector Classifier

Análisis de Drift y Valores Faltantes con Evidently

Creación de Dashboards y Visualizaciones en Grafana para Machine Learning

Mejora de Procesos MLOps e Infraestructura Escalable