Fundamentos de MLOps y tracking de modelos

1

Implementación de MLOps para Modelos de Machine Learning

2

Tracking de Modelos de Machine Learning con MLflow Local

3

Seguimiento local de experimentos con MLflow usando folder personalizado

4

Principios y Etapas del MLOps en Machine Learning

5

Componentes de Infraestructura en MLOps: Control, Integración y Monitorización

6

Tracking de Experimentos con MLflow y Bucket en SQLite

7

Tracking de Experimentos de Machine Learning con AWS y MLflow

Tracking del ciclo de vida de modelos de machine learning

8

Clasificación de Tickets con Procesamiento de Lenguaje Natural

9

Tracking de Datos y Modelado con MNLflow y Scikit-learn

10

Tracking de Métricas e Hiperparámetros con Validación Cruzada

11

Tracking de Modelos y Métricas con MLflow y CycleLearn

12

Optimización de Hiperparámetros en Modelos de Machine Learning

13

Creación y gestión de experimentos con MLflow y Scikit-Learn

14

Promoción y Gestión de Modelos en Azure con MLflow

15

Validación de Modelos de Machine Learning con MLflow y SciPy

16

Tracking y Trazabilidad en MLOps con MLflow

Orquestación de pipelines de machine learning

17

Creación de tareas en Prefect para flujos de Machine Learning

18

Creación de Flujos de Trabajo con Prefect para Machine Learning

19

Pipeline de Machine Learning para Clasificación de Tickets

20

Pipeline de Procesamiento y Entrenamiento de Modelos de Datos

21

Ejecución de Flujos de Trabajo con Prefect: Conceptos y Prácticas

22

Orquestación de Flujos Flexibles con Prefect y Python

Despliegue de modelo de machine learning

23

Despliegue de Aplicaciones con Docker y FAS API en AWS

24

Creación de Aplicación con PaaS API, Docker y Grafana

25

Preprocesamiento y Predicción de Texto en Modelos de Machine Learning

26

Configuración de Base de Datos en SQLModel y Docker Compose

27

Despliegue Local y en AWS de Aplicaciones con Docker y Postman

28

Implementación de Modelos en Entornos Productivos con AWS y Docker

29

Autoescalado y Entrega Continua de Modelos en Producción

Monitoreo de modelo de machine learning en producción

30

Monitoreo de Modelos en Producción: Estrategias y Métricas Clave

31

Monitoreo de Modelos en Producción: Calidad de Datos y Data Drift

32

Modelo de Clasificación con Support Vector Classifier

33

Análisis de Drift y Valores Faltantes con Evidently

34

Creación de Dashboards y Visualizaciones en Grafana para Machine Learning

35

Mejora de Procesos MLOps e Infraestructura Escalable

No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

Análisis de Drift y Valores Faltantes con Evidently

33/35
Recursos

¿Cómo implementar el método de Column Mapping con Evidently?

La herramienta de Evidently ofrece soluciones para identificar problemas como fugas o fallas en las predicciones. Este proceso comienza con la implementación del método de Column Mapping, que se utiliza para evaluar la deriva o falta de valores en tu conjunto de datos. Aquí te explicamos cómo llevarlo a cabo.

  • Configuración del Column Mapping:
  • Genera una variable llamada column_mapping.
  • Define el método e indica que no se hará un análisis basado en el objetivo (target), estableciéndolo en on.
  • Especifica donde se encuentran las predicciones en tus conjuntos de datos, en la columna llamada predictions.
  • Determina si hay variables numéricas y categóricas, siendo necesarias darle una lista de strings si posees más de una columna de este tipo.

¿Cómo generar un reporte de análisis del drift?

Con Evidently, puedes generar un reporte que incluya una lista de métricas para evaluar la deriva de tus predicciones y detectar valores faltantes en los datos. Este informe es esencial para asegurar que el modelo sigue siendo efectivo.

Creación de un reporte y especificación de métricas

  1. Generar el reporte:
  • Crea una variable llamada report y llama al método report de Evidently.
  • Define una lista de métricas que incluirá herramientas como column_drift_metric para evaluar la deriva en las predicciones, y data_set_drift_metric para el conjunto completo de datos.
  1. Especifica las métricas a utilizar:
  • La métrica data_set_missing_values_metric te ayudará a identificar valores faltantes que puedan afectar el rendimiento del modelo.
  1. Ejecutar y generar el Visual Report:
  • Usa report.run para iniciar el análisis.
  • Visualiza el reporte usando report.show en modo en línea si trabajas en un notebook.

Interpretación y utilidad de los resultados

El reporte también ofrece datos adicionales como la distribución de datos y el porcentaje de valores faltantes. Esto es crucial para equilibrar tus conjuntos de datos train y test y garantizar evaluaciones justas.

  • Ejemplo de resultados:
  • Un score de drift bajo, como 0.05, es aceptable; si aumenta más de 0.45, es necesario reconsiderar tu modelo.
  • La proporción de valores faltantes debe ser mínima para asegurar la validez del modelo; en este caso es 0%.

¿Cómo integrar los resultados en tu flujo de trabajo?

Tras generar un reporte visual, es útil almacenar métricas de forma estructurada en un diccionario. De esta manera, puedes integrarlo fácilmente en un pipeline de Machine Learning y utilizarlo para tomar decisiones estratégicas.

Almacenamiento e impresión de las métricas

  • Almacena los resultados del reporte en un diccionario para facilitar su uso en futuras tareas como la decisión de activar o desactivar partes del flujo de Machine Learning.

  • Algunas variables clave que pueden analizarse incluyen el score de drift y el número de columnas con drift. Ejemplo de código para este propósito:

    Almacenamiento de métricas en un diccionario

    result = report.as_dict()

    Obtención del score de data drift

    drift_score = result['metrics'][0]['result']['score']

    Verificación de columnas con drift

    columns_drift = result['metrics'][1]['result']['number_of_columns_with_drift']

    Nada de valores faltantes en el conjunto de datos actual

    missing_values_current = result['metrics'][2]['result']['share_of_missing_values']

Con estos pasos, puedes realizar un análisis continuo de tus datos y adaptarte a los cambios necesarios para mantener tus modelos eficaces. Evidently es una herramienta poderosa para asegurarte de que tu proceso de predicción sigue ofreciendo un rendimiento óptimo. ¡Continúa explorando y avanzando en el emocionante mundo del Machine Learning!

Aportes 2

Preguntas 2

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

Evidently utiliza el método de divergencia de Jensen-Shannon para hacer el análisis de data drift, este método es simplemente una medida de similitud entre dos distribuciones de probabilidad. el algoritmo consiste en tomar los datos de referencia y de producción, calcular las distribuciones de probabilidad para una o más características de interés en ambos conjuntos de datos, aplicar la fórmula de JS para calcular la divergencia entre las distribuciones de cada característica en los dos conjuntos de datos. Un valor de JS cercano a 0 indica que las dos distribuciones son muy similares, mientras que un valor más alto sugiere diferencias significativas, indicando la presencia de data drift. Otros métodos más sencillos para analizar data drift puede ser una prueba de hipótesis de comparación de medias entre las muestras de datos de referencia y producción utilizando por ejemplo t-student o chi-2. Si el p-value es menor al nivel de significancia (0.05 generalmente) se rechaza que las dos muestras sean iguales y se concluye que hay evidenciaa significativa para determinar que la variable analizada ha sufrido un drift
Debo decir que la clase es muy densa pero muy buena. para llegar a entender todo lo que se menciona hasta este punto es necesario tener experiencia minima en despliegues a producción de modelos ML. gracias, pude entender el concepto Data Drift y como estos resultados pueden evaluar la cadencia del modelo