Crea un ciclo de entrenamiento de tu modelo: MLOps

Curso Profesional de Computer Vision con TensorFlow

Contenido del curso

Comprender la visión computarizada

Dimensionamiento de proyecto de visión computarizada

Obtención y procesamiento de los datos

Entrena, testea y optimiza tus modelos

Producto con visión computarizada en producción

Siguientes pasos en inteligencia artificial

Tomar examen

Crea un ciclo de entrenamiento de tu modelo: MLOps

my\_ml\_project/

├── data/                   # Datos versionados con DVC

├── models/                 # Carpeta para guardar el modelo entrenado

├── notebooks/              # Notebooks para exploración de datos y prototipado

├── src/                    # Código fuente de scripts de entrenamiento y evaluación

│   ├── train.py            # Script principal de entrenamiento

│   ├── evaluate.py         # Script para evaluación del modelo

│   └── utils.py            # Funciones auxiliares

├── dvc.yaml                # Configuración de pipeline DVC

├── mlflow\_tracking/        # Carpeta para el registro de MLFlow

├── Dockerfile              # Definición del contenedor Docker

├── requirements.txt        # Librerías requeridas

└── .github/workflows/      # Flujos de trabajo de GitHub Actions

&#x20;   └── train\_model.yml     # Pipeline de entrenamiento automatizado

\# src/train.py

import mlflow

import dvc.api

import pandas as pd

from sklearn.ensemble import RandomForestClassifier

from sklearn.model\_selection import train\_test\_split

from sklearn.metrics import accuracy\_score

import joblib

\# Configuración de MLFlow

mlflow.set\_tracking\_uri("file:./mlflow\_tracking")

mlflow.set\_experiment("MyModelExperiment")

def train():

&#x20;   \# Cargar los datos versionados con DVC

&#x20;   data\_url = dvc.api.get\_url("data/dataset.csv")

&#x20;   data = pd.read\_csv(data\_url)

&#x20;  &#x20;

&#x20;   \# Preparar los datos

&#x20;   X = data.drop("target", axis=1)

&#x20;   y = data\["target"]

&#x20;   X\_train, X\_test, y\_train, y\_test = train\_test\_split(X, y, test\_size=0.2, random\_state=42)

&#x20;  &#x20;

&#x20;   \# Configuración de hiperparámetros

&#x20;   params = {

&#x20;       "n\_estimators": 100,

&#x20;       "max\_depth": 5,

&#x20;       "random\_state": 42

&#x20;   }

&#x20;  &#x20;

&#x20;   \# Entrenamiento

&#x20;   with mlflow.start\_run():

&#x20;       model = RandomForestClassifier(\*\*params)

&#x20;       model.fit(X\_train, y\_train)

&#x20;      &#x20;

&#x20;       \# Evaluación

&#x20;       predictions = model.predict(X\_test)

&#x20;       accuracy = accuracy\_score(y\_test, predictions)

&#x20;      &#x20;

&#x20;       \# Registro de métricas y parámetros en MLFlow

&#x20;       mlflow.log\_params(params)

&#x20;       mlflow.log\_metric("accuracy", accuracy)

&#x20;      &#x20;

&#x20;       \# Guardar el modelo entrenado

&#x20;       joblib.dump(model, "models/model.joblib")

&#x20;       mlflow.log\_artifact("models/model.joblib")

if \_\_name\_\_ == "\_\_main\_\_":

&#x20;   train()

\# .github/workflows/train\_model.yml

name: Train Model

on:

&#x20; push:

&#x20;   branches:

&#x20;     \- main

&#x20; workflow\_dispatch:

jobs:

&#x20; train\_model:

&#x20;   runs-on: ubuntu-latest

&#x20;   steps:

&#x20;     \- name: Check out the repository

&#x20;       uses: actions/checkout@v2

&#x20;     \- name: Set up Python

&#x20;       uses: actions/setup-python@v2

&#x20;       with:

&#x20;         python-version: '3.8'

&#x20;     \- name: Install dependencies

&#x20;       run: |

&#x20;         python -m pip install --upgrade pip

&#x20;         pip install -r requirements.txt

&#x20;     \- name: Install DVC

&#x20;       run: |

&#x20;         pip install dvc

&#x20;         dvc pull

&#x20;     \- name: Run training script

&#x20;       run: |

&#x20;         python src/train.py

&#x20;     \- name: Upload model artifact

&#x20;       uses: actions/upload-artifact@v2

&#x20;       with:

&#x20;         name: model

&#x20;         path: models/model.joblib

\# Inicializar DVC y agregar datos

dvc init

dvc add data/dataset.csv

\# Trackear en Git

git add data/dataset.csv.dvc .gitignore

git commit -m "Agregar dataset a DVC"

\# Configurar almacenamiento remoto (e.g., S3, Google Drive, etc.)

dvc remote add -d myremote s3://mybucket/path

dvc push

my\_ml\_project/

├── data/                   # Datos versionados con DVC

├── models/                 # Carpeta para guardar el modelo entrenado

├── notebooks/              # Notebooks para exploración de datos y prototipado

├── src/                    # Código fuente de scripts de entrenamiento y evaluación

│   ├── train.py            # Script principal de entrenamiento

│   ├── evaluate.py         # Script para evaluación del modelo

│   └── utils.py            # Funciones auxiliares

├── dvc.yaml                # Configuración de pipeline DVC

├── mlflow\_tracking/        # Carpeta para el registro de MLFlow

├── Dockerfile              # Definición del contenedor Docker

├── requirements.txt        # Librerías requeridas

└── .github/workflows/      # Flujos de trabajo de GitHub Actions

&#x20;   └── train\_model.yml     # Pipeline de entrenamiento automatizado

\# src/train.py

import mlflow

import dvc.api

import pandas as pd

from sklearn.ensemble import RandomForestClassifier

from sklearn.model\_selection import train\_test\_split

from sklearn.metrics import accuracy\_score

import joblib

\# Configuración de MLFlow

mlflow.set\_tracking\_uri("file:./mlflow\_tracking")

mlflow.set\_experiment("MyModelExperiment")

def train():

&#x20;   \# Cargar los datos versionados con DVC

&#x20;   data\_url = dvc.api.get\_url("data/dataset.csv")

&#x20;   data = pd.read\_csv(data\_url)

&#x20;  &#x20;

&#x20;   \# Preparar los datos

&#x20;   X = data.drop("target", axis=1)

&#x20;   y = data\["target"]

&#x20;   X\_train, X\_test, y\_train, y\_test = train\_test\_split(X, y, test\_size=0.2, random\_state=42)

&#x20;  &#x20;

&#x20;   \# Configuración de hiperparámetros

&#x20;   params = {

&#x20;       "n\_estimators": 100,

&#x20;       "max\_depth": 5,

&#x20;       "random\_state": 42

&#x20;   }

&#x20;  &#x20;

&#x20;   \# Entrenamiento

&#x20;   with mlflow.start\_run():

&#x20;       model = RandomForestClassifier(\*\*params)

&#x20;       model.fit(X\_train, y\_train)

&#x20;      &#x20;

&#x20;       \# Evaluación

&#x20;       predictions = model.predict(X\_test)

&#x20;       accuracy = accuracy\_score(y\_test, predictions)

&#x20;      &#x20;

&#x20;       \# Registro de métricas y parámetros en MLFlow

&#x20;       mlflow.log\_params(params)

&#x20;       mlflow.log\_metric("accuracy", accuracy)

&#x20;      &#x20;

&#x20;       \# Guardar el modelo entrenado

&#x20;       joblib.dump(model, "models/model.joblib")

&#x20;       mlflow.log\_artifact("models/model.joblib")

if \_\_name\_\_ == "\_\_main\_\_":

&#x20;   train()

\# .github/workflows/train\_model.yml

name: Train Model

on:

&#x20; push:

&#x20;   branches:

&#x20;     \- main

&#x20; workflow\_dispatch:

jobs:

&#x20; train\_model:

&#x20;   runs-on: ubuntu-latest

&#x20;   steps:

&#x20;     \- name: Check out the repository

&#x20;       uses: actions/checkout@v2

&#x20;     \- name: Set up Python

&#x20;       uses: actions/setup-python@v2

&#x20;       with:

&#x20;         python-version: '3.8'

&#x20;     \- name: Install dependencies

&#x20;       run: |

&#x20;         python -m pip install --upgrade pip

&#x20;         pip install -r requirements.txt

&#x20;     \- name: Install DVC

&#x20;       run: |

&#x20;         pip install dvc

&#x20;         dvc pull

&#x20;     \- name: Run training script

&#x20;       run: |

&#x20;         python src/train.py

&#x20;     \- name: Upload model artifact

&#x20;       uses: actions/upload-artifact@v2

&#x20;       with:

&#x20;         name: model

&#x20;         path: models/model.joblib

\# Inicializar DVC y agregar datos

dvc init

dvc add data/dataset.csv

\# Trackear en Git

git add data/dataset.csv.dvc .gitignore

git commit -m "Agregar dataset a DVC"

\# Configurar almacenamiento remoto (e.g., S3, Google Drive, etc.)

dvc remote add -d myremote s3://mybucket/path

dvc push

Crea un ciclo de entrenamiento de tu modelo: MLOps

Comprender la visión computarizada

¿Por qué aprender computer vision?

¿Qué es la visión computarizada?

Tipos de visión computarizada

Introducción a object detection: clasificación + localización

Aprende a identificar problemas

Dimensionamiento de proyecto de visión computarizada

Cómo definir los tiempos de tu proyecto

Cómo costear tu proyecto

Cómo identificar los roles necesarios en el proyecto

Producto mínimo viable en computer vision

Obtención y procesamiento de los datos

Obtención de datos para tu proyecto

Limpieza de la base de datos

Distribución de datos en entrenamiento y testeo

Etiquetado de los datos de test

Etiquetado de los datos de train

Transforma tu base de datos a TFRecord

Transformar CSV a TFRecord

Entrena, testea y optimiza tus modelos

Librerías a importar durante fase de entrenamiento

Fase de entrenamiento del modelo

Balanceo de imágenes y data augmentation

Entrena, evalua y optimiza con TensorBoard

Validación de modelo en un entorno de ejecución

Re-entrenamiento del modelo para obtener mejores resultados

Seguimiento de centroides con OpenCV

Configuración de los centroides con OpenCV

Algoritmo de dirección y conteo con OpenCV

Crea un ciclo de entrenamiento de tu modelo: MLOps

Producto con visión computarizada en producción

Prepara tu entorno en Google Cloud Platform

Carga y preprocesamiento de modelos

Postprocesamiento de modelos

Despliega y consume tu modelo en producción

Bonus: aprende a apagar las máquinas de GCP para evitar sobrecostos

Siguientes pasos en inteligencia artificial

Siguientes pasos en inteligencia artificial

Comparte tu proyecto de detección de vehículos en carretera y certifícate