Evaluación de Modelos de Aprendizaje Automático en PyTorch

Clase 17 de 24 • Curso de Redes Neuronales con PyTorch

Contenido del curso

Fundamentos de PyTorch

Estructura de modelo de deep learning en PyTorch

Redes neuronales con PyTorch

Cierre del curso

24
Aplicación de PyTorch en Proyectos de IA
01:13 min

Tomar examen

Resumen

Separar el proceso de entrenamiento en funciones modulares es una práctica fundamental cuando se construyen modelos de deep learning. Después de crear la función de entrenamiento, el siguiente paso natural es diseñar una función de evaluación que permita medir qué tan bien está aprendiendo el modelo sin modificar sus pesos. Aquí se desglosa paso a paso cómo construir esa función en PyTorch.

¿Cómo se estructura una función de evaluación en PyTorch?

La función de evaluación sigue una estructura muy similar a la de entrenamiento, pero con diferencias cruciales. Se define como def evalua(data_loader) y recibe el data loader como argumento [0:28].

Lo primero que se hace es colocar el modelo en modo de evaluación, tal como se hizo previamente con modelos de regresión lineal. Esto le indica a PyTorch que desactive comportamientos exclusivos del entrenamiento, como el dropout o la normalización por lotes.

Después se inicializan tres variables clave:

epoch_accuracy: acumula los aciertos del modelo durante la evaluación.
total_counts: registra el número total de ejemplos procesados en el batch.
epoch_loss: almacena la pérdida acumulada de toda la época.

¿Por qué es importante usar torch.no_grad durante la evaluación?

Uno de los pasos más importantes es envolver el proceso dentro de torch.no_grad() [1:16]. Este contexto le dice a PyTorch que no calcule gradientes, lo cual es esencial cuando se evalúa o se hace inferencia. Calcular gradientes innecesariamente consumiría memoria y tiempo de cómputo sin aportar nada al proceso de evaluación.

Dentro de ese bloque, se itera sobre el data loader usando enumerate, que retorna el índice del ejemplo junto con la etiqueta, el texto y los offsets [1:30].

¿Cómo se obtienen las predicciones y se calcula la precisión?

La predicción se genera pasando el texto y los offsets al modelo, exactamente lo que espera la función forward definida en la arquitectura [1:42]. Con esa predicción se calculan dos métricas:

La pérdida (loss): se obtiene mediante la función de criterio, que compara la etiqueta predicha con la etiqueta real para determinar qué tan diferentes son [1:55].
La precisión (accuracy): se toma el valor máximo de las predicciones con argmax, se compara contra la etiqueta real y se suman todos los aciertos [2:14].

¿Cómo se acumulan y promedian las métricas por época?

Una vez calculadas las métricas de cada batch, se actualizan las variables acumuladoras:

epoch_loss suma la pérdida del ejemplo actual a la pérdida total acumulada.
epoch_accuracy suma los aciertos del batch actual.
total_counts se incrementa contando el número de etiquetas del batch, que equivale al número de ejemplos procesados [2:52].

Finalmente, la función retorna los promedios dividiendo la precisión acumulada y la pérdida acumulada entre el número total de ejemplos [3:18]. Esto proporciona valores representativos del desempeño global del modelo en esa época.

¿Qué errores comunes hay que vigilar al implementar esta función?

Durante la implementación surgieron dos errores frecuentes que vale la pena destacar:

Indentación incorrecta del return: el return debe estar al nivel general de la función, no dentro del bloque with torch.no_grad(). Si queda dentro, la función podría no retornar los valores esperados [3:38].
Nombres inconsistentes de variables: por ejemplo, escribir epoch_acc con doble "p" en un lugar y de forma diferente en otro genera errores silenciosos. Revisar la consistencia de nombres es fundamental [3:55].

Con la función de evaluación lista, el siguiente paso para completar el pipeline de entrenamiento incluye definir los hiperparámetros, la función de pérdida, el optimizador y realizar la partición del dataset. Cada uno de estos componentes es una pieza esencial para que el modelo aprenda correctamente.

¿Has tenido problemas con la indentación o el manejo de variables al construir funciones similares? Comparte tu experiencia en los comentarios.

Comentarios

Carlos Alejandro Sanchez Aceves

student•

Creo que es importante hacer notar la diferencia entre with torch.no_grad() y with torch.inference_mode() ya que lo usamos en el notebook anterior.

torch.no_grad(): desactiva el cálculo de gradientes para reducir el uso de memoria y acelerar la evaluación de la red neuronal.
torch.inference_mode(): es una función que se utiliza para optimizar la inferencia en tiempo real en dispositivos móviles y otros dispositivos con recursos limitados. En lugar de desactivar el cálculo de gradientes, “with torch.inference_mode()” desactiva las operaciones que no son necesarias para la inferencia y optimiza las operaciones restantes para mejorar el rendimiento.

Joel Orellana

student•

Gracias Carlos! :3

Mario Alexander Vargas Celis

student•

Aquí tienes una función de evaluación para un modelo de clasificación de texto en PyTorch. Esta función evalúa el modelo en un conjunto de datos de prueba, calcula la pérdida y precisión, y puede ser usada al final del entrenamiento o para evaluar el rendimiento del modelo en un conjunto de validación o prueba.

### Función de Evaluación


import torch



def evaluate\_model(model, data\_loader, criterion, device):

&#x20;   model.eval()  # Poner el modelo en modo evaluación

&#x20;   running\_loss = 0.0

&#x20;   correct\_predictions = 0

&#x20;   total\_samples = 0



&#x20;   with torch.no\_grad():  # Desactiva el cálculo de gradientes

&#x20;       for inputs, labels in data\_loader:

&#x20;           inputs, labels = inputs.to(device), labels.to(device)



&#x20;           \# Forward pass

&#x20;           outputs = model(inputs)

&#x20;           loss = criterion(outputs, labels)

&#x20;          &#x20;

&#x20;           \# Acumular la pérdida y calcular predicciones correctas

&#x20;           running\_loss += loss.item() \* inputs.size(0)

&#x20;           \_, predicted = torch.max(outputs, 1)

&#x20;           correct\_predictions += (predicted == labels).sum().item()

&#x20;           total\_samples += labels.size(0)



&#x20;   avg\_loss = running\_loss / total\_samples

&#x20;   accuracy = correct\_predictions / total\_samples



&#x20;   print(f"Evaluation Loss: {avg\_loss:.4f}, Accuracy: {accuracy:.4f}")

&#x20;  &#x20;

&#x20;   return avg\_loss, accuracy

### Descripción de los componentes:

1. **model.eval()**: Pone el modelo en modo de evaluación, lo que desactiva comportamientos como el dropout.

2. **torch.no\_grad()**: Desactiva el cálculo de gradientes, lo que reduce el consumo de memoria y acelera la evaluación.

3. **outputs**: Salida del modelo después de pasar los datos de entrada (inputs).

4. **loss**: Calcula la pérdida utilizando la función de pérdida (criterion), como nn.CrossEntropyLoss.

5. **torch.max(outputs, 1)**: Obtiene las predicciones del modelo seleccionando la clase con la mayor probabilidad.

6. **correct\_predictions**: Suma cuántas predicciones son correctas comparadas con las etiquetas verdaderas.

### Ejemplo de uso:


\# Inicializar el modelo y la función de pérdida

model = MyTextClassifierModel()  # Reemplaza con tu modelo

criterion = nn.CrossEntropyLoss()



\# Llamar a la función de evaluación

evaluate\_model(model, test\_loader, criterion, device="cuda")

Esta función es útil para evaluar el rendimiento del modelo después de su entrenamiento, y proporciona la pérdida promedio y la precisión en el conjunto de evaluación. Puedes utilizarla tanto para validación durante el entrenamiento como para probar el modelo final.

import torch

def evaluate\_model(model, data\_loader, criterion, device):

&#x20;   model.eval()  # Poner el modelo en modo evaluación

&#x20;   running\_loss = 0.0

&#x20;   correct\_predictions = 0

&#x20;   total\_samples = 0

&#x20;   with torch.no\_grad():  # Desactiva el cálculo de gradientes

&#x20;       for inputs, labels in data\_loader:

&#x20;           inputs, labels = inputs.to(device), labels.to(device)

&#x20;           \# Forward pass

&#x20;           outputs = model(inputs)

&#x20;           loss = criterion(outputs, labels)

&#x20;          &#x20;

&#x20;           \# Acumular la pérdida y calcular predicciones correctas

&#x20;           running\_loss += loss.item() \* inputs.size(0)

&#x20;           \_, predicted = torch.max(outputs, 1)

&#x20;           correct\_predictions += (predicted == labels).sum().item()

&#x20;           total\_samples += labels.size(0)

&#x20;   avg\_loss = running\_loss / total\_samples

&#x20;   accuracy = correct\_predictions / total\_samples

&#x20;   print(f"Evaluation Loss: {avg\_loss:.4f}, Accuracy: {accuracy:.4f}")

&#x20;  &#x20;

&#x20;   return avg\_loss, accuracy

\# Inicializar el modelo y la función de pérdida

model = MyTextClassifierModel()  # Reemplaza con tu modelo

criterion = nn.CrossEntropyLoss()

\# Llamar a la función de evaluación

evaluate\_model(model, test\_loader, criterion, device="cuda")

Evaluación de Modelos de Aprendizaje Automático en PyTorch

Fundamentos de PyTorch

Clasificación de Texto con PyTorch y TorchText en Google Colab

Introducción a PyTorch: Ventajas y Comparación con Otros Frameworks

Creación de Modelos de Texto con PyTorch: Clase TextClassifier

Creación y manipulación de tensores en PyTorch

Depuración y operación con tensores en PyTorch

Interacción entre Arrays de NumPy y Tensores de PyTorch

Estructura de modelo de deep learning en PyTorch

Regresión Lineal con PyTorch: Creación y Partición de Datos Artificiales

Modelo de Regresión Lineal en PyTorch: Creación y Predicción

Entrenamiento de Modelos de Regresión Lineal con PyTorch

Entrenamiento y Visualización de Modelos de Regresión Lineal en PyTorch

Inferencia de Modelos en CPU con PyTorch

Redes neuronales con PyTorch

Clasificación de Texto con PyTorch y TorchText en Google Colab

Tokenización y Vocabulario en TorchText para DBpedia

Creación y uso de Data Loaders en PyTorch

Modelo de Clasificación de Texto con PyTorch

Entrenamiento de Modelos de Clasificación con DBpedia Dataset

Evaluación de Modelos de Aprendizaje Automático en PyTorch

Optimización y partición de datasets con PyTorch

Entrenamiento y Evaluación de Modelos en PyTorch

Inferencia con Modelos PyTorch y Torch Compile en Colab

Guardado y carga de modelos en PyTorch con checkpoints

Subida y descarga de modelos en JobinFace Hub

Cargar y Usar Checkpoints en PyTorch para Modelos de Clasificación de Texto

Cierre del curso

Aplicación de PyTorch en Proyectos de IA