Optimizador y splits de datos en PyTorch

Curso de Redes Neuronales con PyTorch

Contenido del curso

Fundamentos de PyTorch

Estructura de modelo de deep learning en PyTorch

Redes neuronales con PyTorch

Cierre del curso

24
Qué aprendiste en el curso de PyTorch
01:13 min

Tomar examen

Optimizador y splits de datos en PyTorch

Resumen

Antes de entrenar un modelo de clasificación de texto en PyTorch necesitas tres piezas que muchas veces se pasan por alto: los hiperparámetros, el optimizador con su función de pérdida y una división correcta del dataset en entrenamiento, validación y prueba. Sin esto, tu red neuronal no tiene cómo aprender ni cómo medirse.

Aquí te muestro cómo configurarlas paso a paso usando DBpedia, CrossEntropyLoss y Stochastic Gradient Descent, con código pensado para ejecutarse en Colab con GPU.

Qué hiperparámetros necesitas antes de entrenar

Los hiperparámetros son valores que tú defines y que afectan cómo aprende tu modelo. No los aprende la red, los eliges tú y los ajustas con experimentación.

En esta configuración trabajamos con tres [00:32]:

Épocas: 3. Es un número conservador porque el GPU de Colab es pequeño y los datos mejoran rápido. Si quitas o agregas una época puedes ver cómo cambia el accuracy y la pérdida.
Tasa de aprendizaje: 0.2. Un valor agresivo que ha funcionado bien en otros modelos. Puedes probar 0.1 (tradicional) o 0.3 (más agresivo) y comparar resultados.
Tamaño del batch: 64. Antes usamos 8 como ejemplo, pero con GPU disponible podemos aprovechar lotes más grandes. Cuanto más grande el batch, más memoria GPU necesitas.

¿Qué es un hiperparámetro en deep learning? Es un valor que defines manualmente antes de entrenar, como la tasa de aprendizaje o el número de épocas. No se ajusta durante el entrenamiento, lo ajustas tú mediante experimentación.

Cómo defines el criterio y el optimizador en PyTorch

El criterio es la función de pérdida y el optimizador es el algoritmo que ajusta los pesos del modelo. Por convención en Python, a la función de pérdida se le llama criterion y al optimizador optimizer [02:15].

Para clasificación multiclase usamos CrossEntropyLoss, que vive en torch.nn. Si quieres experimentar con otras como L1Loss o MSELoss, todas están listadas en la documentación oficial de PyTorch.

python criterion = torch.nn.CrossEntropyLoss() optimizer = torch.optim.SGD(model.parameters(), lr=tasa_aprendizaje)

El optimizador Stochastic Gradient Descent (SGD) es el más usado y suele ser una buena elección por defecto. Recibe los parámetros del modelo (model.parameters()) y la tasa de aprendizaje. Si tus datos responden mejor a otro algoritmo, puedes probar Adam, RMSprop u otros disponibles en torch.optim.

¿Por qué se usa CrossEntropyLoss para clasificación? Porque mide la diferencia entre la distribución de probabilidad predicha y la real, lo que la hace ideal cuando tu modelo debe elegir entre varias clases.

Cómo divides un dataset en entrenamiento, validación y prueba

DBpedia te entrega dos datasets: train y test. Pero un flujo robusto necesita tres conjuntos. La validación te permite ajustar hiperparámetros sin contaminar el set de prueba final [03:50].

Qué hace ToMapStyleDataset y por qué lo necesitas

Los datasets que entrega DBpedia son iteradores. Para que el DataLoader de PyTorch los pueda mezclar y dividir en batches, necesitas convertirlos a formato map-style. Eso lo hace to_map_style_dataset de torchtext.

python from torch.utils.data.dataset import random_split from torchtext.data.functional import to_map_style_dataset

train_iter, test_iter = DBpedia() train_dataset = to_map_style_dataset(train_iter) test_dataset = to_map_style_dataset(test_iter)

Cómo aplicar random_split para crear el set de validación

De los datos de entrenamiento, separas el 95% para entrenar y el 5% para validar. Primero calculas cuántos ejemplos representa ese 95% y luego usas random_split para dividir aleatoriamente.

python num_train = int(len(train_dataset) * 0.95) split_train, split_valid = random_split( train_dataset, [num_train, len(train_dataset) - num_train] )

La resta len(train_dataset) - num_train te garantiza que los dos pedazos sumen exactamente el total, sin errores de redondeo.

Cómo creas los DataLoaders para entrenar, validar y probar

Un DataLoader es la estructura que alimenta tu modelo durante el entrenamiento. Mezcla los datos, los divide en lotes y los entrega listos para procesar.

Necesitas tres, uno por cada split [06:40]:

python train_dataloader = DataLoader( split_train, batch_size=batch_tamano, shuffle=True, collate_fn=collate_batch ) valid_dataloader = DataLoader( split_valid, batch_size=batch_tamano, shuffle=True, collate_fn=collate_batch ) test_dataloader = DataLoader( test_dataset, batch_size=batch_tamano, shuffle=True, collate_fn=collate_batch )

Fíjate en tres detalles importantes:

shuffle=True mezcla los datos aleatoriamente en cada época, lo que evita que el modelo aprenda patrones del orden.
collate_fn=collate_batch aplica la función de preprocesamiento que ya habíamos definido para tokenizar y armar tensores.
El test_dataloader usa test_dataset directamente, no un split, porque DBpedia ya lo entrega separado.

¿Para qué sirve el set de validación? Para ajustar hiperparámetros y monitorear si el modelo está sobreajustando, sin tocar el set de prueba que reservas para la evaluación final.

Con el criterio definido, el optimizador listo y los tres DataLoaders preparados, ya tienes toda la infraestructura para entrenar tu red neuronal. ¿Qué tasa de aprendizaje vas a probar primero, 0.1, 0.2 o 0.3? Cuéntame en los comentarios qué resultados obtienes.

Sebastián Franco

Estudiante

Hablemos de los estilos de datasets

Hoy tuve la pregunta de por qué debemos hacer switch de estilo de dataset desde iter hacia map, y eso me llevó a estudiar qué es cada estilo y por qué se usa.

map-style dataset

Este es el estilo de dataset más conocido, donde tenemos un dataset X con 10.000 ejemplos y podemos acceder arbitrariamente (o también llamado aleatoriamente) a cualquiera con la sintaxis X[n].

Este estilo de dataset demanda en la clase base implementar los métodos getitem y len para funcionar. Una limitante es que se debe conocer el tamaño del dataset, pero a cambio podemos acceder a los ejemplos a voluntad.

iter-style dataset

Este tipo de dataset está pensado para grandes volúmenes de datos y es el que encontramos en este proyecto.

Este estilo de dataset implica la implementación del método iter que será un generador de elementos.

La gran ventaja es que este estilo es agnóstico del tamaño, por lo que virtualmente podríamos usar datos de tamaño infinito y no tendríamos problemas en la carga de memoria, sin embargo, no podremos acceder a los ejemplos a voluntad como en el primer caso.

¿Por qué cambiamos de estilo?

Aquí me voy a remitir a la clase 13, donde hemos cargado los vocabularios y tokens. Para acortar, la función build_vocab espera un ITERADOR, y este es el formato natural de nuestro dataset, por lo que podemos alimentarlo sin mayor problema, sin embargo, cuando vamos a implementar los DataLoader en esta clase debemos cambiarlo.

La razón del cambio es que el objeto DataLoader espera por defecto un dataset del tipo map y no iter, si bien puede aceptarlo, es cierto que podrían encontrarse problemas de compabilidad, por lo que requerimos cambiar el estilo.

En resumen

En resumen, el dataset tipo iterador nos ha servido para crear nuestros tokens y vocabularios, pero debemos cambiarlo a un dataset tipo map para poder cargar los datos "nativamente" y posteriormente splitearlos.

from torch.utils.data import random\_split

\# Supongamos que tienes un dataset llamado `dataset`

train\_size = int(0.8 \* len(dataset))  # 80% para entrenamiento

val\_size = len(dataset) - train\_size   # 20% para validación

\# Dividir el dataset

train\_dataset, val\_dataset = random\_split(dataset, \[train\_size, val\_size])

from torch.utils.data import DataLoader

\# Crear DataLoaders para entrenamiento y validación

train\_loader = DataLoader(train\_dataset, batch\_size=32, shuffle=True)

val\_loader = DataLoader(val\_dataset, batch\_size=32, shuffle=False)

def train\_model(model, train\_loader, val\_loader, criterion, optimizer, num\_epochs, device):

&#x20;   model = model.to(device)

&#x20;   for epoch in range(num\_epochs):

&#x20;       model.train()  # Poner el modelo en modo de entrenamiento

&#x20;       running\_loss = 0.0

&#x20;       correct\_predictions = 0

&#x20;       total\_samples = 0

&#x20;       for inputs, labels in train\_loader:

&#x20;           inputs, labels = inputs.to(device), labels.to(device)

&#x20;           \# Forward pass

&#x20;           outputs = model(inputs)

&#x20;           loss = criterion(outputs, labels)

&#x20;           \# Backward pass y optimización

&#x20;           optimizer.zero\_grad()

&#x20;           loss.backward()

&#x20;           optimizer.step()

&#x20;           running\_loss += loss.item() \* inputs.size(0)

&#x20;           \_, predicted = torch.max(outputs, 1)

&#x20;           correct\_predictions += (predicted == labels).sum().item()

&#x20;           total\_samples += labels.size(0)

&#x20;       avg\_train\_loss = running\_loss / total\_samples

&#x20;       train\_accuracy = correct\_predictions / total\_samples

&#x20;       print(f"Epoch {epoch+1}/{num\_epochs}, Loss: {avg\_train\_loss:.4f}, Accuracy: {train\_accuracy:.4f}")

&#x20;       \# Validación después de cada epoch

&#x20;       validate\_model(model, val\_loader, criterion, device)

def validate\_model(model, val\_loader, criterion, device):

&#x20;   model.eval()  # Poner el modelo en modo evaluación

&#x20;   running\_loss = 0.0

&#x20;   correct\_predictions = 0

&#x20;   total\_samples = 0

&#x20;   with torch.no\_grad():  # No calcular gradientes en validación

&#x20;       for inputs, labels in val\_loader:

&#x20;           inputs, labels = inputs.to(device), labels.to(device)

&#x20;           outputs = model(inputs)

&#x20;           loss = criterion(outputs, labels)

&#x20;           running\_loss += loss.item() \* inputs.size(0)

&#x20;           \_, predicted = torch.max(outputs, 1)

&#x20;           correct\_predictions += (predicted == labels).sum().item()

&#x20;           total\_samples += labels.size(0)

&#x20;   avg\_val\_loss = running\_loss / total\_samples

&#x20;   val\_accuracy = correct\_predictions / total\_samples

&#x20;   print(f"Validation Loss: {avg\_val\_loss:.4f}, Validation Accuracy: {val\_accuracy:.4f}")

from torch.utils.data import random\_split

\# Supongamos que tienes un dataset llamado `dataset`

train\_size = int(0.8 \* len(dataset))  # 80% para entrenamiento

val\_size = len(dataset) - train\_size   # 20% para validación

\# Dividir el dataset

train\_dataset, val\_dataset = random\_split(dataset, \[train\_size, val\_size])

from torch.utils.data import DataLoader

\# Crear DataLoaders para entrenamiento y validación

train\_loader = DataLoader(train\_dataset, batch\_size=32, shuffle=True)

val\_loader = DataLoader(val\_dataset, batch\_size=32, shuffle=False)

def train\_model(model, train\_loader, val\_loader, criterion, optimizer, num\_epochs, device):

&#x20;   model = model.to(device)

&#x20;   for epoch in range(num\_epochs):

&#x20;       model.train()  # Poner el modelo en modo de entrenamiento

&#x20;       running\_loss = 0.0

&#x20;       correct\_predictions = 0

&#x20;       total\_samples = 0

&#x20;       for inputs, labels in train\_loader:

&#x20;           inputs, labels = inputs.to(device), labels.to(device)

&#x20;           \# Forward pass

&#x20;           outputs = model(inputs)

&#x20;           loss = criterion(outputs, labels)

&#x20;           \# Backward pass y optimización

&#x20;           optimizer.zero\_grad()

&#x20;           loss.backward()

&#x20;           optimizer.step()

&#x20;           running\_loss += loss.item() \* inputs.size(0)

&#x20;           \_, predicted = torch.max(outputs, 1)

&#x20;           correct\_predictions += (predicted == labels).sum().item()

&#x20;           total\_samples += labels.size(0)

&#x20;       avg\_train\_loss = running\_loss / total\_samples

&#x20;       train\_accuracy = correct\_predictions / total\_samples

&#x20;       print(f"Epoch {epoch+1}/{num\_epochs}, Loss: {avg\_train\_loss:.4f}, Accuracy: {train\_accuracy:.4f}")

&#x20;       \# Validación después de cada epoch

&#x20;       validate\_model(model, val\_loader, criterion, device)

def validate\_model(model, val\_loader, criterion, device):

&#x20;   model.eval()  # Poner el modelo en modo evaluación

&#x20;   running\_loss = 0.0

&#x20;   correct\_predictions = 0

&#x20;   total\_samples = 0

&#x20;   with torch.no\_grad():  # No calcular gradientes en validación

&#x20;       for inputs, labels in val\_loader:

&#x20;           inputs, labels = inputs.to(device), labels.to(device)

&#x20;           outputs = model(inputs)

&#x20;           loss = criterion(outputs, labels)

&#x20;           running\_loss += loss.item() \* inputs.size(0)

&#x20;           \_, predicted = torch.max(outputs, 1)

&#x20;           correct\_predictions += (predicted == labels).sum().item()

&#x20;           total\_samples += labels.size(0)

&#x20;   avg\_val\_loss = running\_loss / total\_samples

&#x20;   val\_accuracy = correct\_predictions / total\_samples

&#x20;   print(f"Validation Loss: {avg\_val\_loss:.4f}, Validation Accuracy: {val\_accuracy:.4f}")

Optimizador y splits de datos en PyTorch

Fundamentos de PyTorch

Clasificación de Texto con PyTorch y TorchText en Google Colab

Introducción a PyTorch: Ventajas y Comparación con Otros Frameworks

Clasificador de texto con nn.Module en PyTorch

Tensores en PyTorch desde cero

Debuguea tensores en PyTorch sin errores

Operaciones con tensores y conversión NumPy-PyTorch

Estructura de modelo de deep learning en PyTorch

Regresión Lineal con PyTorch: Creación y Partición de Datos Artificiales

Regresión lineal desde cero en PyTorch

Bucle de entrenamiento con SGD en PyTorch

Entrenamiento y Visualización de Modelos de Regresión Lineal en PyTorch

Inferencia y predicciones con PyTorch

Redes neuronales con PyTorch

Clasificación de texto con TorchText y DBpedia

Tokenización y Vocabulario en TorchText para DBpedia

DataLoader y collate function en PyTorch

Arquitectura de clasificación de texto en PyTorch

Entrenamiento de Modelos de Clasificación con DBpedia Dataset

Evaluación de Modelos de Aprendizaje Automático en PyTorch