Bucle de entrenamiento con SGD en PyTorch

Curso de Redes Neuronales con PyTorch

Contenido del curso

Fundamentos de PyTorch

Estructura de modelo de deep learning en PyTorch

Redes neuronales con PyTorch

Cierre del curso

24
Qué aprendiste en el curso de PyTorch
01:13 min

Tomar examen

Bucle de entrenamiento con SGD en PyTorch

Resumen

Entrenar un modelo de regresión lineal en PyTorch implica elegir una función de pérdida, configurar un optimizador y construir un bucle de entrenamiento que actualice los parámetros con cada época. Si estás dando tus primeros pasos en deep learning, este flujo te servirá como base para modelos más complejos.

La idea es simple: defines cómo medir el error, escoges un algoritmo que ajuste los pesos y dejas que el modelo aprenda iterando sobre los datos. PyTorch te entrega los bloques listos a través de torch.nn y torch.optim.

Qué función de pérdida usar para regresión lineal

La función de pérdida es la fórmula que mide qué tan lejos están tus predicciones de los valores reales. En PyTorch tienes acceso a un catálogo amplio dentro del módulo nn, y la documentación oficial muestra la definición matemática, los parámetros y ejemplos de uso de cada una.

Para este caso usamos torch.nn.L1Loss, también conocida como Mean Absolute Error (MAE). Funciona muy bien con datos tabulares, una X y una Y claras, y valores continuos como los que tenemos aquí [02:55].

¿Qué es L1Loss en PyTorch? Es una función de pérdida que calcula el promedio de la diferencia absoluta entre las predicciones y los valores reales. Se usa comúnmente en problemas de regresión con valores continuos.

python fn_perdida = torch.nn.L1Loss()

Por qué importa elegir bien la pérdida

La función de pérdida define qué significa "mejorar" para tu modelo. Si la eliges mal, el modelo puede entrenar bien numéricamente pero resolver el problema equivocado. Por eso vale la pena revisar la documentación antes de comprometerte con una sola opción.

Cómo configurar el optimizador SGD y la tasa de aprendizaje

El optimizador es el algoritmo que ajusta los pesos del modelo en cada paso. Aquí usamos Stochastic Gradient Descent (SGD) desde torch.optim, porque es el más típico y un buen punto de partida [03:35].

El SGD necesita dos cosas: los parámetros que va a optimizar y una tasa de aprendizaje (learning rate). La tasa de aprendizaje controla qué tan agresivo es cada cambio.

Si es muy alta, el modelo da saltos grandes y puede salirse del mínimo que buscas.
Si es muy baja, el modelo mejora lento y tal vez no llegue a tiempo.
Una buena práctica es comenzar con 0.01 y experimentar desde ahí.

python optimizador = torch.optim.SGD(params=model_1.parameters(), lr=0.01)

¿Qué es la tasa de aprendizaje? Es un hiperparámetro que define cuánto cambian los pesos del modelo en cada actualización del gradiente. Valores típicos arrancan en 0.01 y se ajustan por prueba y error.

La tasa de aprendizaje y el número de épocas son hiperparámetros, no se aprenden: tú los defines y los ajustas según el comportamiento del modelo.

Cuáles son los pasos del bucle de entrenamiento en PyTorch

Antes de entrenar, fijamos la semilla con torch.manual_seed(42) para obtener resultados reproducibles, definimos epocas = 100 y creamos dos listas vacías para registrar la pérdida de entrenamiento y la de prueba en cada vuelta [05:20].

Una época es una pasada completa por los datos de entrenamiento. Con 100 épocas, el modelo verá los datos cien veces y ajustará sus pesos en cada una.

Los cinco pasos dentro de cada época

Dentro del bucle for epoca in range(epocas), el entrenamiento sigue una secuencia fija que conviene memorizar:

Pon el modelo en modo entrenamiento con model_1.train(). Esto activa el cálculo de gradientes.
Calcula la predicción con y_pred = model_1(X_train). Internamente PyTorch ejecuta el método forward.
Calcula la pérdida comparando predicción contra valores reales: perdida = fn_perdida(y_pred, y_train).
Reinicia los gradientes con optimizador.zero_grad(). Si no lo haces, los gradientes se acumulan de épocas anteriores y contaminan el cálculo.
Ejecuta perdida.backward() para calcular los nuevos gradientes vía retropropagación, y luego optimizador.step() para que el SGD aplique la actualización a los pesos.

python model_1.train() y_pred = model_1(X_train) perdida = fn_perdida(y_pred, y_train) optimizador.zero_grad() perdida.backward() optimizador.step()

El paso backward saca la derivada de la pérdida respecto a los parámetros: te dice si la pérdida sube o baja cuando mueves cada peso. El step usa esa información junto con la tasa de aprendizaje para acercarte a un punto donde la pérdida sea menor [08:10].

Cómo evaluar el modelo en cada época

Después de entrenar, cambias el modelo a modo evaluación con model_1.eval(). En este modo ya no se calculan gradientes, solo haces inferencia [09:15].

Generas predicciones con los datos de prueba: prueba_pred = model_1(X_test).
Calculas la pérdida en prueba comparando contra y_test.
Conviertes los tensores a float para prevenir errores de tipo de datos.

python model_1.eval() prueba_pred = model_1(X_test) perdida_prueba = fn_perdida(prueba_pred, y_test.type(torch.float))

¿Por qué separar entrenamiento y evaluación? Porque en entrenamiento el modelo ajusta pesos usando los datos vistos, mientras que en evaluación mides su desempeño en datos nuevos para detectar si está generalizando o memorizando.

Con estas dos pérdidas guardadas por época, tendrás insumos para graficar cómo desciende el error en entrenamiento y prueba, y detectar si tu modelo está aprendiendo de forma sana o si necesita ajustes en la tasa de aprendizaje, el número de épocas o incluso la función de pérdida.

¿Qué hiperparámetros has tenido que ajustar más en tus propios entrenamientos? Cuéntame en los comentarios.

Mario Alexander Vargas Celis

Estudiante

En PyTorch, el proceso de entrenamiento de un modelo implica definir una **función de pérdida** (loss function) y un **optimizador**, que se encargan de actualizar los pesos del modelo en función del error entre las predicciones del modelo y los valores reales. Aquí te explico cada uno de estos elementos y te doy un ejemplo práctico.

### Entrenamiento en PyTorch: Conceptos Clave

1. **Función de Pérdida (Loss Function):**

La función de pérdida mide la diferencia entre las predicciones del modelo y los valores verdaderos. Su valor se minimiza durante el entrenamiento. Algunas funciones comunes son:

- nn.MSELoss: Para problemas de regresión (Minimiza el error cuadrático medio).

- nn.CrossEntropyLoss: Para problemas de clasificación múltiple.

- nn.BCELoss: Para problemas de clasificación binaria.

2. **Optimizador:**

El optimizador es el algoritmo que ajusta los pesos del modelo para reducir la función de pérdida. Un optimizador popular es **Stochastic Gradient Descent (SGD)**, pero PyTorch también ofrece otros optimizadores como **Adam**.

- torch.optim.SGD: Descenso de gradiente estocástico.

- torch.optim.Adam: Un optimizador más avanzado, que a menudo funciona mejor en redes más complejas.

3. **Ciclo de Entrenamiento:**

- **Paso 1:** Pasar los datos de entrada a través del modelo.

- **Paso 2:** Calcular la pérdida entre las predicciones y los valores reales.

- **Paso 3:** Retropropagar el error (backpropagation).

- **Paso 4:** Actualizar los pesos utilizando el optimizador.

### Ejemplo Completo

Este es un ejemplo de entrenamiento de un modelo simple con una función de pérdida y un optimizador.


import torch

import torch.nn as nn

import torch.optim as optim



\# Definición del modelo (similar al ejemplo anterior)

class SimpleNN(nn.Module):

&#x20;   def \_\_init\_\_(self, input\_size, hidden\_size, output\_size):

&#x20;       super(SimpleNN, self).\_\_init\_\_()

&#x20;       self.fc1 = nn.Linear(input\_size, hidden\_size)  # Capa oculta

&#x20;       self.fc2 = nn.Linear(hidden\_size, output\_size)  # Capa de salida

&#x20;       self.relu = nn.ReLU()  # Función de activación ReLU



&#x20;   def forward(self, x):

&#x20;       x = self.fc1(x)

&#x20;       x = self.relu(x)

&#x20;       x = self.fc2(x)

&#x20;       return x



\# Parámetros del modelo

input\_size = 10

hidden\_size = 5

output\_size = 1

learning\_rate = 0.01



\# Crear una instancia del modelo

model = SimpleNN(input\_size, hidden\_size, output\_size)



\# Definir la función de pérdida y el optimizador

criterion = nn.MSELoss()  # Pérdida para regresión

optimizer = optim.SGD(model.parameters(), lr=learning\_rate)  # Optimizador SGD



\# Datos ficticios para entrenamiento

inputs = torch.randn(100, input\_size)  # 100 ejemplos, 10 características

targets = torch.randn(100, output\_size)  # 100 etiquetas de salida



\# Entrenamiento del modelo

num\_epochs = 100



for epoch in range(num\_epochs):

&#x20;   \# Paso hacia adelante (Forward pass): calcular predicciones

&#x20;   outputs = model(inputs)

&#x20;  &#x20;

&#x20;   \# Calcular la pérdida

&#x20;   loss = criterion(outputs, targets)

&#x20;  &#x20;

&#x20;   \# Paso hacia atrás (Backward pass): retropropagación

&#x20;   optimizer.zero\_grad()  # Resetear los gradientes

&#x20;   loss.backward()  # Calcular los gradientes

&#x20;  &#x20;

&#x20;   \# Actualizar los pesos

&#x20;   optimizer.step()  # Actualizar los parámetros del modelo

&#x20;  &#x20;

&#x20;   \# Imprimir la pérdida en intervalos

&#x20;   if (epoch+1) % 10 == 0:

&#x20;       print(f'Epoch \[{epoch+1}/{num\_epochs}], Loss: {loss.item():.4f}')



\# Predicción con el modelo entrenado

test\_input = torch.randn(1, input\_size)

predicted\_output = model(test\_input)

print(f'Predicted Output: {predicted\_output}')

### Explicación Paso a Paso

1. **Modelo:** Usamos una red neuronal simple con una capa oculta y una función de activación ReLU.

2. **Función de pérdida (criterion):** Se utiliza MSELoss (Error Cuadrático Medio) para este ejemplo de regresión.

3. **Optimizador (optimizer):** Se usa SGD (Stochastic Gradient Descent) con una tasa de aprendizaje de 0.01.

4. **Datos de Entrenamiento:** Generamos datos ficticios aleatorios para los ejemplos y etiquetas.

5. **Ciclo de Entrenamiento:**

- Se calculan las predicciones del modelo.

- Se calcula la pérdida comparando las predicciones con las etiquetas reales.

- Se retropropaga el error para calcular los gradientes.

- Se actualizan los pesos del modelo con el optimizador.

6. **Impresión del Progreso:** Se imprime la pérdida cada 10 épocas.

### Otras Funciones de Pérdida y Optimizadores

#### Funciones de Pérdida Comunes:

- nn.CrossEntropyLoss: Para clasificación múltiple.

- nn.BCELoss: Para clasificación binaria.

#### Optimizadores Comunes:

- torch.optim.Adam: Un optimizador avanzado que usa tasas de aprendizaje adaptativas.

- torch.optim.RMSprop: Similar a Adam, pero con algunas diferencias en cómo actualiza los parámetros.

Este es el flujo básico del entrenamiento de modelos en PyTorch. ¿Te gustaría ver más ejemplos o detalles sobre algún otro optimizador o tipo de función de pérdida?

Platzi

Estudiante

{"Función de Pérdida (Loss Function)":"La función de pérdida mide la diferencia entre las predicciones del modelo y los valores verdaderos.","Optimizador":"El optimizador ajusta los pesos del modelo para reducir la función de pérdida."}

Bucle de entrenamiento con SGD en PyTorch

Fundamentos de PyTorch

Clasificación de Texto con PyTorch y TorchText en Google Colab

Introducción a PyTorch: Ventajas y Comparación con Otros Frameworks

Clasificador de texto con nn.Module en PyTorch

Tensores en PyTorch desde cero

Debuguea tensores en PyTorch sin errores

Operaciones con tensores y conversión NumPy-PyTorch

Estructura de modelo de deep learning en PyTorch

Regresión Lineal con PyTorch: Creación y Partición de Datos Artificiales

Regresión lineal desde cero en PyTorch