Configuración de función de pérdida y optimizadores en redes neuronales

Clase 11 de 15 • Curso de Redes Neuronales Convolucionales

Resumen

¿Sabías que entrenar un modelo de aprendizaje automático para detectar enfermedades como la neumonía es similar a cómo un médico interpreta radiografías? Conocer conceptos claves como la función de pérdida, el optimizador y el scheduler es fundamental para lograr resultados precisos y confiables. A continuación encontrarás información útil sobre cada etapa del proceso y cómo implementarlas correctamente.

¿Qué es la función de pérdida y por qué es importante en el aprendizaje automático?

La función de pérdida, también conocida como loss, indica qué tan erróneas son las predicciones de nuestro modelo. Nuestro objetivo será siempre minimizar esta función, y para diagnosticar neumonía usamos específicamente la cross entropy loss.

¿Por qué usamos cross entropy loss?

Esta función es idónea porque nos permite realizar una clasificación multiclase. Además, aplica internamente la función softmax, que convierte los valores numéricos (logits) en probabilidades fáciles de interpretar.

¿Qué son los logits y etiquetas?

Logits son valores no normalizados que proceden directamente del modelo.
Las etiquetas (labels) representan la clase correcta a la que pertenecen los datos, en este caso, ausencia (0) o presencia (1) de neumonía.

Una vez calculada la probabilidad más alta, aplicamos una función logarítmica para obtener la pérdida exacta.

¿Cómo funcionan el optimizador y el scheduler para mejorar el entrenamiento?

El optimizador permite actualizar los pesos del modelo en cada ciclo, ayudando a mejorar las predicciones. Existen diversos tipos:

SGD (Stochastic Gradient Descent).
ADAN.
RMS-PROP.

Para nuestra tarea específica, seleccionamos el SGD porque es eficaz en clasificaciones multicategoría, aunque ADAN suele ser preferido por su eficiencia computacional.

El scheduler, por otro lado, ajusta dinámicamente la tasa de aprendizaje (learning rate) durante el entrenamiento, haciendo que el modelo converja de manera más eficiente. Por ejemplo, se puede configurar para que cada 7 iteraciones reduzca el valor multiplicándolo por 0.1.

¿Cómo implemento estos conceptos en código con PyTorch?

El proceso práctico usando PyTorch requiere estos pasos:

Importar la librería PyTorch.
Definir los logits (resultado del modelo).
Seleccionar la función cross entropy loss:

import torch
logits = torch.tensor([[0.24, 0.59, 0.09986]])
labels = torch.tensor([1])  # supongamos que la clase real es neumonía
loss_fn = torch.nn.CrossEntropyLoss()
loss = loss_fn(logits, labels)
print(loss)  # Resultado: tensor(0.4170)

Durante cada iteración, el optimizador actualiza los pesos para reducir la pérdida, haciendo que la precisión (accuracy) vaya incrementándose.

¿Qué resultados puedo esperar del entrenamiento?

A medida que avanzan las iteraciones (epochs), la función de pérdida disminuye progresivamente y la precisión del modelo aumenta. Es común obtener resultados superiores al 70% de accuracy, considerados generalmente buenos en la industria.

Tras entrenar, puedes evaluar tus modelos visualizando cómo identifica imágenes nuevas en comparación con la etiqueta real asignada.

¿Te interesa entrenar tu propio modelo o tienes alguna duda sobre cómo implementar estos conceptos? Deja tu comentario y sigamos aprendiendo juntos.