Inferencia con torch.compile en PyTorch 2.0

Curso de Redes Neuronales con PyTorch

Contenido del curso

Fundamentos de PyTorch

Estructura de modelo de deep learning en PyTorch

Redes neuronales con PyTorch

Cierre del curso

24
Qué aprendiste en el curso de PyTorch
01:13 min

Tomar examen

Inferencia con torch.compile en PyTorch 2.0

Resumen

Hacer inferencia con un modelo entrenado en PyTorch se vuelve mucho más rápido cuando aprovechas torch.compile, una función introducida en PyTorch 2.0 que optimiza la ejecución del modelo. Aquí verás cómo aplicarla en un clasificador de texto entrenado con DBpedia y cómo traducir las predicciones a etiquetas legibles.

¿Cómo se mapean las etiquetas numéricas a texto legible?

Antes de predecir, necesitas convertir los números que devuelve el modelo en palabras que puedas interpretar.

Para eso se construye un diccionario llamado dbpedia_label que mapea los enteros del 1 al 14 hacia categorías como company, artist o athlete. Estas etiquetas las puedes encontrar en la página oficial del dataset o en repositorios públicos que reutilicen el modelo [01:00].

¿Por qué se suma 1 al índice de la predicción? Porque internamente las clases se manejan del 0 al 13, pero las etiquetas oficiales del dataset van del 1 al 14. Sumar 1 alinea ambos formatos.

¿Qué hace el text pipeline en la inferencia?

El text pipeline recibe una oración y devuelve un tensor de enteros que representa el mapeo de cada token al vocabulario. Sin este paso, el modelo no puede leer texto crudo, solo tensores numéricos.

¿Cómo construir la función predict para inferencia?

La función predict recibe dos argumentos: el texto a clasificar y el text pipeline que lo transforma en tensor.

Dentro de la función, el flujo es así:

Desactivas el cálculo del gradiente, porque ya no estás entrenando.
Conviertes el texto procesado por el pipeline en un tensor de PyTorch.
Pasas ese tensor al modelo optimizado para obtener la salida.
Aplicas argmax sobre las filas para quedarte con la clase de mayor probabilidad.
Extraes el valor con .item() para sacarlo del formato tensor y le sumas 1.

Esa salida final es un número entero que usas como llave en el diccionario dbpedia_label.

¿Qué es opt_mode y por qué se usa esa convención?

opt_mode significa optimized model. Es una convención de nombre que se usa cuando aplicas torch.compile para acelerar entrenamiento o inferencia [02:30]. Mantener esta nomenclatura ayuda a distinguir el modelo original del modelo compilado dentro del mismo script.

¿Qué modos de torch.compile conviene elegir?

La función torch.compile recibe el modelo y un argumento mode que define la estrategia de optimización. Cada modo tiene un balance distinto entre tiempo de compilación, velocidad de ejecución y uso de memoria.

Estos son los dos modos relevantes para este flujo:

reduce-overhead: recomendado para modelos relativamente pequeños. Reduce los costos computacionales y acelera la inferencia, aunque incrementa ligeramente el uso de memoria. La compilación es rápida.
max-autotune: busca la configuración más eficiente posible, lo que da una ejecución más veloz, pero la compilación tarda más. Es la opción para modelos más grandes y no consume memoria extra.

En este caso se usa reduce-overhead porque el clasificador es ligero y conviene priorizar una compilación ágil.

¿Qué es torch.compile? Es una función de PyTorch 2.0 que toma un modelo y lo recompila para ejecutarse más rápido. Aplica optimizaciones automáticas según el modo que elijas, sin que tengas que reescribir tu arquitectura.

¿Por qué pasar el modelo a CPU para inferencia?

Entrenar exige GPU por el costo computacional, pero predecir un solo ejemplo no lo necesita. Mover el modelo a CPU con model.to('cpu') reduce el costo de infraestructura sin afectar el resultado [05:40]. No es obligatorio, pero sí recomendado.

¿Cómo se ejecuta una predicción real con el modelo optimizado?

Dentro de predict, la salida se calcula así: opt_mode(text, torch.tensor([0])). Ese segundo argumento es el offset, que en clasificación de un solo texto siempre arranca en cero.

El resultado se procesa con output.argmax(1).item() + 1 para obtener la etiqueta numérica, y luego se consulta dbpedia_label[indice] para imprimir la categoría en inglés.

Al probar con un ejemplo que describe un pueblo llamado Nizari en la India, el modelo devuelve la etiqueta número 9, que corresponde a village [07:20]. La predicción coincide con el contenido real del texto, lo que confirma que el clasificador generaliza correctamente.

¿Qué hacer si aparece un error con el nombre del modo?

Un error común al usar torch.compile es escribir reduce_overhead con guion bajo en lugar de reduce-overhead con guion intermedio. PyTorch no reconoce el modo y lanza una excepción. Revisa siempre la sintaxis exacta de los modos disponibles.

¿Cómo mejorar los resultados del modelo?

Si notas que las predicciones fallan en ciertos casos, tienes varias palancas para experimentar:

Aumenta el número de epochs durante el entrenamiento.
Incrementa el volumen de ejemplos del dataset.
Modifica la arquitectura cambiando el número de capas del modelo.
Prueba con textos de distintas categorías para detectar dónde falla.

Cuéntame en los comentarios qué ajustes vas a probar primero y qué resultados obtienes con tu propio clasificador.

Mario Alexander Vargas Celis

Estudiante

En PyTorch 2.X, se introduce torch.compile(), que optimiza el modelo utilizando compiladores JIT (just-in-time) como parte de su proceso de inferencia y entrenamiento. Esto permite una ejecución más rápida al aplicar optimizaciones como fusión de operadores, eliminación de código redundante, y otras mejoras a nivel de rendimiento. La idea es que puedas aprovechar este tipo de optimización con solo una línea adicional en tu código.

Aquí te muestro cómo puedes usar torch.compile() en la **inferencia** de un modelo de clasificación de texto con PyTorch 2.X.

### Paso 1: Configuración del modelo

Supongamos que ya tienes un modelo entrenado de clasificación de texto como en el ejemplo anterior:


\# Modelo de clasificación de texto

class TextClassificationModel(nn.Module):

&#x20;   def \_\_init\_\_(self, vocab\_size, embed\_dim, num\_class):

&#x20;       super(TextClassificationModel, self).\_\_init\_\_()

&#x20;       self.embedding = nn.EmbeddingBag(vocab\_size, embed\_dim, sparse=True)

&#x20;       self.fc = nn.Linear(embed\_dim, num\_class)

&#x20;       self.init\_weights()



&#x20;   def init\_weights(self):

&#x20;       initrange = 0.5

&#x20;       self.embedding.weight.data.uniform\_(-initrange, initrange)

&#x20;       self.fc.weight.data.uniform\_(-initrange, initrange)

&#x20;       self.fc.bias.data.zero\_()



&#x20;   def forward(self, text, offsets):

&#x20;       embedded = self.embedding(text, offsets)

&#x20;       return self.fc(embedded)



\# Definimos el vocabulario y las dimensiones del modelo

VOCAB\_SIZE = len(vocab)

EMBED\_DIM = 64

NUM\_CLASS = len(set(\[label for (label, text) in train\_iter]))



model = TextClassificationModel(VOCAB\_SIZE, EMBED\_DIM, NUM\_CLASS)

### Paso 2: Optimización del modelo para inferencia con torch.compile()

Con PyTorch 2.X, puedes mejorar la inferencia compilando el modelo de manera directa con torch.compile():


import torch



\# Compilación del modelo para optimización

compiled\_model = torch.compile(model)



\# Asumiendo que tienes un tensor de entrada para la inferencia

\# Ejemplo: texto de entrada tokenizado y convertidos a tensores

def predict(text, offsets):

&#x20;   \# Colocamos el modelo en modo evaluación

&#x20;   compiled\_model.eval()

&#x20;  &#x20;

&#x20;   with torch.no\_grad():  # Desactivamos la actualización de gradientes

&#x20;       output = compiled\_model(text, offsets)

&#x20;       return output.argmax(1).item()



\# Simulación de un tensor de texto de prueba

example\_text = torch.tensor(\[1, 2, 3, 4, 5], dtype=torch.int64)  # Un ejemplo tokenizado

example\_offsets = torch.tensor(\[0], dtype=torch.int64)



\# Inferencia optimizada

prediccion = predict(example\_text, example\_offsets)

print(f"Predicción: {prediccion}")

### Paso 3: Entrenamiento también con torch.compile()

Si también quisieras optimizar el **entrenamiento** del modelo, puedes envolver el modelo con torch.compile() de la misma forma:


\# Compilamos el modelo para optimizar el entrenamiento

compiled\_model = torch.compile(model)



\# Entrenamiento con el modelo compilado

for epoch in range(epochs):

&#x20;   train(train\_dataloader, compiled\_model, criterion, optimizer)

&#x20;   acc = evaluate(test\_dataloader, compiled\_model, criterion)

&#x20;   print(f'Epoch {epoch+1}: Test Accuracy: {acc:.4f}')

### Paso 4: Consideraciones

- torch.compile() es especialmente útil para modelos complejos o para ejecutar el modelo en hardware acelerado como GPUs.

- No afecta la precisión del modelo, pero puede mejorar la velocidad de ejecución.

- El compilador JIT subyacente puede aplicar optimizaciones en tiempo de ejecución, lo que hace que la primera ejecución sea más lenta, pero las posteriores sean más rápidas.

### Conclusión

Con PyTorch 2.X y torch.compile(), puedes fácilmente optimizar tu modelo tanto para **inferencia** como para **entrenamiento** con cambios mínimos en el código. Esta nueva característica facilita la integración de optimizaciones a nivel de compilador sin necesidad de reescribir todo el modelo o flujo de datos.

Inferencia con torch.compile en PyTorch 2.0

Fundamentos de PyTorch

Clasificación de Texto con PyTorch y TorchText en Google Colab

Introducción a PyTorch: Ventajas y Comparación con Otros Frameworks

Clasificador de texto con nn.Module en PyTorch

Tensores en PyTorch desde cero

Debuguea tensores en PyTorch sin errores

Operaciones con tensores y conversión NumPy-PyTorch

Estructura de modelo de deep learning en PyTorch

Regresión Lineal con PyTorch: Creación y Partición de Datos Artificiales

Regresión lineal desde cero en PyTorch

Bucle de entrenamiento con SGD en PyTorch

Entrenamiento y Visualización de Modelos de Regresión Lineal en PyTorch

Inferencia y predicciones con PyTorch

Redes neuronales con PyTorch

Clasificación de texto con TorchText y DBpedia

Tokenización y Vocabulario en TorchText para DBpedia

DataLoader y collate function en PyTorch

Arquitectura de clasificación de texto en PyTorch

Entrenamiento de Modelos de Clasificación con DBpedia Dataset

Evaluación de Modelos de Aprendizaje Automático en PyTorch

Optimizador y splits de datos en PyTorch

Entrenamiento y Evaluación de Modelos en PyTorch