Arquitectura de clasificación de texto en PyTorch

Curso de Redes Neuronales con PyTorch

Contenido del curso

Fundamentos de PyTorch

Estructura de modelo de deep learning en PyTorch

Redes neuronales con PyTorch

Cierre del curso

24
Qué aprendiste en el curso de PyTorch
01:13 min

Tomar examen

Arquitectura de clasificación de texto en PyTorch

Resumen

Construir un modelo de clasificación de texto en PyTorch implica ensamblar capas como bloques de Lego: un embedding, una normalización por lotes y una capa lineal final. Aprenderás a definir esta arquitectura paso a paso, entender por qué cada componente importa y cómo inicializar el modelo con los hiperparámetros correctos. Es ideal si ya diste tus primeros pasos con PyTorch y quieres construir un modelo real, pequeño pero eficiente.

Qué librerías necesitas para crear el modelo de clasificación

Antes de escribir la clase, necesitas tres importaciones clave en tu notebook de Google Colab [00:25].

torch: el núcleo del framework.
torch.nn: el módulo con clases listas para construir redes neuronales.
torch.nn.functional: contiene funciones de bajo nivel que sirven de base para las clases de nn. Por convención se importa con el alias F.

La diferencia es importante. La clase Linear, por ejemplo, se construye internamente con funciones de functional. En este modelo usarás F específicamente para aplicar la función de activación ReLU sobre los tensores normalizados.

¿Qué es torch.nn.functional? Es un módulo de PyTorch con funciones fundamentales (como ReLU, softmax o convoluciones) que las clases de nn usan por debajo. Te da control fino cuando quieres aplicar una operación sin instanciar una capa completa.

Cómo se define la arquitectura del modelo paso a paso

La clase ModeloClasificacionTexto hereda de nn.Module, igual que en clases anteriores, pero esta vez ensambla un modelo real [01:10].

En el __init__ pides al usuario cuatro datos al inicializar: el tamaño del vocabulario (vocab_size), las dimensiones del embedding (embed_dim) y el número de clases (num_class). Con esos parámetros defines tres bloques.

Qué hace cada bloque de la red neuronal

Capa de embedding con nn.EmbeddingBag(vocab_size, embed_dim): convierte tokens en vectores densos [02:30].
Batch normalization con nn.BatchNorm1d(embed_dim): normaliza los vectores del embedding [03:00].
Capa fully connected con nn.Linear(embed_dim, num_class): proyecta las dimensiones del embedding al número final de clases [04:20].

La capa lineal es la que hace la magia de la clasificación. Si tu embedding tiene 100 dimensiones y tienes 14 clases, esta capa proyecta de 100 a 14, donde cada dimensión final representa una clase posible.

Por qué usar batch normalization en tu modelo

Normalizar significa tomar un grupo de datos, calcular su media y varianza, y transformarlos a media cero y varianza uno. Esto compacta valores muy grandes o muy pequeños y trae tres beneficios concretos.

Acelera el entrenamiento.
Hace el procesamiento más eficiente.
Tiene un efecto regularizador que ayuda a prevenir overfitting.

Por eso encontrarás batch normalization en prácticamente todos los modelos modernos.

¿Qué es normalizar en deep learning? Es transformar un grupo de tensores para que tengan media cero y varianza uno. Compacta los datos, acelera el entrenamiento y reduce el riesgo de sobreajuste.

Cómo conectar las capas en el método forward

El método forward define el flujo real de los datos a través de los bloques [05:40]. Recibe dos argumentos del usuario: text y offsets, este último indica dónde inicia cada nuevo texto dentro del tensor.

El flujo es así:

embedded = self.embedding(text, offsets) aplica el embedding.
embedded_norm = self.bn1(embedded) normaliza por lotes.
embedded_activated = F.relu(embedded_norm) aplica la no linealidad ReLU.
return self.fc(embedded_activated) proyecta a las clases finales.

La función ReLU introduce no linealidad y permite que la red aprenda patrones más complejos que una simple combinación lineal.

Cómo inicializar el modelo con los hiperparámetros correctos

Para instanciar el modelo necesitas calcular tres valores a partir del dataset DBpedia [07:50].

num_class: lo obtienes con len(set([label for label, text in train_iter])). Itera todo el split de entrenamiento, extrae cada etiqueta, las mete en un set para eliminar duplicados y mide su longitud. Para DBpedia el resultado son 14 clases.
vocab_size: es simplemente len(vocab), donde vocab se definió antes. En este caso da 802 mil elementos, que incluyen palabras y símbolos [09:30].
embedding_size: es un hiperparámetro que tú eliges. Aquí se usa 100 por velocidad, aunque modelos como BERT usan 768. Puedes ajustarlo después con fine tuning.

Con esos tres valores ya puedes ejecutar modelo = ModeloClasificacionTexto(vocab_size, embedding_size, num_class).to(device) para enviarlo a GPU si está disponible o a CPU.

Cómo contar los parámetros entrenables del modelo

Una función reutilizable que vale la pena tener en todos tus proyectos cuenta los parámetros entrenables [11:20]. La lógica es simple: itera sobre model.parameters(), filtra solo los que tienen requires_grad=True y suma p.numel() de cada uno.

Tener gradiente es sinónimo de ser entrenable. Si un parámetro no requiere gradiente, no se actualiza durante el entrenamiento.

Al imprimir el resultado con un formato limpio (separando miles con coma), descubres que el modelo tiene 80 millones de parámetros entrenables. Es un modelo grande, aunque dentro del mundo del deep learning moderno todavía se considera relativamente pequeño y muy eficiente para lo que ofrece.

¿Qué significa que un parámetro sea entrenable? Que tiene requires_grad=True y, por lo tanto, se actualiza durante el backpropagation. Solo esos parámetros cuentan para medir el tamaño real de aprendizaje del modelo.

¿Cómo se compara este modelo con la regresión lineal o el Hello PyTorch que construiste antes? ¿Qué capas extra le agregarías: más normalización, una LSTM, dropout? Déjalo en los comentarios.

Mario Alexander Vargas Celis

Estudiante

Para crear un modelo de clasificación de texto utilizando PyTorch, puedes seguir un enfoque basado en redes neuronales. Aquí te mostraré cómo construir un modelo simple de clasificación de texto utilizando una red neuronal totalmente conectada (fully connected neural network) con torch.nn. Este ejemplo utilizará el conjunto de datos AG News, pero puedes adaptarlo a cualquier conjunto de datos que estés utilizando.

### Paso 1: Importar las librerías necesarias


import torch

import torch.nn as nn

import torch.optim as optim

from torchtext.datasets import AG\_NEWS

from torchtext.data.utils import get\_tokenizer

from torchtext.vocab import build\_vocab\_from\_iterator

from torch.utils.data import DataLoader

### Paso 2: Cargar y preparar el conjunto de datos


\# Cargar el conjunto de datos AG News

train\_iter = AG\_NEWS(split='train')



\# Crear un tokenizador

tokenizador = get\_tokenizer('basic\_english')



\# Función para generar tokens

def yield\_tokens(data\_iter):

&#x20;   for \_, texto in data\_iter:

&#x20;       yield tokenizador(texto)



\# Construir el vocabulario

vocab = build\_vocab\_from\_iterator(yield\_tokens(train\_iter), specials=\["\<unk>"])

vocab.set\_default\_index(vocab\["\<unk>"])



\# Función para convertir texto en índices de vocabulario

def process\_text(text):

&#x20;   return torch.tensor(\[vocab\[token] for token in tokenizador(text)], dtype=torch.int64)



\# Cargar de nuevo el conjunto de datos

train\_iter = AG\_NEWS(split='train')



\# Crear una lista de tuplas (texto procesado, etiqueta)

data = \[(process\_text(text), label) for label, text in train\_iter]



\# Crear un DataLoader

batch\_size = 16  # Puedes ajustar el tamaño del batch

data\_loader = DataLoader(data, batch\_size=batch\_size, shuffle=True)

### Paso 3: Definir el modelo

Aquí definimos un modelo simple de red neuronal:


class TextClassifier(nn.Module):

&#x20;   def \_\_init\_\_(self, vocab\_size, embed\_dim, num\_classes):

&#x20;       super(TextClassifier, self).\_\_init\_\_()

&#x20;       self.embedding = nn.Embedding(vocab\_size, embed\_dim)

&#x20;       self.fc1 = nn.Linear(embed\_dim, 128)

&#x20;       self.fc2 = nn.Linear(128, num\_classes)

&#x20;       self.relu = nn.ReLU()

&#x20;       self.softmax = nn.LogSoftmax(dim=1)



&#x20;   def forward(self, x):

&#x20;       \# x: tensor de índices

&#x20;       x = self.embedding(x)  # Obtiene las representaciones de las palabras

&#x20;       x = x.mean(dim=1)  # Promedia los embeddings (puedes usar otras técnicas de agregación)

&#x20;       x = self.fc1(x)

&#x20;       x = self.relu(x)

&#x20;       x = self.fc2(x)

&#x20;       return self.softmax(x)

### Paso 4: Inicializar el modelo, la función de pérdida y el optimizador


\# Parámetros

vocab\_size = len(vocab)

embed\_dim = 64  # Dimensión de los embeddings

num\_classes = 4  # Número de clases en AG News



\# Inicializar el modelo

model = TextClassifier(vocab\_size, embed\_dim, num\_classes)



\# Definir la función de pérdida y el optimizador

criterion = nn.NLLLoss()  # Pérdida negativa logarítmica

optimizer = optim.Adam(model.parameters(), lr=0.001)

### Paso 5: Entrenamiento del modelo


\# Definir el número de épocas

num\_epochs = 5



for epoch in range(num\_epochs):

&#x20;   total\_loss = 0

&#x20;   for texts, labels in data\_loader:

&#x20;       \# Zero gradients

&#x20;       optimizer.zero\_grad()



&#x20;       \# Forward pass

&#x20;       outputs = model(texts)



&#x20;       \# Compute loss

&#x20;       loss = criterion(outputs, labels)



&#x20;       \# Backward pass and optimization

&#x20;       loss.backward()

&#x20;       optimizer.step()



&#x20;       total\_loss += loss.item()



&#x20;   print(f"Epoch \[{epoch + 1}/{num\_epochs}], Loss: {total\_loss / len(data\_loader):.4f}")

### Paso 6: Evaluación del modelo

Para evaluar el modelo, puedes usar un conjunto de validación o prueba. A continuación se muestra un ejemplo básico:


def evaluate\_model(model, data\_loader):

&#x20;   model.eval()  # Cambiar a modo evaluación

&#x20;   correct = 0

&#x20;   total = 0



&#x20;   with torch.no\_grad():

&#x20;       for texts, labels in data\_loader:

&#x20;           outputs = model(texts)

&#x20;           \_, predicted = torch.max(outputs.data, 1)

&#x20;           total += labels.size(0)

&#x20;           correct += (predicted == labels).sum().item()



&#x20;   print(f'Accuracy: {100 \* correct / total:.2f}%')



\# Puedes evaluar usando el mismo DataLoader de entrenamiento o uno diferente

evaluate\_model(model, data\_loader)

### Resumen

1. **Importar librerías y cargar el conjunto de datos.**

2. **Definir el modelo de clasificación.**

3. **Inicializar el modelo, la función de pérdida y el optimizador.**

4. **Entrenar el modelo.**

5. **Evaluar el modelo.**

Esto te dará una buena base para crear un modelo de clasificación de texto en PyTorch.

Arquitectura de clasificación de texto en PyTorch

Fundamentos de PyTorch

Clasificación de Texto con PyTorch y TorchText en Google Colab

Introducción a PyTorch: Ventajas y Comparación con Otros Frameworks

Clasificador de texto con nn.Module en PyTorch

Tensores en PyTorch desde cero

Debuguea tensores en PyTorch sin errores

Operaciones con tensores y conversión NumPy-PyTorch

Estructura de modelo de deep learning en PyTorch

Regresión Lineal con PyTorch: Creación y Partición de Datos Artificiales

Regresión lineal desde cero en PyTorch

Bucle de entrenamiento con SGD en PyTorch

Entrenamiento y Visualización de Modelos de Regresión Lineal en PyTorch

Inferencia y predicciones con PyTorch

Redes neuronales con PyTorch

Clasificación de texto con TorchText y DBpedia

Tokenización y Vocabulario en TorchText para DBpedia

DataLoader y collate function en PyTorch