Clasificador de texto con nn.Module en PyTorch

Curso de Redes Neuronales con PyTorch

Contenido del curso

Fundamentos de PyTorch

Estructura de modelo de deep learning en PyTorch

Redes neuronales con PyTorch

Cierre del curso

24
Qué aprendiste en el curso de PyTorch
01:13 min

Tomar examen

Clasificador de texto con nn.Module en PyTorch

Resumen

Aprender a construir un modelo de PyTorch con nn.Module es el primer paso para entender cómo funcionan por dentro las arquitecturas de inteligencia artificial modernas. Aquí vas a ver cómo armar un clasificador de texto desde cero, pieza por pieza, como si fuera un castillo de Legos.

La idea es simple: defines bloques, decides su tamaño y luego los conectas. Eso es, en esencia, lo que hacen modelos como BERT o GPT, solo que con muchas más piezas.

Qué es nn.Module y por qué es la base de PyTorch

La clase nn.Module es el cimiento sobre el que se construye prácticamente cualquier modelo en PyTorch. Cuando creas una subclase de nn.Module, heredas toda la maquinaria que PyTorch necesita para entrenar, propagar gradientes y guardar parámetros.

Piensa en nn.Module como la base del castillo. Tú, como arquitecto, decides qué bloques poner encima y cómo conectarlos [01:05].

¿Qué es nn.Module en PyTorch? Es la clase base que provee PyTorch para definir modelos de redes neuronales. Al heredar de ella, tu modelo gana la capacidad de registrar capas, manejar parámetros entrenables y ejecutar la propagación hacia adelante.

Por qué usar Google Colab para entrenar modelos

Colab te da acceso gratuito a una GPU, suficiente para experimentar con modelos como este TextClassifier. Además, autocompleta el código y te avisa en rojo si hay errores de sintaxis [00:34].

Cómo construir una subclase TextClassifier en PyTorch

El primer paso es importar torch y el módulo nn, que viene de neural network. Después defines tu clase heredando de nn.Module y declaras los argumentos que tu arquitectura necesita.

En este caso, el modelo recibe cuatro argumentos clave que funcionan como hiperparámetros: el tamaño del vocabulario, las dimensiones del embedding, las dimensiones ocultas y la dimensión de salida [02:10].

python import torch from torch import nn

class TextClassifier(nn.Module): def init(self, vocab_size, embedding_dim, hidden_dim, output_dim): super().init() self.embedding = nn.Embedding(vocab_size, embedding_dim) self.rnn = nn.LSTM(embedding_dim, hidden_dim, num_layers=2, batch_first=True) self.fc = nn.Linear(hidden_dim, output_dim)

Cada línea define un bloque de Lego con su tamaño específico. El embedding convierte palabras en vectores, la capa LSTM procesa secuencias y la capa linear da el resultado final.

Qué hace cada bloque dentro del modelo

Embedding: transforma cada palabra del vocabulario en un vector denso de tamaño embedding_dim. Es la entrada del modelo.
LSTM: una red neuronal recurrente que procesa el texto en secuencia. El argumento batch_first=True indica que los lotes van primero en la dimensión del tensor [03:50].
Linear (FC): la fully connected final que mapea las dimensiones ocultas a las clases de salida.

¿Para qué sirve batch_first en una capa LSTM? Le indica a PyTorch que la primera dimensión del tensor de entrada corresponde al tamaño del lote. Esto facilita procesar varios ejemplos en paralelo sin reordenar tensores manualmente.

Cómo conectar las capas con la función forward

La función forward es donde defines el flujo de datos. PyTorch reconoce este nombre automáticamente, así que no puedes cambiarlo [05:00].

python def forward(self, text): embeddings = self.embedding(text) outputs, (hidden, cell) = self.rnn(embeddings) final_hidden = hidden[-1] return self.fc(final_hidden)

Primero, el texto entra al embedding. El vector resultante pasa a la LSTM, que devuelve tres cosas: las salidas en cada paso, el estado oculto final y la celda. Tomas el último estado oculto, le ajustas las dimensiones y lo pasas por la capa linear.

Por qué se manipulan las dimensiones del tensor oculto

La LSTM devuelve un tensor con una dimensión extra que corresponde al número de capas. Como tu capa linear espera un tensor más simple, necesitas reducir esa dimensión antes de conectar los bloques [06:20]. Si los tamaños no calzan, el modelo no corre.

Cómo inicializar el modelo TextClassifier con hiperparámetros reales

Una vez definida la clase, toca darle valores concretos a los argumentos. Estos números son hiperparámetros: puedes moverlos según tu hardware y tu problema.

python vocab_size = 10000 embedding_dim = 100 hidden_dim = 256 output_dim = 2

model = TextClassifier(vocab_size, embedding_dim, hidden_dim, output_dim)

Algunas referencias prácticas que se mencionaron:

Un modelo BERT usa un vocabulario cercano a 30.000 tokens, pero puede llegar a 60.000 o 100.000 [09:10].
Las dimensiones de embedding en transformers modernos rondan los 768.
Las hidden_dim controlan la profundidad: más grande significa más capacidad y más cómputo.
output_dim = 2 se usa para clasificación binaria; súbelo si tienes más clases.

¿Qué son hidden_dim y embedding_dim? Son las dimensiones que controlan el tamaño interno del modelo. embedding_dim define qué tan rico es el vector que representa cada palabra, y hidden_dim define la profundidad de la red neuronal recurrente.

Cómo se ve el modelo final inicializado

Al imprimir model, ves los tres bloques con sus tamaños: un Embedding de 10.000 por 100, una LSTM de 100 por 256 y una Linear de 256 por 2. Todo encaja porque las dimensiones de salida de un bloque coinciden con las de entrada del siguiente [11:30].

Ese encaje es lo que hace que el castillo se sostenga. Si rompes una dimensión, el modelo deja de funcionar.

Ahora que tienes tu primer modelo en PyTorch, cuéntame en los comentarios qué arquitectura te gustaría construir. ¿Un clasificador de sentimientos? ¿Un detector de spam? ¿Algo más ambicioso? Tu castillo, tus reglas.

Gabriel Ichcanziho Pérez Landa

Estudiante

Notas adicionales:

import torch
import torch.nn as nn


class TextClassifier(nn.Module):
    def __init__(self, vocab_size, embedding_dim, hidden_dim, output_dim):
        super().__init__()

        # Capa de embedding para mapear índices de palabras a vectores de embeddings
        self.embedding = nn.Embedding(vocab_size, embedding_dim)

        # Capa LSTM para procesar los embeddings y obtener estados ocultos
        self.rnn = nn.LSTM(embedding_dim, hidden_dim, num_layers=2, batch_first=True)

        # Capa lineal para proyectar el último estado oculto en la salida final
        self.fc = nn.Linear(hidden_dim, output_dim)

    def forward(self, text):
        # Obtener los embeddings de las palabras
        embedded = self.embedding(text)

        # Propagar los embeddings a través de la capa LSTM
        output, (hidden, cell) = self.rnn(embedded)

        # Seleccionar el último estado oculto como estado final
        final_hidden = hidden[-1]

        # Pasar el estado final a través de la capa lineal para obtener la salida final
        return self.fc(final_hidden)


# Parámetros del modelo
vocab_size = 10000
embedding_dim = 100
hidden_dim = 256
output_dim = 2

# Crear instancia del modelo
model = TextClassifier(vocab_size, embedding_dim, hidden_dim, output_dim)

# Imprimir la estructura del modelo
print(model)

Respuesta esperada:

TextClassifier(
  (embedding): Embedding(10000, 100)
  (rnn): LSTM(100, 256, num_layers=2, batch_first=True)
  (fc): Linear(in_features=256, out_features=2, bias=True)
)

Process finished with exit code 0

Expliquemos el código paso a paso:

Se importan las bibliotecas necesarias: torch para el uso de PyTorch y torch.nn para las capas y funciones de redes neuronales.
Se define la clase TextClassifier, que es una subclase de nn.Module, la cual es la base para definir modelos de PyTorch.
En el método __init__ de la clase TextClassifier, se definen los componentes del modelo. Los parámetros que recibe son:
- vocab_size: Tamaño del vocabulario, es decir, la cantidad de palabras únicas en el corpus de texto.
- embedding_dim: Dimensión de los vectores de embeddings. Cada palabra será representada por un vector de esta dimensión.
- hidden_dim: Dimensión de los estados ocultos de la capa LSTM.
- output_dim: Dimensión de la salida del clasificador.
- En el cuerpo del método, se definen tres capas:
- self.embedding: Una capa de embedding (nn.Embedding) que mapea cada índice de palabra a un vector de embeddings de tamaño embedding_dim.
- self.rnn: Una capa LSTM (nn.LSTM) que recibe los embeddings y produce secuencias de estados ocultos. Tiene num_layers=2 capas LSTM apiladas y batch_first=True indica que la entrada se proporcionará en el formato (batch_size, sequence_length, input_size).
- self.fc: Una capa lineal (nn.Linear) que proyecta el último estado oculto de la capa LSTM (hidden_dim) en la dimensión de salida (output_dim).
En el método forward de la clase TextClassifier, se define cómo se propagan los datos a través del modelo. El parámetro text representa las secuencias de palabras de entrada.
- Primero, los embeddings de las palabras se obtienen utilizando self.embedding y se almacenan en embedded.
- A continuación, embedded se pasa a través de la capa LSTM (self.rnn) y se obtienen output, hidden y cell. output contiene los estados ocultos de todas las palabras de la secuencia, mientras que hidden y cell contienen los estados finales de la capa LSTM.
- El último estado oculto hidden[-1] se selecciona como el estado oculto final y se pasa a través de la capa lineal (self.fc) para obtener la salida final del clasificador.
- La salida final se devuelve.
A continuación, se definen los parámetros para construir una instancia del modelo. vocab_size se establece en 10000, embedding_dim en 100, hidden_dim en 256 y output_dim en 2.
Se crea una instancia del modelo TextClassifier utilizando los parámetros definidos.
Finalmente, se imprime el modelo creado. Esto mostrará la estructura del modelo, incluyendo las capas y sus dimensiones.

Jeison Wu Mitre

David Alejandro Sanchez Muñoz

Jordi Castillo

Romel Manrique

johan Stever Rodriguez Molina

Mario Alexander Vargas Celis

Misael Rodriguez Arias

Robert Yesid Barrios Acendra

Edgar A. Gonzalez Ambriz

Alejandro Giraldo Londoño

Diego Silva

IVAN CARAPIA BARAJAS

•

Ramses Acosta

Raul Alberto Pacheco Rodriguez

Eduard Giraldo Martínez

Dario Saavedra Contreras

Clasificador de texto con nn.Module en PyTorch

Fundamentos de PyTorch

Clasificación de Texto con PyTorch y TorchText en Google Colab

Introducción a PyTorch: Ventajas y Comparación con Otros Frameworks