Arquitectura Transformers en procesamiento de lenguaje natural

Resumen

Los Transformers representan una innovadora arquitectura que transformó el campo del procesamiento del lenguaje natural, NLP por sus siglas en inglés. Fueron propuestos en el paper Attention is all unit de Google y ofrecen un análisis paralelo del texto en lugar del tradicional análisis secuencial palabra por palabra.

¿Qué son y cómo funcionan los Transformers?

Los Transformers procesan secuencias de palabras simultáneamente, permitiendo capturar el contexto completo de oraciones, en lugar de analizarlas palabra por palabra. Esta característica les permite conservar relaciones de largo alcance entre palabras y proporcionar representaciones contextuales profundas y precisas.

Entre los aportes de Transformers destaca el concepto de self attention, que evalúa el peso relativo de cada token o palabra en relación al contexto completo.

¿Cuáles son las arquitecturas basadas en Transformers más conocidas?

Diferentes modelos aprovechan la arquitectura Transformer, adaptándola según el objetivo y recursos disponibles:

BERT: utiliza únicamente la parte del encoder bidireccional del Transformer y procesa grandes volúmenes de texto. Posee típicamente 12 capas ocultas.
DistilBERT: versión más sencilla y ligera de BERT, con solo 6 capas, ideal para hardware limitado.
Roberta y Albert: varían principalmente en la manera y cantidad de datos con que fueron entrenados y en sus capas internas.

¿Cómo trabajar con Transformers en un entorno práctico?

La librería Transformer de Hugging Face facilita el interactuar con estos modelos, siendo compatible con Google Colab y entornos locales. Para usarla localmente, se instala con:

pip install transformer

Su uso implica tener instalada también la librería PyTorch debido a la dependencia interna que tiene Transformer respecto de PyTorch.

¿Cómo visualizar y entender la estructura de un modelo Transformer?

Al utilizar la librería Transformer, se pueden visualizar las capas ocultas de un modelo (como en BERT), que habitualmente son 12 capas.

La estructura general incluye:

Embedding del texto de entrada.
La capa de atención ( self attention ).
Capas intermedias (dense) y técnicas como dropout para evitar sobreajuste.
Output lineal para obtener predicciones o resultados finales.

La cantidad de capas que elijamos dependerá del hardware disponible, la complejidad del problema a resolver y las necesidades específicas de implementación.

¿Qué es el Self Attention y cómo ayuda a mejorar el procesamiento?

Self Attention permite asignar un peso individual a cada token en base al contexto general de la frase. Este proceso involucra:

Calcular un vector query, uno key y uno value para cada elemento del texto.
Ejecutar multiplicaciones matriciales entre estos vectores para obtener pesos relativos.
Aplicar la función softmax a estos pesos para determinar la importancia de cada token.

Gracias al self attention, es posible identificar qué tokens tienen mayor relevancia dentro del texto contextual, proporcionando representaciones enriquecidas de las palabras según su contexto.

Te invito a compartir tus dudas o experiencias con los Transformers en los comentarios.

Daniel Hernandez

student•

Debería existir un curso de Platzi solamente dedicado a explicar Transformers.

Javier Ramos

student•

Un Transformer es una arquitectura de red neuronal que revolucionó el procesamiento del lenguaje natural (NLP). A diferencia de las redes neuronales recurrentes, los Transformers pueden procesar todas las palabras de una secuencia simultáneamente, capturando así relaciones de largo alcance y contextualizando el texto. Introducen conceptos como "self-attention", que permite a la red enfocarse en diferentes partes del texto según su relevancia, mejorando la comprensión y generación de lenguaje. Ejemplos de modelos que utilizan esta arquitectura son BERT y GPT.

Javier Ramos

student•

Respuesta generada por la IA de PLatzi a la pregunta que es un Transformer

Daniel Hernandez

student•

La verdad yo comprendo personalmente como funciona Q, K, V, ya que esta es la forma en la que el Transformer entiende correctamente el contexto; pero sé que va a ser difícil para algunas personas porque a mí me tomó varias lecturas y vídeos. Para aquellos que escuchan esto por primera vez:

- Andrej Karpathy - Intro to LLMs https://www.youtube.com/watch?v=7xTGNNLPyMI

- 3Blue1Brown: https://www.3blue1brown.com/lessons/attention

- https://www.3blue1brown.com/topics/neural-networks

Juan R. Vergara M.

student•

Los transformers son los que hicieron posible el auge de la GenAI que tenemos actualmente.

Edwin Uldarico Hernandez Osorio

student•

El profesor dijo que visualizamos la salida del tokenizador pero el print era de la salida del modelo al pasarle el input tokenizado.

claramente dice print(outputs)

No explico para nada la salida esperada del modelo al usar Bert con ese texto.

El modelo al cargarse indica que algunos pesos no se inicializaron y se debe entrenar antes de hacer predicciones o inferencias.

Daniel Hernandez

student•

La respuesta corta es que hubo una mala explicación del profesor respecto a el output final.

Si quiere revisar salidar del tokenizador que utiliza BERT, te recomiendo ir a: https://tiktokenizer.vercel.app/

Juan Acevedo

student•

Que bendición esta clase, fui mas por mi cuenta a entender como funcionaba a detalle mejor esto y es una locura, definitivamente un tema bastante interesante , un curso solo para explicación de Transformers y ojala matemáticamente :)

Nydia Mejía Zavala

student•

Los hidden states son las representaciones intermedias generadas por un modelo de Transformer en cada capa durante el procesamiento de una secuencia de texto. Cada capa del modelo transforma la entrada a través de pesos entrenables, capturando relaciones y contextos complejos en los datos. Estos estados ocultos son cruciales para comprender el contexto a lo largo de toda la secuencia, ya que permiten que el modelo realice tareas como clasificación, detección de entidades y más, basándose en una comprensión profunda del contenido del texto.