Introducción a los Transformers

Clase 6 de 17 • Curso de Transfer Learning con Hugging Face

Contenido del curso

Introducción al Hub de Hugging Face

Primeros pasos con transfer learning y transformers

Computer vision

Procesamiento de lenguaje natural

Comparte en el Hub

Tomar examen

Comentarios

Ricardo Silva

student•

Los transformers merecen un curso completo!

Omar Uriel Espejel Díaz

teacher•

Comenten en Twitter y etiqueten a @espejelomar! Sería excelente!

Juan R. Vergara M.

student•

Oh sí totalmente de acuerdo 💡

Santiago Ahumada Lozano

student•

A grandes rasgos, los transformers son modelos especializados en detectar las formas en que los elementos de un dataset se influecian y se relacionan entre sí. Con base en ello pueden explicar cosas como generar resumenes.

Recomiendo mucho este video donde explican muy bien que es un transformer: Las REDES NEURONALES ahora prestan ATENCIÓN! - TRANSFORMERS ¿Cómo funcionan?

Santiago Restrepo

student•

Este otro video como continuacion: https://www.youtube.com/watch?v=xi94v_jl26U

Luis Boivar

student•

Excelente aporte, los videos de esta canal son EXCELENTES.

que cool entender los transformers.

Maria Barrera

student•

Yo actualmente trabajo en NER clínico con el formato de etiquetado BIO haciendo fine tuning con un modelo de unos españoles :D, vine a seguir aprendiendo de este maravilloso mundo de los transformers. ¡Me pone muy feliz que un Latino labore en Hugging face, super crack, Omar!

Omar Uriel Espejel Díaz

teacher•

Muchas gracias María! Que interesante lo que haces. Te recomiendo seguir a @osanseviero en Twitter. Es un grande en Hugging Face! También latino.

Luis Rogelio Reyes Hernandez

student•

Introducción a los Transformers

El presente y futuro proximo de machine learning

Transformers como GPT-3

existen para areas como

lenguaje
series de tiempo
Vision
Audio
Aprendizaje por refuerzo

¿Como funcionan?

Funcionan con la union de dos modelos un encoder que maneja el input y un decoder que da un output

El encoder y el decoder pueden funcionar como modelos separados, modelos que son solo Encoders y modelos que son solo Decoders

Encoder: Input

El encoder crea una abstracción de los datos ingresados que entiende el modelo

Existen modelos que son únicamente encoders como:

BERT
AKBERT
XLM
DistilBERT
RoBERTa

pueden hacer tasks como:

Clasificación de texto
Reconocimiento de entidades en el texto
Extracción de preguntas y respuestas de un texto

Decoder: Output

En base a la información abstraída se crea el output

Modelos decoders:

GPT-Neo & GPT-J
GPT, GPT-2, GPT-3, GPT-4
TransformerXL
CTRL

Pueden realizar tareas como

Generacion de texto

algunos modelos que son encoder-decoder o secuencia a secuencia

BART
T5

Algunas de las aplicaciones/tasks de los modelos encode decoder las cuales son tareas multimodales

Descripción de imágenes: en base a una imagen describe que hay en ella
Traducción entre idiomas
Generacion de resúmenes
Generacion de imágenes desde el texto

Crear estos modelos desde 0 es muy costoso y muy complicado para un individuo u organización pequeña, para eso usamos el transfer learning

Rómulo Bañares Roca

student•

Transformers: BERT - AKBERT - XLM - DistilBERT - RoBERTa

Mauricio Combariza

student•

BERT es un método que permite realizar un entrenamiento previo de representaciones lingüísticas.

Lo acabo de saber!!

Nicolas Velasquez Lopez

student•

Pregunto a chat GPT qué es un transformer:

Un Transformer es una arquitectura de red neuronal que fue introducida en 2017 en el artículo "Attention Is All You Need" por Vaswani et al. A diferencia de las redes neuronales recurrentes (RNN) que procesan una secuencia de entrada de forma secuencial, los Transformers procesan toda la secuencia de entrada simultáneamente utilizando mecanismos de atención.

En un Transformer, la entrada se transforma a través de múltiples capas, cada una de las cuales consiste en dos subcapas: la capa de atención y la capa de alimentación hacia adelante. La capa de atención permite que el Transformer se centre en partes específicas de la entrada relevante para la tarea que está realizando, mientras que la capa de alimentación hacia adelante proporciona una red neuronal clásica que procesa la salida de la capa de atención.

Los Transformers se han utilizado en una amplia variedad de aplicaciones, incluyendo el procesamiento del lenguaje natural (NLP), la visión por computadora y la generación de texto. La arquitectura ha demostrado ser muy efectiva para tareas de NLP, en particular para el modelado de lenguaje y la traducción automática.

Diego Bustos Kehdy

student•

Vengo del futuro. Se puede usar Deepseek R1, desde Ollama !!!

MARIA TERESA PANIAGUA RIVERA

student•

Gracias

Juan R. Vergara M.

student•

Este curso cada vez se pone mejor 🚀🔥🏅

Introducción a los Transformers

Introducción al Hub de Hugging Face

Introducción al transfer learning

Machine learning abierto para todo el mundo

Las tasks en machine learning

Primeros pasos con transfer learning y transformers

Tus primeros modelos pre-entrenados usando pipeline

Explorando los datasets