Cómo funcionan los LLMs

Clase 24 de 24 • Curso de Fundamentos de Ingeniería de Software

Contenido del curso

Computación Básica

Redes e Internet

Sistemas Operativos y Almacenamiento

Archivos y estructuras de datos

Introducción a Blockchain e Inteligencia Artificial

Tomar examen

Resumen

La inteligencia artificial moderna ha revolucionado nuestra forma de procesar el lenguaje. Los grandes modelos de lenguaje (LLMs) funcionan de manera similar a como nuestro cerebro completa frases automáticamente. Cuando escuchamos "el gato maúlla y el perro...", instintivamente pensamos "ladra". Este proceso, aparentemente simple, esconde complejos mecanismos matemáticos y computacionales que han permitido el desarrollo de sistemas como ChatGPT, Llama y otros modelos avanzados.

¿Cómo funcionan los grandes modelos de lenguaje?

Los modelos de lenguaje modernos operan mediante un proceso sofisticado que comienza con la tokenización y culmina con sistemas de predicción basados en atención. Este proceso permite que la inteligencia artificial comprenda y genere texto de manera coherente y contextualmente apropiada.

Tokenización: dividiendo el lenguaje en unidades básicas

El primer paso fundamental consiste en fragmentar todo el lenguaje humano en unidades más pequeñas llamadas "tokens". Estos pueden ser palabras completas, sílabas o incluso letras individuales. Aunque podríamos pensar que las posibles combinaciones son infinitas, el lenguaje humano es sorprendentemente finito:

Los sistemas de traducción típicamente utilizan entre 40,000 y 50,000 tokens
Los grandes modelos como GPT-4 pueden manejar hasta 256,000 tokens en su vocabulario

Por ejemplo, la palabra "satisfacción" podría dividirse en varios tokens: "sat", "is", "f", "acción". Cada uno de estos fragmentos se convierte en una unidad procesable para el modelo.

Vectorización: ubicando palabras en espacios multidimensionales

Una vez tokenizado el lenguaje, cada token se ubica en un espacio vectorial multidimensional donde:

Palabras similares se posicionan cerca unas de otras (gato, perro y lobo estarán próximos)
Se crean relaciones vectoriales entre conceptos (rey - hombre + mujer = reina)
Se establecen patrones como tiempo verbal (caminé/caminar similar a nadé/nadar)

Este proceso permite que las palabras se conviertan en expresiones matemáticas que pueden sumarse, restarse y manipularse. La vectorización es crucial porque transforma conceptos lingüísticos en entidades matemáticas procesables.

Redes neuronales: encontrando patrones ocultos

Con el lenguaje tokenizado y vectorizado, el siguiente paso es crear una red neuronal que aprenda las probabilidades de conexión entre tokens. Este proceso implica:

Dividir el corpus del lenguaje (70% para entrenamiento, 30% para pruebas)
Crear una estructura con capas de entrada, capas ocultas y capas de salida

Ajustar millones de parámetros que representan los pesos de cada "neurona"

Representación conceptual simplificada

def red_neuronal(tokens_entrada): # Capa de entrada: vectores de tokens x = vectorizar(tokens_entrada)

# Capas ocultas con millones de parámetros
for capa in capas_ocultas:
    x = aplicar_pesos(x, capa.pesos)
    x = funcion_activacion(x)

# Capa de salida: probabilidades de siguiente token
return capa_salida(x)

Este entrenamiento requiere enormes recursos computacionales, lo que explica por qué, aunque los algoritmos existen desde los años 50, solo recientemente hemos podido implementarlos a gran escala.

¿Qué hace que los modelos sean realmente inteligentes?

La verdadera magia de los modelos modernos no está solo en predecir la siguiente palabra, sino en su capacidad para entender contextos y generar respuestas coherentes y creativas.

El mecanismo de atención: enfocándose en lo importante

Similar a cómo los humanos prestamos atención selectiva a ciertas palabras, los modelos utilizan un mecanismo llamado "atención" que:

Identifica un "query" (consulta), una "key" (llave) y un "value" (valor)
Evalúa qué tokens previos son más relevantes para predecir el siguiente
Asigna pesos de importancia a diferentes partes del contexto

Por ejemplo, en "el gato maúlla y el perro...", el modelo presta especial atención a "gato" y "maúlla" para predecir que lo que sigue probablemente sea "ladra".

Este mecanismo de atención es lo que permite a los modelos capturar dependencias a larga distancia en el texto, superando las limitaciones de modelos anteriores.

Temperatura y creatividad: más allá de la predicción determinista

Los grandes modelos no siempre eligen la palabra con mayor probabilidad. Incorporan un parámetro llamado "temperatura" que:

A temperatura baja: seleccionan casi siempre la opción más probable (más predecibles)
A temperatura alta: pueden elegir opciones menos probables (más creativos)

Esta variabilidad controlada es crucial para generar respuestas que no sean meramente predecibles sino también creativas e interesantes.

RLHF: aprendiendo a conversar como humanos

El último componente que transformó estos modelos en asistentes conversacionales fue el Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF, por sus siglas en inglés):

Se contrataron miles de personas para interactuar con los modelos
Se recompensaba al modelo cuando respondía apropiadamente como un chat
Se penalizaba cuando sus respuestas no eran adecuadas

Este proceso recalibró las "neuronas" del modelo para que aprendiera a:

Mantener conversaciones coherentes
Saber cuándo dejar de generar texto
Desarrollar una "personalidad" consistente

El RLHF es lo que convirtió a modelos como GPT en ChatGPT, transformando un generador de texto en un asistente conversacional.

¿Por qué es importante entender estos fundamentos?

Comprender cómo funcionan los grandes modelos de lenguaje nos permite:

Utilizarlos más eficazmente mediante prompts bien diseñados
Anticipar sus limitaciones y sesgos
Contribuir al desarrollo de la próxima generación de IA

Los modelos de lenguaje representan la frontera actual del conocimiento en inteligencia artificial generativa. Su funcionamiento, aunque complejo, se basa en principios matemáticos y estadísticos que transforman el lenguaje humano en representaciones procesables por máquinas.

La próxima vez que interactúes con ChatGPT o cualquier otro asistente basado en IA, recuerda que detrás de esa aparente comprensión hay un sofisticado sistema de tokens, vectores, redes neuronales y mecanismos de atención trabajando en conjunto para ofrecerte respuestas coherentes. ¿Qué aplicaciones de estos modelos te parecen más fascinantes? Comparte tu opinión en los comentarios.

Comentarios

Jose Luis Flores

student•

Yo cuando aprobé el examen !!!!

Juliette Villarroel

student•

JAJAJAJAJA YO

Christian Lezcano

student•

HAHAHAH

Fernando Jaime Arnold Montaña Rosas

student•

Es increíble, como lograron resumir un video de casi dos horas, en los quince minutos que Freddy quería en un principio, como tiempo para explicar cómo funciona un LLM

Edgar Ardila

student•

Impresionante y las animaciones lo hacen mas dinámico

Jorge del Campo Andrade

student•

Increíble. Para quienes vimos ese video-clase, esto es una hazaña única. Y tenemos el honor de que esté en español.

Samuel Steven Bernal Martínez

student•

Este curso es, fue y será brutal, para todos aquellos que tenemos una curiosidad insaciable. La cantidad de preguntas que surgen a partir de un tema, ideas para probar en proyectos, y curiosidad intelectual sobre temas que quizá no conocíamos bien es inmensa, creo que ahí se encuentra la clave del curso

Gabriel Bastia

student•

Concuerdo, este curso nos da los fundamentos pero a través de las clases he podido sentir la necesidad aprender más de cada uno de los distintos temas que hemos visto. Es la puerta abierta a muchas otras cosas

Alexander Vasquez

student•

Quien diria que las matematicas detras de un LLM no es matematica complicada sino algo a muy gran escala

Elkin Camargo

student•

pues tu puedes reescribir toda una rama matematica como el calculo en terminos de matrices o conjuntos (set theory) lo que pasa es que para descubrirlas o explicarlas es mejor usar un metodo y no el otro. Y aunque los fundamentos son sencillos el detalle puede ser muy muy complejo

Juan Pablo Echavarria

student•

Capa por capa ¡Literal!

Jesus Percy Nazario Portilla

student•

Los modelos de lenguaje (LLMs) y me sorprendió lo elegante que es su diseño matemático detrás de su aparente "inteligencia". Para quienes tengan curiosidad, aquí va un resumen técnico pero accesible:

Tokenización:
- El texto se divide en "tokens" (como piezas de un rompecabezas). Por ejemplo, "satisfacción" puede volverse ["sat", "is", "f", "acción"].
- Esto convierte el lenguaje en unidades discretas que la IA puede procesar.
Embeddings:
- Cada token se mapea a un vector en un espacio multidimensional (imaginen un mapa donde palabras similares están cerca).
- Operaciones como rey - hombre + mujer ≈ reina se vuelven posibles algebraicamente.
Atención (el corazón del modelo):
- El mecanismo de atención calcula qué partes del texto previo son relevantes para predecir la siguiente palabra.
- Usa matrices de consulta (Q), clave (K) y valor (V) para ponderar la importancia de cada token.
- Fórmula
- Esto permite que el modelo "recuerde" contextos lejanos (como relacionar "gato" con "maúlla" aunque haya palabras en medio).
Generación con temperatura:
- Los LLMs no siempre eligen la palabra más probable. Un parámetro de temperatura controla la aleatoriedad:
  - Temperatura baja: Respuestas deterministas y seguras.
  - Temperatura alta: Respuestas más creativas (pero arriesgadas).
RLHF (lo que los hace "conversacionales"):
- Se ajustan con retroalimentación humana para preferir respuestas naturales y útiles (usando aprendizaje por refuerzo).

LAURA TATIANA ROMERO RUIZ

student•

GRACIAS

Jose Ricardo Dueñas Suarez

student•

gracias

Humberto Cruz

student•

acá les dejo un video que me gusto, que explica un poco como los LLMs funcionan.

P.D.: es increíble como se manejan palabras modificadoras que cambian el significado de la palabra anterior o de una oración completa (ej. "el gato <u>hidráulico</u>").

Javier Ramos

student•

Excelente aporte

Gabriel Obregón

student•

1. Introducción al concepto de atención

Cuando alguien dice: “El gato maúlla y el perro…”, la mayoría completa con “ladra”. Esta respuesta surge de nuestra inteligencia y atención: damos más importancia a ciertas palabras (como "maúlla") y anticipamos lo más probable. Sin embargo, hay muchas respuestas posibles: “el perro se asusta”, “el perro no maúlla”, etc.

2. La atención en los modelos de lenguaje

En inteligencia artificial (IA), esta habilidad de enfocarse en palabras clave se llama modelo de atención. Es una parte fundamental de cómo funcionan los grandes modelos de lenguaje (LLMs).

3. Dividir el lenguaje en unidades básicas: los tokens

Para que la IA comprenda el lenguaje humano, se necesita:

Dividir el lenguaje en pequeñas partes llamadas tokens (pueden ser letras, sílabas o palabras).
Aunque parece que el lenguaje es infinito, en realidad tiene un número limitado de combinaciones frecuentes.

Por ejemplo:

En inglés se usan unos 50.000 tokens comunes.
Modelos avanzados, como GPT-4, pueden usar hasta 256.000 tokens.

Ejemplo de tokenización:

La palabra “satisfacción” puede dividirse en tokens como “sat”, “is”, “f”, “acción”.

4. Relación entre tokens: el espacio vectorial

Una vez tokenizado el texto, el modelo evalúa qué tan cercanos están los tokens entre sí.

Se representan en un espacio multidimensional (más allá de las 3 dimensiones que podemos visualizar).
Cada token tiene un vector que indica su cercanía a otros tokens.

Ejemplos de similitudes:

"Gato", "perro" y "lobo" están cerca porque son animales.
"Banano" y "manzana" están cerca porque son frutas.

Relaciones más complejas:

“Rey” y “reina” se relacionan con “hombre” y “mujer” a través del vector “género”.
“Italia” y “Roma” forman un vector similar al de “Colombia” y “Bogotá”.

5. Crear modelos que predicen palabras

Después de mapear las palabras como vectores, el modelo:

Calcula la probabilidad de que una palabra siga a otra.
Usa un gran volumen de datos (libros, internet, redes sociales).
Divide estos datos:
- 70 % para entrenar.
- 30 % para validar el modelo.

Esto se conoce como el corpus del lenguaje.

6. Las redes neuronales

Una red neuronal tiene:

Capa de entrada: los tokens iniciales.
Capas ocultas: funciones que detectan patrones.
Capa de salida: la palabra predicha.

Este proceso detecta patrones como:

Rimas.
Conjugaciones verbales.
Construcciones de marketing o programación.

Una red neuronal contiene miles de millones de parámetros que se ajustan durante el entrenamiento para mejorar la predicción.

7. El problema de la complejidad

Predecir todas las combinaciones posibles de tokens sería muy costoso en términos de memoria y procesamiento. Por eso, el modelo:

Se enfoca solo en las palabras más importantes.
Usa el mecanismo de atención para identificar qué palabras influyen más en la predicción.

8. Cómo funciona la atención (Query, Key, Value)

Cuando escribimos algo como “El gato maúlla y el perro…”, el modelo analiza:

Query (consulta): el último token (“perro”).
Keys (llaves): palabras anteriores relevantes (“gato”, “maúlla”).
Values (valores): se usan para calcular qué palabra debería venir.

Esto produce un vector de probabilidad que sugiere varias palabras posibles como: “ladra”, “llora”, “no”, etc.

9. Temperatura y creatividad

Los modelos de lenguaje no eligen siempre la opción más probable. Gracias a un parámetro llamado temperatura:

A veces eligen la segunda o tercera opción más probable.
Esto les da un grado de creatividad.

10. De autocompletado a conversaciones

Los primeros modelos GPT solo completaban texto.

Para convertirlos en asistentes conversacionales como ChatGPT, OpenAI entrenó el modelo con personas reales (unas 6000 en África), que:

Recompensaban buenas respuestas.
Corregían malos comportamientos.

Este método se llama RLHF (aprendizaje reforzado con retroalimentación humana).

Onihr Lara García

student•

Amigo muchas gracias por los apuntes que compartiste

Natan Mamani Flores

student•

muy bueno el resumen, me permitio rescatar algunos detalles mas.

julian salvatierra

student•

Necesito que salga el curso de fundamentos de LLMs ahora, excelente curso

Juliette Villarroel

student•

Dijeron que en Mayo pero lo sigo esperando:(

Monica Tahan

student•

Hola @Freddy, excelente clase. Soy profesora de IA desde hace 10 años en una universidad y cuando vi lo que hicieron con el paper "Attention is All you Need", tuve un montón de sentimientos encontrados, pues llevaba varios semestres intentando que mis alumnos entrenaran asistentes con lenguaje natural empleando Deep Learning, pero siempre caíamos rendidos por el mismo hecho: El computador se podía quemar entrenando los modelos o para un estudiante en un período de 16 semanas era un reto aprender a hacer Deep Learning con redes neuronales.

Me tomé el atrevimiento de tomar el resumen de tu clase y meterlo en NapkinAI, hizo infografías maravillosas de tu resumen. Citándote como fuente, combinada con NapkinAI te agregaré en mi material de clases para el uso de estas hermosas imágenes.

Te dejo acá el link:

Freddy Vega

Team Platzi•

No logré abrirlo :(

Eliecer Baron

student•

esta re melo el programa

Samuel Soto Hoyos

student•

Recomiendo complementar esta clase con el video de Youtube del canal de Platzi [Bases matemáticas de inteligencia artificial](https://youtu.be/v6tk0CxaVU8?si=39tsICx0aoTu5dML)

Samuel Soto Hoyos

student••

Y ver [este live](https://platzi.com/clases/11785-eventos-exclusivos/76889-fundamentos-de-ai-como-entenderla-desde-cero/).

David Stiwen Rugeles Cano

student•

el proceso de crear los tokens se llama tokenización, hay algoritmos que lo hacen, son como algoritmos de compresión enfocados en lenguaje, el mas popular es Byte-Pair Encoding ,

OpenAI usa uno llamado Tiktoken , pueden probar como funciona el tokenizador oficial de OpenAI según la versión

Pedro Esteban Bedoya Castaño

student•

La ecuación de atención se expresa matemáticamente a través de un mecanismo que incluye los conceptos de "query" (consulta), "key" (llave) y "value" (valor). En términos generales, se calcula como:

Se toma un "query" y se calcula la similitud con todos los "keys".
Se aplica una función de activación (usualmente softmax) para obtener pesos que indican la importancia de cada "key".
Finalmente, se multiplica cada "value" por su peso correspondiente y se suman, resultando en una representación ponderada que captura la atención del modelo en el contexto.

Este enfoque permite a los modelos de lenguaje centrarse en las partes más relevantes de la entrada. Para una comprensión más profunda, considera explorar el curso de Platzi sobre redes neuronales.

Daniel F Lopez

student•

¡Estuvo genial este curso! Te comparto mis notas de esta última clase:

Legnis del Carmen Mota Berroa

student•

Nunca antes encontré un compendio sobre Fundamentos de Ingeniería de Software con tantos temas cubiertos de modo que nunca sales igual que cuando entraste aunque pensaras diferente al principio,

L. Iván Carrasquel Ballesteros

student•

Si señor, así es. Muy de acuerdo con usted, pues creo que es de los más valiosos cursos de Platzi para toda persona. Estoy tomando el curso de Fundamentos de LLMs y regrese a Fund. Ing. Software como siempre y cada vez que lo necesito, lo cual me da más literatura Tech y es grandioso.

Kevin Ortiz

student•

Me gustó que para el curso de AI/Machine Learning estuviera este curso al inicio, creo que es un curso fresco y ademas Freddy explica de tal forma que dan ganas de seguir escuchando... gracias!!!

Leyder Sanchez

student•

🚸 Dia *4* 🤓 ¡Carpe Diem!✌️

Juliette Villarroel

student•

Que vivan las matemáticas, estoy ansiosa por ver el curso de Fundamentos de LLMs con Jhenner!

Steven Pardo

student•

Ya salio, como va eso?

Joel Gabriel Germán Valdez

student•

En teoria entonces cuando le preguntamos algo a gpt o geminis internamente lo que este LLM hace es tokenizar la pregunta e ir haciendo comparaciones entre posibles respuesta y segun la probabilidad en la mas adecuada es con la que nos responde jejeje que interesante!!

Edú Jafet Sánchez Garrido

student•

yei por fin pude terminar la clase de aquel live jajajaj muchas gracias freddy

Javier Ramos

student•

Esta clase es la que mas veces he visto, es mucha información condensada de manera magistral .

Cómo funcionan los LLMs

Computación Básica

Proceso de arranque y encendido de computadoras y móviles

Cómo funciona un circuito electrónico

Qué es un bit y qué es un byte

Qué es un procesador (CPU) y la memoria (RAM)

Qué es un sistema operativo

Cómo funciona internet

Memoria volátil vs persistente: qué cambia

Cómo se organizan los archivos

Teléfonos y sus "System on a Chip" o SOC

GPUs: Procesadores gráficos y de AI

Qué es un algoritmo y qué es un lenguaje de programación

Redes e Internet

Direcciones IP y el protocolo de Internet

Qué es DNS y cómo comprar tu dominio

Modelo Cliente/Servidor: ¿Cómo funciona un sitio web?

Sistemas Operativos y Almacenamiento

Diferencias entre Windows, Linux y MacOS

Permisos, niveles de procesos y privilegios de ejecución

Archivos: Metadatos, cabeceras y extensiones

Archivos y estructuras de datos

Qué son las bases de datos

Cómo funciona el formato .JPG

Videos: contenedores, codecs y protocolos

Cómo Funciona un .zip

Introducción a Blockchain e Inteligencia Artificial

Arquitectura y funcionamiento interno de Blockchain

Qué es una red neuronal

Cómo funcionan los LLMs