La inteligencia artificial moderna ha revolucionado nuestra forma de procesar el lenguaje. Los grandes modelos de lenguaje (LLMs) funcionan de manera similar a como nuestro cerebro completa frases automáticamente. Cuando escuchamos "el gato maúlla y el perro...", instintivamente pensamos "ladra". Este proceso, aparentemente simple, esconde complejos mecanismos matemáticos y computacionales que han permitido el desarrollo de sistemas como ChatGPT, Llama y otros modelos avanzados.
¿Cómo funcionan los grandes modelos de lenguaje?
Los modelos de lenguaje modernos operan mediante un proceso sofisticado que comienza con la tokenización y culmina con sistemas de predicción basados en atención. Este proceso permite que la inteligencia artificial comprenda y genere texto de manera coherente y contextualmente apropiada.
Tokenización: dividiendo el lenguaje en unidades básicas
El primer paso fundamental consiste en fragmentar todo el lenguaje humano en unidades más pequeñas llamadas "tokens". Estos pueden ser palabras completas, sílabas o incluso letras individuales. Aunque podríamos pensar que las posibles combinaciones son infinitas, el lenguaje humano es sorprendentemente finito:
Los sistemas de traducción típicamente utilizan entre 40,000 y 50,000 tokens
Los grandes modelos como GPT-4 pueden manejar hasta 256,000 tokens en su vocabulario
Por ejemplo, la palabra "satisfacción" podría dividirse en varios tokens: "sat", "is", "f", "acción". Cada uno de estos fragmentos se convierte en una unidad procesable para el modelo.
Vectorización: ubicando palabras en espacios multidimensionales
Una vez tokenizado el lenguaje, cada token se ubica en un espacio vectorial multidimensional donde:
Palabras similares se posicionan cerca unas de otras (gato, perro y lobo estarán próximos)
Se crean relaciones vectoriales entre conceptos (rey - hombre + mujer = reina)
Se establecen patrones como tiempo verbal (caminé/caminar similar a nadé/nadar)
Este proceso permite que las palabras se conviertan en expresiones matemáticas que pueden sumarse, restarse y manipularse. La vectorización es crucial porque transforma conceptos lingüísticos en entidades matemáticas procesables.
Redes neuronales: encontrando patrones ocultos
Con el lenguaje tokenizado y vectorizado, el siguiente paso es crear una red neuronal que aprenda las probabilidades de conexión entre tokens. Este proceso implica:
Dividir el corpus del lenguaje (70% para entrenamiento, 30% para pruebas)
Crear una estructura con capas de entrada, capas ocultas y capas de salida
Ajustar millones de parámetros que representan los pesos de cada "neurona"
Representación conceptual simplificada
def red_neuronal(tokens_entrada):
# Capa de entrada: vectores de tokens
x = vectorizar(tokens_entrada)
# Capas ocultas con millones de parámetros
for capa incapas_ocultas: x =aplicar_pesos(x, capa.pesos) x =funcion_activacion(x)# Capa de salida: probabilidades de siguiente token
returncapa_salida(x)
Este entrenamiento requiere enormes recursos computacionales, lo que explica por qué, aunque los algoritmos existen desde los años 50, solo recientemente hemos podido implementarlos a gran escala.
¿Qué hace que los modelos sean realmente inteligentes?
La verdadera magia de los modelos modernos no está solo en predecir la siguiente palabra, sino en su capacidad para entender contextos y generar respuestas coherentes y creativas.
El mecanismo de atención: enfocándose en lo importante
Similar a cómo los humanos prestamos atención selectiva a ciertas palabras, los modelos utilizan un mecanismo llamado "atención" que:
Identifica un "query" (consulta), una "key" (llave) y un "value" (valor)
Evalúa qué tokens previos son más relevantes para predecir el siguiente
Asigna pesos de importancia a diferentes partes del contexto
Por ejemplo, en "el gato maúlla y el perro...", el modelo presta especial atención a "gato" y "maúlla" para predecir que lo que sigue probablemente sea "ladra".
Este mecanismo de atención es lo que permite a los modelos capturar dependencias a larga distancia en el texto, superando las limitaciones de modelos anteriores.
Temperatura y creatividad: más allá de la predicción determinista
Los grandes modelos no siempre eligen la palabra con mayor probabilidad. Incorporan un parámetro llamado "temperatura" que:
A temperatura baja: seleccionan casi siempre la opción más probable (más predecibles)
A temperatura alta: pueden elegir opciones menos probables (más creativos)
Esta variabilidad controlada es crucial para generar respuestas que no sean meramente predecibles sino también creativas e interesantes.
RLHF: aprendiendo a conversar como humanos
El último componente que transformó estos modelos en asistentes conversacionales fue el Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF, por sus siglas en inglés):
Se contrataron miles de personas para interactuar con los modelos
Se recompensaba al modelo cuando respondía apropiadamente como un chat
Se penalizaba cuando sus respuestas no eran adecuadas
Este proceso recalibró las "neuronas" del modelo para que aprendiera a:
Mantener conversaciones coherentes
Saber cuándo dejar de generar texto
Desarrollar una "personalidad" consistente
El RLHF es lo que convirtió a modelos como GPT en ChatGPT, transformando un generador de texto en un asistente conversacional.
¿Por qué es importante entender estos fundamentos?
Comprender cómo funcionan los grandes modelos de lenguaje nos permite:
Utilizarlos más eficazmente mediante prompts bien diseñados
Anticipar sus limitaciones y sesgos
Contribuir al desarrollo de la próxima generación de IA
Los modelos de lenguaje representan la frontera actual del conocimiento en inteligencia artificial generativa. Su funcionamiento, aunque complejo, se basa en principios matemáticos y estadísticos que transforman el lenguaje humano en representaciones procesables por máquinas.
La próxima vez que interactúes con ChatGPT o cualquier otro asistente basado en IA, recuerda que detrás de esa aparente comprensión hay un sofisticado sistema de tokens, vectores, redes neuronales y mecanismos de atención trabajando en conjunto para ofrecerte respuestas coherentes. ¿Qué aplicaciones de estos modelos te parecen más fascinantes? Comparte tu opinión en los comentarios.
Es increíble, como lograron resumir un video de casi dos horas, en los quince minutos que Freddy quería en un principio, como tiempo para explicar cómo funciona un LLM
Impresionante y las animaciones lo hacen mas dinámico
Increíble. Para quienes vimos ese video-clase, esto es una hazaña única. Y tenemos el honor de que esté en español.
Este curso es, fue y será brutal, para todos aquellos que tenemos una curiosidad insaciable. La cantidad de preguntas que surgen a partir de un tema, ideas para probar en proyectos, y curiosidad intelectual sobre temas que quizá no conocíamos bien es inmensa, creo que ahí se encuentra la clave del curso
Concuerdo, este curso nos da los fundamentos pero a través de las clases he podido sentir la necesidad aprender más de cada uno de los distintos temas que hemos visto. Es la puerta abierta a muchas otras cosas
Quien diria que las matematicas detras de un LLM no es matematica complicada sino algo a muy gran escala
pues tu puedes reescribir toda una rama matematica como el calculo en terminos de matrices o conjuntos (set theory) lo que pasa es que para descubrirlas o explicarlas es mejor usar un metodo y no el otro. Y aunque los fundamentos son sencillos el detalle puede ser muy muy complejo
Capa por capa ¡Literal!
Los modelos de lenguaje (LLMs) y me sorprendió lo elegante que es su diseño matemático detrás de su aparente "inteligencia". Para quienes tengan curiosidad, aquí va un resumen técnico pero accesible:
Tokenización:
El texto se divide en "tokens" (como piezas de un rompecabezas). Por ejemplo, "satisfacción" puede volverse ["sat", "is", "f", "acción"].
Esto convierte el lenguaje en unidades discretas que la IA puede procesar.
Embeddings:
Cada token se mapea a un vector en un espacio multidimensional (imaginen un mapa donde palabras similares están cerca).
Operaciones como rey - hombre + mujer ≈ reina se vuelven posibles algebraicamente.
Atención (el corazón del modelo):
El mecanismo de atención calcula qué partes del texto previo son relevantes para predecir la siguiente palabra.
Usa matrices de consulta (Q), clave (K) y valor (V) para ponderar la importancia de cada token.
Fórmula
Esto permite que el modelo "recuerde" contextos lejanos (como relacionar "gato" con "maúlla" aunque haya palabras en medio).
Generación con temperatura:
Los LLMs no siempre eligen la palabra más probable. Un parámetro de temperatura controla la aleatoriedad:
Temperatura baja: Respuestas deterministas y seguras.
Temperatura alta: Respuestas más creativas (pero arriesgadas).
RLHF (lo que los hace "conversacionales"):
Se ajustan con retroalimentación humana para preferir respuestas naturales y útiles (usando aprendizaje por refuerzo).
GRACIAS
gracias
acá les dejo un video que me gusto, que explica un poco como los LLMs funcionan.
P.D.: es increíble como se manejan palabras modificadoras que cambian el significado de la palabra anterior o de una oración completa (ej. "el gato <u>hidráulico</u>").
Excelente aporte
Necesito que salga el curso de fundamentos de LLMs ahora, excelente curso
Dijeron que en Mayo pero lo sigo esperando:(
1. Introducción al concepto de atención
Cuando alguien dice: “El gato maúlla y el perro…”, la mayoría completa con “ladra”. Esta respuesta surge de nuestra inteligencia y atención: damos más importancia a ciertas palabras (como "maúlla") y anticipamos lo más probable. Sin embargo, hay muchas respuestas posibles: “el perro se asusta”, “el perro no maúlla”, etc.
2. La atención en los modelos de lenguaje
En inteligencia artificial (IA), esta habilidad de enfocarse en palabras clave se llama modelo de atención. Es una parte fundamental de cómo funcionan los grandes modelos de lenguaje (LLMs).
3. Dividir el lenguaje en unidades básicas: los tokens
Para que la IA comprenda el lenguaje humano, se necesita:
Dividir el lenguaje en pequeñas partes llamadas tokens (pueden ser letras, sílabas o palabras).
Aunque parece que el lenguaje es infinito, en realidad tiene un número limitado de combinaciones frecuentes.
Por ejemplo:
En inglés se usan unos 50.000 tokens comunes.
Modelos avanzados, como GPT-4, pueden usar hasta 256.000 tokens.
Ejemplo de tokenización:
La palabra “satisfacción” puede dividirse en tokens como “sat”, “is”, “f”, “acción”.
4. Relación entre tokens: el espacio vectorial
Una vez tokenizado el texto, el modelo evalúa qué tan cercanos están los tokens entre sí.
Se representan en un espacio multidimensional (más allá de las 3 dimensiones que podemos visualizar).
Cada token tiene un vector que indica su cercanía a otros tokens.
Ejemplos de similitudes:
"Gato", "perro" y "lobo" están cerca porque son animales.
"Banano" y "manzana" están cerca porque son frutas.
Relaciones más complejas:
“Rey” y “reina” se relacionan con “hombre” y “mujer” a través del vector “género”.
“Italia” y “Roma” forman un vector similar al de “Colombia” y “Bogotá”.
5. Crear modelos que predicen palabras
Después de mapear las palabras como vectores, el modelo:
Calcula la probabilidad de que una palabra siga a otra.
Usa un gran volumen de datos (libros, internet, redes sociales).
Divide estos datos:
70 % para entrenar.
30 % para validar el modelo.
Esto se conoce como el corpus del lenguaje.
6. Las redes neuronales
Una red neuronal tiene:
Capa de entrada: los tokens iniciales.
Capas ocultas: funciones que detectan patrones.
Capa de salida: la palabra predicha.
Este proceso detecta patrones como:
Rimas.
Conjugaciones verbales.
Construcciones de marketing o programación.
Una red neuronal contiene miles de millones de parámetros que se ajustan durante el entrenamiento para mejorar la predicción.
7. El problema de la complejidad
Predecir todas las combinaciones posibles de tokens sería muy costoso en términos de memoria y procesamiento. Por eso, el modelo:
Se enfoca solo en las palabras más importantes.
Usa el mecanismo de atención para identificar qué palabras influyen más en la predicción.
8. Cómo funciona la atención (Query, Key, Value)
Cuando escribimos algo como “El gato maúlla y el perro…”, el modelo analiza:
Values (valores): se usan para calcular qué palabra debería venir.
Esto produce un vector de probabilidad que sugiere varias palabras posibles como: “ladra”, “llora”, “no”, etc.
9. Temperatura y creatividad
Los modelos de lenguaje no eligen siempre la opción más probable. Gracias a un parámetro llamado temperatura:
A veces eligen la segunda o tercera opción más probable.
Esto les da un grado de creatividad.
10. De autocompletado a conversaciones
Los primeros modelos GPT solo completaban texto.
Para convertirlos en asistentes conversacionales como ChatGPT, OpenAI entrenó el modelo con personas reales (unas 6000 en África), que:
Recompensaban buenas respuestas.
Corregían malos comportamientos.
Este método se llama RLHF (aprendizaje reforzado con retroalimentación humana).
Amigo muchas gracias por los apuntes que compartiste
muy bueno el resumen, me permitio rescatar algunos detalles mas.
Hola @Freddy, excelente clase. Soy profesora de IA desde hace 10 años en una universidad y cuando vi lo que hicieron con el paper "Attention is All you Need", tuve un montón de sentimientos encontrados, pues llevaba varios semestres intentando que mis alumnos entrenaran asistentes con lenguaje natural empleando Deep Learning, pero siempre caíamos rendidos por el mismo hecho: El computador se podía quemar entrenando los modelos o para un estudiante en un período de 16 semanas era un reto aprender a hacer Deep Learning con redes neuronales.
Me tomé el atrevimiento de tomar el resumen de tu clase y meterlo en NapkinAI, hizo infografías maravillosas de tu resumen. Citándote como fuente, combinada con NapkinAI te agregaré en mi material de clases para el uso de estas hermosas imágenes.
el proceso de crear los tokens se llama tokenización, hay algoritmos que lo hacen, son como algoritmos de compresión enfocados en lenguaje, el mas popular es Byte-Pair Encoding ,
OpenAI usa uno llamado Tiktoken , pueden probar como funciona el tokenizador oficial de OpenAI según la versión
La ecuación de atención se expresa matemáticamente a través de un mecanismo que incluye los conceptos de "query" (consulta), "key" (llave) y "value" (valor). En términos generales, se calcula como:
Se toma un "query" y se calcula la similitud con todos los "keys".
Se aplica una función de activación (usualmente softmax) para obtener pesos que indican la importancia de cada "key".
Finalmente, se multiplica cada "value" por su peso correspondiente y se suman, resultando en una representación ponderada que captura la atención del modelo en el contexto.
Este enfoque permite a los modelos de lenguaje centrarse en las partes más relevantes de la entrada. Para una comprensión más profunda, considera explorar el curso de Platzi sobre redes neuronales.
🚸 Dia *4* 🤓 ¡Carpe Diem!✌️
Que vivan las matemáticas, estoy ansiosa por ver el curso de Fundamentos de LLMs con Jhenner!
Ya salio, como va eso?
En teoria entonces cuando le preguntamos algo a gpt o geminis internamente lo que este LLM hace es tokenizar la pregunta e ir haciendo comparaciones entre posibles respuesta y segun la probabilidad en la mas adecuada es con la que nos responde jejeje que interesante!!
yei por fin pude terminar la clase de aquel live jajajaj muchas gracias freddy
Esta clase es la que mas veces he visto, es mucha información condensada de manera magistral .
Esta explicacion la vi en el platzi conf y me parecio muy ilustrativa la forma en que la explica Fredy, yo lo que haria es dividir estas mutidimensiones por categorias para que no sea necesario detallar tanto las palabras que no se requieran en el contexto en detalle, con esto haria una multidimension mas especializada, asi como los seres humanos que no todos somos expertos en todo y se puede optimizar su uso.
Un muy buen curso aprendi bastante muchas gracias por todo. Pienso que el futuro estara dominado por la inteligencia artificial, pero no solo la generativa, sino los otro tipos predictiva, etc. Por eso estoy decidido en aprender cuanto sea posible, si quieren saber mas siganme en mi canal estoy subiendo videos que no son para nada dificiles pero si muy instructivos. en instagram @elkin_ai01 y youtube @elkin_ai
Los LLMs como ChatGPT son el resultado de años de avances en matemáticas, lingüística y computación. Aunque parezca que “entienden”, lo que hacen es predecir con enorme precisión qué palabra viene a continuación, basándose en todo el contexto anterior.