Cómo funcionan los LLMs
Clase 24 de 24 • Curso de Fundamentos de Ingeniería de Software
Resumen
La inteligencia artificial moderna ha revolucionado nuestra forma de procesar el lenguaje. Los grandes modelos de lenguaje (LLMs) funcionan de manera similar a como nuestro cerebro completa frases automáticamente. Cuando escuchamos "el gato maúlla y el perro...", instintivamente pensamos "ladra". Este proceso, aparentemente simple, esconde complejos mecanismos matemáticos y computacionales que han permitido el desarrollo de sistemas como ChatGPT, Llama y otros modelos avanzados.
¿Cómo funcionan los grandes modelos de lenguaje?
Los modelos de lenguaje modernos operan mediante un proceso sofisticado que comienza con la tokenización y culmina con sistemas de predicción basados en atención. Este proceso permite que la inteligencia artificial comprenda y genere texto de manera coherente y contextualmente apropiada.
Tokenización: dividiendo el lenguaje en unidades básicas
El primer paso fundamental consiste en fragmentar todo el lenguaje humano en unidades más pequeñas llamadas "tokens". Estos pueden ser palabras completas, sílabas o incluso letras individuales. Aunque podríamos pensar que las posibles combinaciones son infinitas, el lenguaje humano es sorprendentemente finito:
- Los sistemas de traducción típicamente utilizan entre 40,000 y 50,000 tokens
- Los grandes modelos como GPT-4 pueden manejar hasta 256,000 tokens en su vocabulario
Por ejemplo, la palabra "satisfacción" podría dividirse en varios tokens: "sat", "is", "f", "acción". Cada uno de estos fragmentos se convierte en una unidad procesable para el modelo.
Vectorización: ubicando palabras en espacios multidimensionales
Una vez tokenizado el lenguaje, cada token se ubica en un espacio vectorial multidimensional donde:
- Palabras similares se posicionan cerca unas de otras (gato, perro y lobo estarán próximos)
- Se crean relaciones vectoriales entre conceptos (rey - hombre + mujer = reina)
- Se establecen patrones como tiempo verbal (caminé/caminar similar a nadé/nadar)
Este proceso permite que las palabras se conviertan en expresiones matemáticas que pueden sumarse, restarse y manipularse. La vectorización es crucial porque transforma conceptos lingüísticos en entidades matemáticas procesables.
Redes neuronales: encontrando patrones ocultos
Con el lenguaje tokenizado y vectorizado, el siguiente paso es crear una red neuronal que aprenda las probabilidades de conexión entre tokens. Este proceso implica:
- Dividir el corpus del lenguaje (70% para entrenamiento, 30% para pruebas)
- Crear una estructura con capas de entrada, capas ocultas y capas de salida
- Ajustar millones de parámetros que representan los pesos de cada "neurona"
# Representación conceptual simplificada
def red_neuronal(tokens_entrada):
# Capa de entrada: vectores de tokens
x = vectorizar(tokens_entrada)
# Capas ocultas con millones de parámetros
for capa in capas_ocultas:
x = aplicar_pesos(x, capa.pesos)
x = funcion_activacion(x)
# Capa de salida: probabilidades de siguiente token
return capa_salida(x)
Este entrenamiento requiere enormes recursos computacionales, lo que explica por qué, aunque los algoritmos existen desde los años 50, solo recientemente hemos podido implementarlos a gran escala.
¿Qué hace que los modelos sean realmente inteligentes?
La verdadera magia de los modelos modernos no está solo en predecir la siguiente palabra, sino en su capacidad para entender contextos y generar respuestas coherentes y creativas.
El mecanismo de atención: enfocándose en lo importante
Similar a cómo los humanos prestamos atención selectiva a ciertas palabras, los modelos utilizan un mecanismo llamado "atención" que:
- Identifica un "query" (consulta), una "key" (llave) y un "value" (valor)
- Evalúa qué tokens previos son más relevantes para predecir el siguiente
- Asigna pesos de importancia a diferentes partes del contexto
Por ejemplo, en "el gato maúlla y el perro...", el modelo presta especial atención a "gato" y "maúlla" para predecir que lo que sigue probablemente sea "ladra".
Este mecanismo de atención es lo que permite a los modelos capturar dependencias a larga distancia en el texto, superando las limitaciones de modelos anteriores.
Temperatura y creatividad: más allá de la predicción determinista
Los grandes modelos no siempre eligen la palabra con mayor probabilidad. Incorporan un parámetro llamado "temperatura" que:
- A temperatura baja: seleccionan casi siempre la opción más probable (más predecibles)
- A temperatura alta: pueden elegir opciones menos probables (más creativos)
Esta variabilidad controlada es crucial para generar respuestas que no sean meramente predecibles sino también creativas e interesantes.
RLHF: aprendiendo a conversar como humanos
El último componente que transformó estos modelos en asistentes conversacionales fue el Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF, por sus siglas en inglés):
- Se contrataron miles de personas para interactuar con los modelos
- Se recompensaba al modelo cuando respondía apropiadamente como un chat
- Se penalizaba cuando sus respuestas no eran adecuadas
Este proceso recalibró las "neuronas" del modelo para que aprendiera a:
- Mantener conversaciones coherentes
- Saber cuándo dejar de generar texto
- Desarrollar una "personalidad" consistente
El RLHF es lo que convirtió a modelos como GPT en ChatGPT, transformando un generador de texto en un asistente conversacional.
¿Por qué es importante entender estos fundamentos?
Comprender cómo funcionan los grandes modelos de lenguaje nos permite:
- Utilizarlos más eficazmente mediante prompts bien diseñados
- Anticipar sus limitaciones y sesgos
- Contribuir al desarrollo de la próxima generación de IA
Los modelos de lenguaje representan la frontera actual del conocimiento en inteligencia artificial generativa. Su funcionamiento, aunque complejo, se basa en principios matemáticos y estadísticos que transforman el lenguaje humano en representaciones procesables por máquinas.
La próxima vez que interactúes con ChatGPT o cualquier otro asistente basado en IA, recuerda que detrás de esa aparente comprensión hay un sofisticado sistema de tokens, vectores, redes neuronales y mecanismos de atención trabajando en conjunto para ofrecerte respuestas coherentes. ¿Qué aplicaciones de estos modelos te parecen más fascinantes? Comparte tu opinión en los comentarios.