Cómo funcionan los LLMs

Clase 1 de 4Curso de Fundamentos de LLMs

Resumen

La inteligencia artificial generativa ha revolucionado nuestra forma de interactuar con la tecnología. Los grandes modelos de lenguaje (LLMs) como ChatGPT, Llama o Gemini funcionan mediante mecanismos matemáticos sofisticados que simulan nuestra capacidad cognitiva, especialmente nuestra atención selectiva. Cuando completamos mentalmente frases como "el gato maúlla y el perro...", estamos aplicando intuiciones que estas máquinas replican mediante complejos cálculos matemáticos.

¿Cómo funcionan los grandes modelos de lenguaje?

Los grandes modelos de lenguaje operan mediante un proceso fascinante que combina matemáticas, estadística y procesamiento lingüístico. Este proceso se puede dividir en varias etapas fundamentales que transforman el lenguaje humano en representaciones matemáticas manipulables.

¿Qué es la tokenización y los espacios vectoriales?

El primer paso para crear un modelo de lenguaje es tokenizar todo el cuerpo del lenguaje humano. Esto significa dividir todas las palabras, frases y textos en unidades más pequeñas llamadas tokens. Contrario a lo que podríamos pensar, el lenguaje no genera infinitas variaciones:

  • Un modelo en inglés puede funcionar con aproximadamente 50.000 tokens
  • Los sistemas de traducción típicamente usan entre 40.000 y 50.000 tokens
  • Los modelos más avanzados como GPT-4 pueden emplear hasta 256.000 tokens en su vocabulario

Una vez tokenizado el lenguaje, cada token se ubica en un espacio vectorial multidimensional donde:

[palabra] = [valor_dimensión_1, valor_dimensión_2, ..., valor_dimensión_n]

En este espacio, palabras semánticamente similares se posicionan cerca unas de otras. Por ejemplo:

  • "Gato", "perro" y "lobo" se ubican próximos entre sí por ser mamíferos y animales
  • "Banano" y "manzana" están cercanas por ser frutas

Esta representación vectorial permite operaciones matemáticas fascinantes:

  • Rey - Hombre + Mujer = Reina
  • Italia - Roma ≈ Colombia - Bogotá

Estos patrones vectoriales capturan relaciones semánticas como género, tiempo verbal o relaciones geográficas.

¿Cómo se entrenan las redes neuronales para el procesamiento de lenguaje?

Para entrenar un modelo de lenguaje se requiere:

  1. Dividir el corpus lingüístico: Típicamente 70% para entrenamiento y 30% para pruebas
  2. Crear una red neuronal con:
    • Capa de entrada (tokens del vocabulario)
    • Capas ocultas (detectan patrones)
    • Capa de salida (predicción de tokens)

La red neuronal ajusta millones o miles de millones de parámetros durante el entrenamiento para capturar patrones lingüísticos como rimas, estructuras gramaticales o estilos específicos. Este proceso requiere enormes capacidades computacionales, razón por la cual, aunque los algoritmos fundamentales existen desde los años 50, solo recientemente tenemos suficiente potencia de cálculo para implementarlos a gran escala.

¿Qué papel juega el mecanismo de atención en los modelos de lenguaje?

El mecanismo de atención es crucial para la efectividad de los modelos modernos. Cuando procesamos la frase "el gato maúlla y el perro", no prestamos igual atención a todas las palabras. Los modelos emplean un sistema similar mediante tres componentes:

  • Query (consulta): La palabra actual que busca relacionarse (ej. "perro")
  • Key (llave): Palabras anteriores relevantes (ej. "gato", "maúlla")
  • Value (valor): La información que se extraerá para la predicción

Este mecanismo se expresa matemáticamente como:

Attention(Q, K, V) = softmax(QK^T/√d_k)V

Donde Q, K y V son matrices matemáticas derivadas del contexto. El resultado es un vector de probabilidades que indica qué palabras podrían seguir. El modelo no siempre selecciona la palabra más probable, sino que incorpora un factor de "temperatura" que introduce variabilidad creativa.

¿Cómo evolucionaron los modelos generativos a interfaces conversacionales?

Los primeros Generative Pretrained Transformers (GPT) simplemente completaban texto de forma lineal. Para convertirlos en interfaces conversacionales como ChatGPT, se implementó el Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF):

  1. Se contratan personas para interactuar con el modelo
  2. Se recompensa al modelo cuando responde adecuadamente como un chat
  3. Se penaliza cuando no cumple con las expectativas conversacionales

Este proceso modifica los pesos neuronales del modelo para que aprenda:

  • Cuándo dejar de generar texto
  • Cómo mantener una conversación coherente
  • Qué formato de respuesta es apropiado (listas, párrafos, etc.)

Las diferencias de personalidad entre modelos como ChatGPT, Claude de Anthropic o Gemini de Google provienen precisamente de las variaciones en este proceso de entrenamiento conversacional.

El campo de la inteligencia artificial generativa representa actualmente la frontera del conocimiento tecnológico. Para quienes deseen profundizar en estos conceptos, existen cursos especializados que abordan desde los fundamentos hasta la implementación práctica de modelos de lenguaje a nivel de ingeniería.

La próxima vez que interactúes con un asistente virtual, recuerda que detrás de sus respuestas hay un sofisticado sistema matemático que ha aprendido a simular nuestra forma de comunicarnos, prestando atención selectiva a las palabras más relevantes para generar contenido coherente y útil. ¿Qué aplicaciones innovadoras crees que podrían desarrollarse con esta tecnología? Comparte tus ideas en los comentarios.