Cursos Empresas Blog Live Conf Precios

Funcionamiento interno de los grandes modelos de lenguaje

Curso de Fundamentos de LLMs

Contenido del curso

Fundamentos de los LLMs

Componentes Avanzandos de los LLMs

Personalización y Optimización

Evaluación de Modelos

20
Benchmarks para evaluar y comparar modelos LLM
12:53 min

Funcionamiento interno de los grandes modelos de lenguaje

Resumen

Comprender cómo funcionan los grandes modelos de lenguaje (LLM) como GPT, LLAMA y otros similares es clave para aprovechar al máximo la inteligencia artificial moderna. Estos modelos usan procesos matemáticos avanzados y redes neuronales complejas que hacen posible analizar y generar lenguaje con alta precisión.

¿Qué significa tokenizar el lenguaje?

Tokenizar significa dividir el lenguaje humano en pequeñas unidades llamadas tokens, ya sean palabras, sílabas o letras. Aunque parezca infinito, en realidad, el lenguaje posee un número limitado de estas pequeñas unidades:

El inglés, por ejemplo, utiliza aproximadamente 50,000 tokens.
Los grandes modelos (como GPT-4) pueden abarcar hasta 256,000 tokens diferentes.

Estos tokens se organizan en espacios multidimensionales según su relación con otras palabras. Palabras con conceptos similares permanecen cercanas unas a otras en estos espacios.

¿Cómo funciona el sistema de vectores en LLM?

Cada palabra se representa mediante un vector numérico, que indica su relación con otras palabras. Por ejemplo:

Vector mujer está muy cerca al vector hombre en términos similares al vector reina y rey por la dimensión de género.
Palabras como caminé y caminar se sitúan próximas por compartir el vector de tiempo verbal.

Este método permite operaciones matemáticas entre palabras:

Mamá menos género equivale a pariente.
Regente más mujer equivale a reina.

¿Qué papel juegan las redes neuronales?

Las redes neuronales detectan patrones en la manera en la que las palabras (tokens) aparecen relacionadas en textos reales (llamados corpus de datos).

Un 70% del corpus es para entrenar la red y un 30%, para probar su efectividad.
Las redes neuronales poseen capas ocultas que ajustan constantemente valores para reconocer patrones en textos.

Gracias a estos patrones, aprenden cómo las palabras suelen combinarse naturalmente (por ejemplo: después de "yo" generalmente viene "amo") y permiten generar textos coherentes de forma autónoma.

¿Qué es la atención y cómo mejora la predicción del lenguaje?

El modelo de atención ayuda a decidir qué palabras anteriores son relevantes para predecir una palabra posterior. Se basa en:

Consulta (query): el último token escrito (ejemplo: "perro").
Llave (key): palabras relacionadas cerca de este último token ("gato", "maulla").
Valor (value): una ecuación matemática que usa esta cercanía para calcular probabilidades y decidir la próxima palabra posible (en este caso, "ladra").

Así, no se analizan todas las palabras, solo aquellas más relevantes, optimizando la eficiencia del modelo.

¿Cómo entrenan y ajustan los modelos para comportarse como Chats?

Inicialmente, estos modelos solo autocompletaban textos, no sostenían conversaciones. El proceso RLHF (Reinforcement Learning with Human Feedback) permitió transformar estos modelos en verdaderos chats al recompensarles para que interactuaran y respondieran adecuadamente.

OpenAI, por ejemplo, empleó a miles de personas para enseñar al modelo cómo realizar conversaciones naturales y eficaces.
Este entrenamiento les permite adaptarse para distintas respuestas, no siempre eligiendo la opción más probable, impulsando la creatividad.

Te invitamos a explorar más sobre estos fascinantes temas y a comentar cualquier duda que te surja sobre los modelos de lenguaje o sobre inteligencia artificial.

1. Correcciones clave (importantes)

Sobre los tokens

“El inglés utiliza aproximadamente 50,000 tokens”

Impreciso

✔ Corrección:

Los modelos no usan “todos los tokens posibles del idioma”
Usan un vocabulario fijo aprendido (tokenizer)

Ejemplos reales:

GPT-4 → ~100k tokens (según tokenizer)
Algunos modelos modernos → 128k–256k tokens

Pero:

No son palabras, son subpalabras (ej: “caminar” → “cami” + “nar”)

Sobre el 70% / 30%

“70% entrenamiento y 30% prueba”

Simplificación incorrecta para LLM modernos

✔ Realidad:

Se usan datasets masivos no divididos de forma clásica
Validación continua durante entrenamiento
A veces:
- train / validation / test
- pero no con esa proporción fija

Sobre “no se analizan todas las palabras”

“solo las relevantes”

⚠️ Parcialmente cierto

✔ En realidad:

En transformers clásicos:
- sí se comparan todos los tokens con todos (self-attention)
Lo que cambia es:
- el peso (importancia) de cada relación

⚙️ 2. Explicación más rigurosa (nivel ingeniería)

Tokenización (mejor formulación)

Tokenizar no es solo dividir: Es un proceso de compresión inteligente del lenguaje

Algoritmos:
- BPE (Byte Pair Encoding)
- SentencePiece
Permite:
- manejar palabras nuevas
- reducir tamaño del vocabulario

🔹 Representación vectorial (embeddings)

✔ Correcto lo que dijiste, pero falta profundidad:

Cada token → vector en un espacio de alta dimensión (ej: 4096 dimensiones)

No es solo “cercanía semántica”, también codifica:

sintaxis
contexto
uso estadístico

🔹 Aquí está la base matemática clave:

\text{Attention}(Q,K,V)=\text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V

Esto es el corazón de modelos como:

GPT
LLaMA
Traducción conceptual:
Q = lo que estás buscando (query)
K = lo que tienes (keys)
V = la información que puedes usar (values)

🔹 Redes neuronales (mejor explicado)

No solo “detectan patrones”:

Realmente hacen:

transformación de vectores
compresión de información
abstracción progresiva

Capas:

Embedding
Atención
Feedforward (MLP)
Repetición (decenas de capas)

🔹 Predicción del lenguaje (clave que te faltó)

Los LLM hacen algo muy específico:

Predicen el siguiente token dada una secuencia

Formalmente:

[ P(w_t | w_1, w_2, ..., w_{t-1}) ]

👉 Todo lo demás (chat, razonamiento, etc.) emerge de esto.

🔹 RLHF (bien, pero incompleto)

✔ Correcto:

mejora comportamiento conversacional

❗ Pero también hay:

SFT (fine-tuning supervisado)
alignment (alineación ética)
rejection sampling

3. Lo más importante que NO mencionaste

Esto eleva tu nivel:

A. No “entienden” como humanos

No hay conciencia
No hay significado real
Hay correlaciones estadísticas extremadamente sofisticadas

🔥 B. El “razonamiento” es emergente

Modelos como:

DeepSeek-R1

👉 No fueron programados para razonar directamente 👉 El razonamiento surge del entrenamiento + escala

🔥 C. Multimodalidad

Modelos modernos:

integran texto + imagen + audio

Pero: todo termina convertido en vectores

4. Evaluación de tu texto (tipo académico)

Fortalezas

Buena intuición conceptual
Uso correcto de ejemplos (rey/reina)
Explicación clara y pedagógica

❗ Debilidades

Simplificaciones técnicas
Falta de precisión matemática
Generalizaciones (tokens, dataset)

5. Cómo mejorar (temas a estudiar)

Si quieres subir de nivel real:

Transformers
Attention mechanism (profundo)
Embeddings semánticos
Probabilidad y modelos generativos
Optimización (gradient descent)
Tokenización avanzada

6. Preguntas para desarrollar tu inteligencia

Respóndeme sin buscar en internet:

Si un modelo solo predice el siguiente token… 👉 ¿cómo explicas que pueda “razonar”?
¿Qué pasaría si cambias el tokenizer? 👉 ¿afecta la inteligencia del modelo?
Si todo son vectores… ¿dónde “vive” el significado?
¿Por qué modelos más grandes razonan mejor? ¿es tamaño o estructura?

Si quieres, en el siguiente paso puedo:

convertir tu texto en un artículo académico nivel universidad (APA 7) o llevarte a nivel aún más profundo (tipo ingeniería de IA real)

1. Cómo funciona nuestra atención

Cuando escuchamos la frase “el gato maúlla y el perro…”, la mayoría completa con “ladra”. ¿Por qué? Porque nuestro cerebro presta atención a ciertas palabras clave y deduce lo más probable. Esto es lo que se llama atención.

2. ¿Qué hacen los modelos de lenguaje?

Los modelos de lenguaje como GPT-4 funcionan prestando atención a ciertas palabras para predecir otras. Para lograrlo:

Se toma todo el lenguaje humano (libros, redes, correos, Wikipedia, etc.).
Se rompe en pedacitos llamados tokens (pueden ser palabras, sílabas o letras).
Por ejemplo, la palabra "satisfacción" puede dividirse en "sat", "is", "f", "acción".

3. ¿Qué son los tokens y cómo se usan?

Hay una cantidad limitada de tokens. Por ejemplo, en inglés suelen usarse unos 50,000.
Los modelos más avanzados pueden usar hasta 256,000 tokens.

Cada token se representa como un vector en un espacio con muchas dimensiones, lo que permite:

Medir similitud entre palabras. Ej.: "gato", "perro" y "lobo" están cerca porque son animales.
Detectar relaciones como:
- "rey" → "reina" es como "hombre" → "mujer"
- "Italia" → "Roma" es como "Colombia" → "Bogotá"

4. ¿Qué hacen las redes neuronales?

Las redes neuronales:

Se entrenan con un 70 % de datos, y se validan con el 30 % restante.
Detectan patrones en los tokens (palabras, sílabas, letras).
Están formadas por:
- Una capa de entrada (los tokens).
- Varias capas ocultas (donde se encuentran los patrones).
- Una capa de salida (el token predicho).

5. ¿Cómo predicen la siguiente palabra?

La red aprende que después de “yo” puede venir “amo”, o que “mi mamá” puede seguirse con “me”.
Esta predicción depende de miles de millones de parámetros ajustados matemáticamente.
Esta tecnología existe desde los años 50, pero solo recientemente hay suficiente capacidad computacional para entrenarla.

6. El modelo de atención

El modelo de atención se basa en tres componentes:

Query (consulta): palabra actual.
Key (llave): palabras anteriores relevantes.
Value (valor): información matemática de esas palabras.

Ejemplo:

En “el gato maúlla y el perro…”, el modelo detecta que “maúlla” y “gato” son claves para predecir qué sigue después de “perro”.

7. ¿Cómo se elige la palabra final?

Se calcula una probabilidad para cada posible palabra siguiente.
Normalmente se elige la de mayor probabilidad.
Pero para generar respuestas creativas, los modelos usan una función llamada temperatura, que permite elegir a veces la segunda o tercera opción.

8. ¿Cómo aprendieron los modelos a conversar?

Al principio, los modelos solo completaban texto.
OpenAI entrenó a sus modelos con ayuda de 6000 personas que:
- Premiaran respuestas de estilo conversacional.
- Corrigieran cuando el modelo no se comportaba como un chat.

Este proceso se llama RLHF (Aprendizaje Reforzado con Retroalimentación Humana).

Clase 1 de Fundamentos de LLMs

1. Qué es realmente un LLM

Un LLM no entiende el lenguaje. Solo hace esto:

predice el siguiente token más probable según el contexto.

Todo lo demás (respuestas coherentes, conversación, “inteligencia”) sale de estadística + entrenamiento masivo.

Esto es clave para entrevistas.

2. Tokenización → la base de todo

El texto se rompe en tokens:

palabras
partes de palabras
símbolos
espacios

Los modelos trabajan con eso, no con frases humanas.

Dato mental útil:

lenguaje ≠ infinito
vocabulario tokenizable es finito
GPT puede manejar cientos de miles de tokens.

3. Embeddings → significado matemático

Cada token se convierte en un vector numérico en un espacio multidimensional.

Eso permite:

medir similitud entre palabras
hacer “operaciones semánticas” (rey − hombre + mujer ≈ reina)

👉 Esto es lo que habilita:

búsqueda semántica
RAG
clasificación
clustering

(O sea: trabajo real con IA).

4. Redes neuronales → detectar patrones

El modelo aprende viendo muchísimo texto:

~70 % para entrenar
~30 % para validar

Las capas ocultas ajustan pesos → descubren patrones del lenguaje → predicen la siguiente palabra.

No hay comprensión. Hay probabilidad sofisticada.

5. Atención → por qué los transformers funcionan

El mecanismo de attention decide:

qué palabras del contexto importan más para predecir la siguiente.

Esto hace posible:

coherencia en textos largos
contexto conversacional
calidad tipo GPT.

Sin atención → no existiría ChatGPT.

6. RLHF → cómo pasa de autocompletar a conversar

Los modelos base solo completaban texto.

Con Reinforcement Learning from Human Feedback:

humanos califican respuestas
el modelo aprende a sonar útil, seguro y conversacional.

Esto crea la experiencia “chat”.

Lo único que tenés que recordar de esta clase

Si mañana te preguntan en entrevista:

¿Cómo funciona un LLM?

Respuesta corta correcta:

Tokeniza texto → lo convierte en vectores → usa transformers con atención para predecir el siguiente token → y se ajusta con RLHF para conversar.

Con eso ya parecés alguien que sí entiende IA.