Cómo funcionan los LLMs por dentro

Contenido del curso

Eventos Exclusivos

Semana Platzi

Resumen

La inteligencia artificial dejó de ser un tema reservado para ingenieros. Si quieres entender cómo funcionan los LLM, qué hay detrás de ChatGPT y por qué la tokenización, los embeddings y los transformers cambiaron las reglas del juego, esta guía te lleva desde los conceptos base hasta la generación de texto, pensada para curiosos, profesionales y creadores que quieren pasar de usar la IA a construir con ella.

Qué es la inteligencia artificial y cómo se divide

La IA es la ciencia que busca replicar en las máquinas el razonamiento, la toma de decisiones y la resolución de problemas del cerebro humano. Y aunque parece nueva, lleva más de 70 años en desarrollo [02:55].

Dentro de ese gran paraguas hay capas que conviene distinguir:

Machine learning: usa grandes volúmenes de datos para analizar patrones y predecir comportamientos.
Deep learning: trabaja con redes neuronales que imitan cómo se comunican las neuronas del cerebro y permite procesar texto, imágenes, audio y video.
GenAI o inteligencia artificial generativa: crea contenido nuevo a partir de una entrada. Es el boom que explotó hace dos años [04:11].
LLMs (Large Language Models): la cereza del pastel, modelos que por primera vez entienden y generan lenguaje humano.

¿Qué es un LLM? Es un modelo de IA entrenado con enormes cantidades de datos para entender y generar lenguaje humano. Ejemplos: ChatGPT, Claude, Grok y Gemini.

Lo revolucionario es que cualquier persona que sepa leer, escribir y tenga internet puede usarlos. Ya no necesitas ser programador para conversar con una máquina [06:11].

Cómo funciona la tokenización en un modelo de lenguaje

Las computadoras solo entienden ceros y unos, así que el primer paso es convertir las palabras en números. A ese proceso lo llamamos tokenización [08:30].

Funciona así: se toma el corpus del lenguaje, es decir, todos los textos digitalizados hasta cierta fecha, y se transforma en bits y bytes. Como un byte solo cubre de 0 a 255, no alcanza para representar todo el idioma. Por eso se usan técnicas como Byte Pair Encoding (BPE), que sigue cuatro pasos:

Divide el texto en caracteres individuales.
Identifica los pares más frecuentes.
Los fusiona en un nuevo token (256, 257, 258…).
Repite hasta alcanzar un número predefinido de fusiones.

Por qué los signos de puntuación importan tanto

En un tokenizer como el de GPT 4o, los signos de interrogación o exclamación suelen tener su propio token. Eso ayuda al modelo a detectar el idioma: en inglés solo se cierra la pregunta, en español se abre y se cierra. Detalles minúsculos que cambian el significado.

Qué son los embeddings y por qué dan contexto a las palabras

Una palabra suelta puede significar varias cosas. Vamos al café y vamos por un café usan la misma palabra, pero una habla de un sitio y otra de una bebida. Los embeddings resuelven esa ambigüedad ubicando cada palabra en un espacio N dimensional [13:16].

Nosotros solo vemos tres dimensiones (alto, ancho, profundo), pero los modelos trabajan con cientos de miles o millones. Cada dimensión es como una característica que define la palabra: dónde se cosecha una fruta, su color, su aporte nutricional, su origen.

¿Cuántos parámetros tiene GPT-4? Más de un billón de parámetros [14:51]. Entre más enriquecido el lenguaje del entrenamiento, mejor entiende los matices.

Lo que hace posible este nivel de detalle son las GPUs, cada vez más rápidas, eficientes y económicas, capaces de procesar todas estas operaciones en paralelo.

Cómo entienden el contexto los transformers y la atención

En 2017, Google publicó el paper que cambió todo: el mecanismo de atención [16:36]. Este modelo identifica qué palabras dentro de una frase son semánticamente más importantes para predecir la siguiente.

Funciona como tu cerebro cuando lees un libro: no recuerdas cada palabra, abstraes lo esencial. Las máquinas hacen lo mismo a través de tres conceptos: query, key y value, inspirados en cómo consultas una base de datos.

Imagina la frase el juguetón y peludo perro. Si analizas la palabra perro, la query sería: ¿qué palabras antes de perro cambian su significado? Las keys serían juguetón y peludo. Los values describen cómo esas palabras modifican al perro. Internamente todo eso son matrices de números que se multiplican en paralelo, miles de veces, sobre el corpus completo.

Por qué los GPUs son el corazón del proceso

Sin GPUs corriendo operaciones en paralelo, entrenar un LLM tomaría siglos. Por eso cada salto de hardware abre la puerta a modelos más grandes y precisos.

Cómo se entrena un LLM y qué es la temperatura

Generar lenguaje es otra historia. El training tiene dos fases: el pre-training y el ajuste fino [22:02].

En el pre-training, el modelo toma todo el corpus tokenizado, calcula embeddings y aplica atención para predecir la siguiente palabra. Por ejemplo, con la frase inicial de Cien años de soledad, el modelo evalúa qué palabra sigue: hielo, pan, arcoíris, patio. A cada opción le asigna una probabilidad.

¿Qué es la temperatura en un modelo de IA? Es el parámetro que decide qué tan creativa será la respuesta. En cero, siempre elige la palabra más probable; al subirla, toma opciones menos obvias [23:42].

Luego viene el ajuste fino. OpenAI usa Reinforcement Learning with Human Feedback: personas reales puntúan las respuestas. DeepSeek innovó usando otro modelo base como evaluador, abaratando costos y tiempos [24:53].

La diferencia entre modelos como 4o y o3

Los modelos que empiezan por o1, o3 o o3-mini están entrenados con chain of thought, una técnica que los obliga a pensar paso a paso. Tardan más, pero razonan mejor. Los modelos como 4o son ideales cuando necesitas velocidad sin tanto análisis profundo [26:36].

Dónde aprender fundamentos de IA y agentes

Si quieres profundizar, hay rutas claras: el curso de Fundamentos de Ingeniería de Software, el curso de Prompt Engineering recién lanzado y un próximo curso de Fundamentos de LLM con enfoque matemático [27:53].

¿Cuál es la diferencia entre un LLM y un agente de IA? Un LLM hace tareas amplias de generación. Un agente es un modelo con tareas específicas, herramientas conectadas (APIs, búsqueda web) y límites definidos para resolver un problema concreto [32:00].

Entender estos fundamentos cambia la forma en que diseñas productos, escribes prompts y eliges qué modelo usar para cada tarea. ¿Qué parte de este recorrido te abrió más preguntas? Cuéntamelo en los comentarios.

Mateo Montoya Henao

Estudiante

La tokenización y los embeddings son dos conceptos absolutamente fundamentales para entender cómo funciona la Inteligencia Artificial moderna, especialmente en el campo del Procesamiento de Lenguaje Natural (PLN/NLP) y, por extensión, en los Grandes Modelos de Lenguaje (LLMs).Aquí te desgloso los fundamentos de cada uno:

🤖 1. Tokenización (Tokenization)

La tokenización es el primer paso crucial para que una máquina pueda "entender" y procesar texto. Básicamente, consiste en dividir una secuencia de texto más grande (como una frase, un párrafo o un documento completo) en unidades más pequeñas llamadas "tokens".

¿Por qué es necesaria la tokenización?

Las computadoras no entienden palabras o frases como los humanos. Necesitan que el texto se divida en unidades discretas y manejables para poder procesarlas numéricamente.

Tipos de Tokenización:

Tokenización por Palabras (Word Tokenization):
- Concepto: Divide el texto en palabras individuales.
- Ejemplo:
  - Texto: "¡Hola, mundo de la IA!"
  - Tokens: ["¡Hola", ",", "mundo", "de", "la", "IA", "!"]
- Desafíos: Puntuación, contracciones ("don't"), palabras compuestas, idiomas sin espacios (como el chino).
Tokenización por Caracteres (Character Tokenization):
- Concepto: Cada caracter es un token.
- Ejemplo:
  - Texto: "Hola"
  - Tokens: ["H", "o", "l", "a"]
- Ventajas: Maneja bien palabras fuera de vocabulario (OOV - Out Of Vocabulary) y errores tipográficos.
- Desafíos: Genera secuencias muy largas y pierde información semántica a nivel de palabra.
Tokenización por Subpalabras (Subword Tokenization):
- Concepto: El método más común y efectivo en los modelos modernos (como BERT, GPT). Divide las palabras en subunidades más pequeñas (partes de palabras).
- Ventajas:
  - Manejo OOV: Puede tokenizar palabras nunca vistas dividiéndolas en subpalabras conocidas (ej., "des-conocido").
  - Reducción de Vocabulario: El vocabulario de subpalabras es mucho más pequeño que el de palabras completas, pero permite representar infinitas palabras.
  - Flexibilidad: Combina la granularidad de caracteres con la semántica de palabras.
- Algoritmos comunes:
  - Byte Pair Encoding (BPE): Busca los pares de bytes/caracteres más frecuentes y los fusiona recursivamente.
  - WordPiece (usado por BERT): Similar a BPE, pero fusiona basándose en la probabilidad de que una fusión incremente la probabilidad del siguiente token.
  - SentencePiece: Independiente del idioma y maneja textos sin espacios, creando tokens a partir de secuencias de bytes.
- Ejemplo con BPE/WordPiece:
  - Texto: "tokenización"
  - Tokens: ["token", "iza", "ción"] o ["token", "i", "z", "ation"]
  - Texto: "desconocido"
  - Tokens: ["des", "conoc", "ido"]

El Vocabulario y los IDs:

Una vez que tienes los tokens, cada token se mapea a un número entero único (su ID) en un vocabulario predefinido. Es este ID numérico el que se introduce en los modelos de IA.

📊 2. Embeddings (Incrustaciones / Representaciones Vectoriales)

Los embeddings son la forma en que los modelos de IA transforman esos IDs numéricos de los tokens (o palabras, o frases) en vectores de números reales (generalmente con cientos o miles de dimensiones) en un espacio matemático.

¿Por qué son necesarios los Embeddings?

Representación Semántica: Permiten que palabras con significados similares estén "cerca" en este espacio vectorial.
- Ejemplo: El embedding de "rey" estará cerca del embedding de "reina", y la relación "rey - hombre + mujer" será similar a "reina".
Manejo de la Información Contextual: A diferencia de una simple tabla (como el One-Hot Encoding), los embeddings capturan relaciones y matices.
Input para Redes Neuronales: Las redes neuronales trabajan con números continuos (vectores), no con IDs discretos.

Tipos de Embeddings:

Embeddings Estáticos (Word2Vec, GloVe, FastText):
- Concepto: Cada palabra (o token) tiene un único vector de embedding fijo, sin importar el contexto en el que aparezca.
- Word2Vec: Famoso por sus modelos Skip-gram y CBOW. Aprende la relación entre una palabra y su contexto.
- GloVe: Construye embeddings basados en la co-ocurrencia global de palabras en un corpus.
- FastText: Extensión de Word2Vec que considera subpalabras, ayudando con palabras fuera de vocabulario y morfología.
- Limitación: "Bank" como "banco de río" tiene el mismo embedding que "bank" como "banco financiero". Pierde el sentido del contexto.
Embeddings Contextuales (BERT, GPT, ELMo, RoBERTa, etc.):
- Concepto: Son el gran avance de la IA moderna. El embedding de una palabra cambia dinámicamente según el contexto de la frase en la que aparece.
- Cómo funcionan: Utilizan arquitecturas complejas (especialmente la de "Transformers" con mecanismos de atención) para analizar la frase completa y generar un vector de embedding único para cada palabra en esa instancia particular.
- Ejemplo: El embedding de "bank" en "river bank" será diferente al de "bank" en "bank account".
- Impacto: Permiten a los modelos entender matices, ambigüedades, sarcasmo y relaciones complejas entre palabras en una oración, lo que llevó a los impresionantes avances en LLMs.

El Proceso Completo (simplificado):

Texto Crudo ("El gato duerme.")
Tokenización (ej., por subpalabras) -> ["El", "gato", "duer", "me", "."]
Mapeo a IDs (usando el vocabulario) -> [101, 2345, 6789, 123, 102]
Generación de Embeddings (contextuales, si es un LLM) -> Un vector (lista de números) para cada ID, pero este vector se ajusta según las otras palabras en la frase.
- embedding("El" en "El gato duerme.")
- embedding("gato" en "El gato duerme.")
- embedding("duerme" en "El gato duerme.")
Entrada a la Red Neuronal/Modelo de IA -> La red opera con estos vectores numéricos.

✅ Importancia para la IA Moderna:

Tokenización es la "digitalización" del lenguaje humano, el primer paso para hacerlo comprensible para las máquinas.
Embeddings son la "representación" semántica de ese lenguaje digital. Son la clave para que los modelos no solo procesen palabras, sino que "entiendan" su significado y sus relaciones contextuales, permitiendo tareas avanzadas como traducción, generación de texto, análisis de sentimiento, respuestas a preguntas y más.

Estos dos conceptos son el puente entre el lenguaje humano y el mundo matemático que las redes neuronales pueden procesar.

Cómo funcionan los LLMs por dentro

Eventos Exclusivos

Cómo las GPU aceleran la IA con CUDA

Futuro tech: fundamentos que sí importan

Por qué Python es mejor lenguaje de programación

Matrices y embeddings en modelos de IA

Cómo aprender inglés con 5 preguntas clave

Gestión de equipos y proyectos con Notion

Mejora tu inglés sin hablar con nativos

Prompts y Herramientas de AI para Practicar Inglés

Deep Learning y Autos Autónomos: Ingeniería y Matemáticas Detrás

Ideas prácticas para emprender con tecnología - Freddy Vega

Phrasal Verbs: Lleva tu Inglés al Siguiente Nivel

Cómo aprendimos inglés sin vivir en el extranjero

Tips de experta para subir tu puntaje TOEFL

Taller: Herramientas para Crear videos usando IA

Sergi Code: CSS, IA y el frontend hoy

Título universitario de EE.UU. con Platzi

IA para finanzas sin ser developer

Empleo tech para jóvenes en Colombia

Semana Platzi

IA y ciberseguridad: cómo defender tu empresa

GitHub Copilot: Revolución en la Programación con IA

Creación de Contenido Viral en Redes Sociales

Fundamentos de Node.js y ExpressJS para Backend en JavaScript

¿Por dónde comenzar en Platzi?

Optimización de Google Search con Inteligencia Artificial

Retención: la base real del growth

Frameworks Modernos para Backend: Javascript, Python y Más

Generación de Imágenes con Inteligencia Artificial

Habilidades técnicas y blandas para crecer en data

Dibuja en el aire con Python y MediaPipe

Cómo funcionan los LLMs por dentro

Crea una landing page con Cursor en 45 min

Los secretos de crear software que sólo aprendes con experiencia

Campañas de Meta AI con menos estructura

Rutas de certificación AWS por rol

Pika, Runway y Hailuo para crear videos

Marca personal más allá del currículum

Cómo entrar al mundo de Data Science

El verdadero rol de la Product Manager

¿Realmente puedo aprender Inglés en línea?

Cuatro fundamentos para prompts sin alucinaciones

Creación y gestión de bases de datos en Notion

Mejora tu flujo de trabajo como dev con AI

Testing de Componentes React con React Testing Library

Python y LLMs en tu backend

Temp Material d220ec9e

Temp Material 93383299

Optimiza tu perfil de LinkedIn con IA

Resumen