Contenido del curso

Eventos Exclusivos

Semana Platzi

Cómo funcionan los LLMs por dentro

Resumen

La inteligencia artificial dejó de ser un tema reservado para ingenieros. Si quieres entender cómo funcionan los LLM, qué hay detrás de ChatGPT y por qué la tokenización, los embeddings y los transformers cambiaron las reglas del juego, esta guía te lleva desde los conceptos base hasta la generación de texto, pensada para curiosos, profesionales y creadores que quieren pasar de usar la IA a construir con ella.

Qué es la inteligencia artificial y cómo se divide

La IA es la ciencia que busca replicar en las máquinas el razonamiento, la toma de decisiones y la resolución de problemas del cerebro humano. Y aunque parece nueva, lleva más de 70 años en desarrollo [02:55].

Dentro de ese gran paraguas hay capas que conviene distinguir:

  • Machine learning: usa grandes volúmenes de datos para analizar patrones y predecir comportamientos.
  • Deep learning: trabaja con redes neuronales que imitan cómo se comunican las neuronas del cerebro y permite procesar texto, imágenes, audio y video.
  • GenAI o inteligencia artificial generativa: crea contenido nuevo a partir de una entrada. Es el boom que explotó hace dos años [04:11].
  • LLMs (Large Language Models): la cereza del pastel, modelos que por primera vez entienden y generan lenguaje humano.

¿Qué es un LLM? Es un modelo de IA entrenado con enormes cantidades de datos para entender y generar lenguaje humano. Ejemplos: ChatGPT, Claude, Grok y Gemini.

Lo revolucionario es que cualquier persona que sepa leer, escribir y tenga internet puede usarlos. Ya no necesitas ser programador para conversar con una máquina [06:11].

Cómo funciona la tokenización en un modelo de lenguaje

Las computadoras solo entienden ceros y unos, así que el primer paso es convertir las palabras en números. A ese proceso lo llamamos tokenización [08:30].

Funciona así: se toma el corpus del lenguaje, es decir, todos los textos digitalizados hasta cierta fecha, y se transforma en bits y bytes. Como un byte solo cubre de 0 a 255, no alcanza para representar todo el idioma. Por eso se usan técnicas como Byte Pair Encoding (BPE), que sigue cuatro pasos:

  1. Divide el texto en caracteres individuales.
  2. Identifica los pares más frecuentes.
  3. Los fusiona en un nuevo token (256, 257, 258…).
  4. Repite hasta alcanzar un número predefinido de fusiones.

Por qué los signos de puntuación importan tanto

En un tokenizer como el de GPT 4o, los signos de interrogación o exclamación suelen tener su propio token. Eso ayuda al modelo a detectar el idioma: en inglés solo se cierra la pregunta, en español se abre y se cierra. Detalles minúsculos que cambian el significado.

Qué son los embeddings y por qué dan contexto a las palabras

Una palabra suelta puede significar varias cosas. Vamos al café y vamos por un café usan la misma palabra, pero una habla de un sitio y otra de una bebida. Los embeddings resuelven esa ambigüedad ubicando cada palabra en un espacio N dimensional [13:16].

Nosotros solo vemos tres dimensiones (alto, ancho, profundo), pero los modelos trabajan con cientos de miles o millones. Cada dimensión es como una característica que define la palabra: dónde se cosecha una fruta, su color, su aporte nutricional, su origen.

¿Cuántos parámetros tiene GPT-4? Más de un billón de parámetros [14:51]. Entre más enriquecido el lenguaje del entrenamiento, mejor entiende los matices.

Lo que hace posible este nivel de detalle son las GPUs, cada vez más rápidas, eficientes y económicas, capaces de procesar todas estas operaciones en paralelo.

Cómo entienden el contexto los transformers y la atención

En 2017, Google publicó el paper que cambió todo: el mecanismo de atención [16:36]. Este modelo identifica qué palabras dentro de una frase son semánticamente más importantes para predecir la siguiente.

Funciona como tu cerebro cuando lees un libro: no recuerdas cada palabra, abstraes lo esencial. Las máquinas hacen lo mismo a través de tres conceptos: query, key y value, inspirados en cómo consultas una base de datos.

Imagina la frase el juguetón y peludo perro. Si analizas la palabra perro, la query sería: ¿qué palabras antes de perro cambian su significado? Las keys serían juguetón y peludo. Los values describen cómo esas palabras modifican al perro. Internamente todo eso son matrices de números que se multiplican en paralelo, miles de veces, sobre el corpus completo.

Por qué los GPUs son el corazón del proceso

Sin GPUs corriendo operaciones en paralelo, entrenar un LLM tomaría siglos. Por eso cada salto de hardware abre la puerta a modelos más grandes y precisos.

Cómo se entrena un LLM y qué es la temperatura

Generar lenguaje es otra historia. El training tiene dos fases: el pre-training y el ajuste fino [22:02].

En el pre-training, el modelo toma todo el corpus tokenizado, calcula embeddings y aplica atención para predecir la siguiente palabra. Por ejemplo, con la frase inicial de Cien años de soledad, el modelo evalúa qué palabra sigue: hielo, pan, arcoíris, patio. A cada opción le asigna una probabilidad.

¿Qué es la temperatura en un modelo de IA? Es el parámetro que decide qué tan creativa será la respuesta. En cero, siempre elige la palabra más probable; al subirla, toma opciones menos obvias [23:42].

Luego viene el ajuste fino. OpenAI usa Reinforcement Learning with Human Feedback: personas reales puntúan las respuestas. DeepSeek innovó usando otro modelo base como evaluador, abaratando costos y tiempos [24:53].

La diferencia entre modelos como 4o y o3

Los modelos que empiezan por o1, o3 o o3-mini están entrenados con chain of thought, una técnica que los obliga a pensar paso a paso. Tardan más, pero razonan mejor. Los modelos como 4o son ideales cuando necesitas velocidad sin tanto análisis profundo [26:36].

Dónde aprender fundamentos de IA y agentes

Si quieres profundizar, hay rutas claras: el curso de Fundamentos de Ingeniería de Software, el curso de Prompt Engineering recién lanzado y un próximo curso de Fundamentos de LLM con enfoque matemático [27:53].

¿Cuál es la diferencia entre un LLM y un agente de IA? Un LLM hace tareas amplias de generación. Un agente es un modelo con tareas específicas, herramientas conectadas (APIs, búsqueda web) y límites definidos para resolver un problema concreto [32:00].

Entender estos fundamentos cambia la forma en que diseñas productos, escribes prompts y eliges qué modelo usar para cada tarea. ¿Qué parte de este recorrido te abrió más preguntas? Cuéntamelo en los comentarios.