Cursos Empresas Blog Live Conf Precios

Funcionamiento interno de los grandes modelos de lenguaje

Clase 1 de 20 • Curso de Fundamentos de LLMs

Clase anteriorSiguiente clase

Resumen

Comprender cómo funcionan los grandes modelos de lenguaje (LLM) como GPT, LLAMA y otros similares es clave para aprovechar al máximo la inteligencia artificial moderna. Estos modelos usan procesos matemáticos avanzados y redes neuronales complejas que hacen posible analizar y generar lenguaje con alta precisión.

¿Qué significa tokenizar el lenguaje?

Tokenizar significa dividir el lenguaje humano en pequeñas unidades llamadas tokens, ya sean palabras, sílabas o letras. Aunque parezca infinito, en realidad, el lenguaje posee un número limitado de estas pequeñas unidades:

El inglés, por ejemplo, utiliza aproximadamente 50,000 tokens.
Los grandes modelos (como GPT-4) pueden abarcar hasta 256,000 tokens diferentes.

Estos tokens se organizan en espacios multidimensionales según su relación con otras palabras. Palabras con conceptos similares permanecen cercanas unas a otras en estos espacios.

¿Cómo funciona el sistema de vectores en LLM?

Cada palabra se representa mediante un vector numérico, que indica su relación con otras palabras. Por ejemplo:

Vector mujer está muy cerca al vector hombre en términos similares al vector reina y rey por la dimensión de género.
Palabras como caminé y caminar se sitúan próximas por compartir el vector de tiempo verbal.

Este método permite operaciones matemáticas entre palabras:

Mamá menos género equivale a pariente.
Regente más mujer equivale a reina.

¿Qué papel juegan las redes neuronales?

Las redes neuronales detectan patrones en la manera en la que las palabras (tokens) aparecen relacionadas en textos reales (llamados corpus de datos).

Un 70% del corpus es para entrenar la red y un 30%, para probar su efectividad.
Las redes neuronales poseen capas ocultas que ajustan constantemente valores para reconocer patrones en textos.

Gracias a estos patrones, aprenden cómo las palabras suelen combinarse naturalmente (por ejemplo: después de "yo" generalmente viene "amo") y permiten generar textos coherentes de forma autónoma.

¿Qué es la atención y cómo mejora la predicción del lenguaje?

El modelo de atención ayuda a decidir qué palabras anteriores son relevantes para predecir una palabra posterior. Se basa en:

Consulta (query): el último token escrito (ejemplo: "perro").
Llave (key): palabras relacionadas cerca de este último token ("gato", "maulla").
Valor (value): una ecuación matemática que usa esta cercanía para calcular probabilidades y decidir la próxima palabra posible (en este caso, "ladra").

Así, no se analizan todas las palabras, solo aquellas más relevantes, optimizando la eficiencia del modelo.

¿Cómo entrenan y ajustan los modelos para comportarse como Chats?

Inicialmente, estos modelos solo autocompletaban textos, no sostenían conversaciones. El proceso RLHF (Reinforcement Learning with Human Feedback) permitió transformar estos modelos en verdaderos chats al recompensarles para que interactuaran y respondieran adecuadamente.

OpenAI, por ejemplo, empleó a miles de personas para enseñar al modelo cómo realizar conversaciones naturales y eficaces.
Este entrenamiento les permite adaptarse para distintas respuestas, no siempre eligiendo la opción más probable, impulsando la creatividad.

Te invitamos a explorar más sobre estos fascinantes temas y a comentar cualquier duda que te surja sobre los modelos de lenguaje o sobre inteligencia artificial.

Moises Baldenegro Melendez

student•

Esto de estar sacando los cursos a pedazos, será habitual? ...

Edgar A. Gonzalez Ambriz

student•

No, es la primera vez que me sucede

Juan Carlos Gutiérrez Ayala

student•

Otos cursos han estado así recuerdo uno de ChatGPT y otro del mismo Freddy sobre Intgiería de software.

No sé por qué sacas pedazos, se rompe el ritmo y luego al final uno no sabe si ya acabó el curso o qué. No hay ni aviso de "continuará" ni aviso al inicio de que es solo una parte y no sé cuando continuará.

Gustavo Mamani

student•

Intro to Large Language Models by Andrej Karpathy (founding member OpenAI 2015 and ex Director of AI Tesla 2017) https://www.youtube.com/watch?v=zjkBMFhNj_g

Gustavo Mamani

student•

It's written for other engineers who are new to topics like neural networks, deep learning, and transformers. -> https://leerob.com/ai

Frank Torres

student•

Gustavo, that article from leerob is amazing, thank you for sharing!

Erick Garita Morales

student•

El query en el modelo de atención no necesariamente es solo la última palabra del prompt, sino que es un vector que representa la consulta que se hace sobre el contexto completo. Sin embargo, en el caso específico del proceso de generación de texto, el último token o palabra del prompt se utiliza como referencia para determinar qué palabras cercanas en el contexto son relevantes para predecir la siguiente palabra. Así, aunque el último token es fundamental, el query puede involucrar otros elementos del contexto para hacer una elección más informada.

Jhon Maldonado

student•

La clase se centra en el funcionamiento de los grandes modelos de lenguaje (LLMs). Se abordan conceptos como tokenización, embeddings, y la arquitectura de Transformers. Se explica cómo se entrenan estos modelos, dividiendo el lenguaje en tokens y evaluando la correlación entre ellos en un espacio multidimensional. Se presenta el modelo de atención, que permite identificar palabras significativas en el contexto. Finalmente, se destaca la importancia del aprendizaje reforzado con retroalimentación humana (RLHF) para mejorar la interacción de los modelos como chatbots.

Manuel Bourrouett

student•

Feliz de iniciar este curso! Que excelente trabajo del equipo Platzi, la forma en que explican conceptos complejos de manera que logremos comprender como se relacionan.

Manuel Ayala

student•

A mí me ayuda entender los LLMs comparándolos con nuestro propio cerebro.

La tokenización sería como cuando los sentidos captan información y la mente la corta en pedacitos: palabras, imágenes, recuerdos. Los embeddings se parecen a las asociaciones que construimos con nuestras experiencias: para cada palabra o situación, nuestro cerebro tiene un “vector” de significados, emociones y memorias. Y las capas ocultas recuerdan a nuestros procesos internos: ahí es donde nuestras creencias, prejuicios y aprendizajes anteriores combinan todo y terminan generando lo que pensamos, sentimos o decimos (el output).

Si lo miramos así, casi podríamos decir que nuestras creencias funcionan como “parámetros” o “pesos” matemáticos: deciden a qué le damos más atención y qué ignoramos. Y eso conecta con la neurolingüística y la idea de reprogramar la mente: cambiar el “modelo” interno para que produzca respuestas diferentes ante los mismos estímulos.

Si los LLMs aprenden de los datos con los que se entrenan, ¿de qué datos se ha entrenado nuestro propio “modelo mental”: familia, cultura, medios, algoritmos…?

Y, sobre todo, ¿qué tan conscientes somos de que también podemos “fine-tunearnos” a nosotros mismos?

Gabriel Obregón

student•

1. Cómo funciona nuestra atención

Cuando escuchamos la frase “el gato maúlla y el perro…”, la mayoría completa con “ladra”. ¿Por qué? Porque nuestro cerebro presta atención a ciertas palabras clave y deduce lo más probable. Esto es lo que se llama atención.

2. ¿Qué hacen los modelos de lenguaje?

Los modelos de lenguaje como GPT-4 funcionan prestando atención a ciertas palabras para predecir otras. Para lograrlo:

Se toma todo el lenguaje humano (libros, redes, correos, Wikipedia, etc.).
Se rompe en pedacitos llamados tokens (pueden ser palabras, sílabas o letras).
Por ejemplo, la palabra "satisfacción" puede dividirse en "sat", "is", "f", "acción".

3. ¿Qué son los tokens y cómo se usan?

Hay una cantidad limitada de tokens. Por ejemplo, en inglés suelen usarse unos 50,000.
Los modelos más avanzados pueden usar hasta 256,000 tokens.

Cada token se representa como un vector en un espacio con muchas dimensiones, lo que permite:

Medir similitud entre palabras. Ej.: "gato", "perro" y "lobo" están cerca porque son animales.
Detectar relaciones como:
- "rey" → "reina" es como "hombre" → "mujer"
- "Italia" → "Roma" es como "Colombia" → "Bogotá"

4. ¿Qué hacen las redes neuronales?

Las redes neuronales:

Se entrenan con un 70 % de datos, y se validan con el 30 % restante.
Detectan patrones en los tokens (palabras, sílabas, letras).
Están formadas por:
- Una capa de entrada (los tokens).
- Varias capas ocultas (donde se encuentran los patrones).
- Una capa de salida (el token predicho).

5. ¿Cómo predicen la siguiente palabra?

La red aprende que después de “yo” puede venir “amo”, o que “mi mamá” puede seguirse con “me”.
Esta predicción depende de miles de millones de parámetros ajustados matemáticamente.
Esta tecnología existe desde los años 50, pero solo recientemente hay suficiente capacidad computacional para entrenarla.

6. El modelo de atención

El modelo de atención se basa en tres componentes:

Query (consulta): palabra actual.
Key (llave): palabras anteriores relevantes.
Value (valor): información matemática de esas palabras.

Ejemplo:

En “el gato maúlla y el perro…”, el modelo detecta que “maúlla” y “gato” son claves para predecir qué sigue después de “perro”.

7. ¿Cómo se elige la palabra final?

Se calcula una probabilidad para cada posible palabra siguiente.
Normalmente se elige la de mayor probabilidad.
Pero para generar respuestas creativas, los modelos usan una función llamada temperatura, que permite elegir a veces la segunda o tercera opción.

8. ¿Cómo aprendieron los modelos a conversar?

Al principio, los modelos solo completaban texto.
OpenAI entrenó a sus modelos con ayuda de 6000 personas que:
- Premiaran respuestas de estilo conversacional.
- Corrigieran cuando el modelo no se comportaba como un chat.

Este proceso se llama RLHF (Aprendizaje Reforzado con Retroalimentación Humana).

José Luis Puc Sarmiento

student•

A este curso le van agregar más clases?

Mariangelica Useche

Team Platzi•

Sí. Pronto estarán disponibles.

Mauricio Martínez Orjuela

student•

Rolando Jose Torres Sanchez

student•

El ejemplo de gato no es muy bueno porque en la dimension animal esta cerca del cero pero en la dimension automovil, tambien esta cerca del cero, porque todos los autos tienen gato para cambiar las ruedas ponchadas.

Mateo Orozco Lotero

student•

Quienes Readys en el 2025?

Santiago Pineda Botero

student•

Para destilar un LLM privado empresarial local con modelos ya entrenados, sigue estos pasos:

Selecciona un modelo preentrenado: Elige un modelo de la familia de los Transformers que se ajuste a tus necesidades, como GPT o BERT.
Prepara tus datos: Reúne y limpia los datos específicos de tu empresa que deseas utilizar para ajustar el modelo.
Fine-tuning: Utiliza técnicas de fine-tuning para adaptar el modelo preentrenado a tus datos. Esto implica ajustar los hiperparámetros y entrenar el modelo con tus datos durante un período determinado.
Evaluación: Mide el rendimiento del modelo ajustado utilizando métricas adecuadas y realiza ajustes según sea necesario.
Implementación: Despliega el modelo en tu infraestructura local y asegúrate de que esté bien integrado con tus sistemas.

Recuerda que Platzi ofrece cursos que pueden ayudarte en el proceso de entrenamiento y ajuste de modelos de lenguaje.

David Ramirez

student•

Actualmente me estoy preparando para la certificacion de OCI AI fundamentals. Estoy regresando a este curso por que es fundamental entender los modelos para la certificación y siento que aquí esta mejor explicado que en otras fuentes

Diego Armando Toro Cárdenas

student•

Perfecto — te doy varias continuaciones según tono. Elige la que quieras (o úsala tal cual):

Opciones sencillas / literales

El perro ladra y el gato maúlla. (la forma estándar y neutra)

Opciones con rima / ritmo

El perro ladra y el gato maúlla — cada cual canta su tonada.
El perro ladra y el gato maúlla; uno anuncia, otro se explaya.

Opciones humorísticas / irreverentes

El perro ladra y el gato finge que no lo oye.
El perro ladra y el gato sube la autoestima.

Opciones poéticas / evocadoras

El perro ladra y el gato ronronea a la luna.
El perro ladra y el gato teje silencios.

Opción proverbial / filosófica

El perro ladra y el gato hace lo suyo — la vida sigue.

Dime cuál te late y adapto el resto (más variantes, tono más formal, verso corto, diálogo, meme, lo que quieras).

Ricardo Terán

student•

EMPECEMOS ESTA AVENTURA

LEIDY YUDIER MORENO MORENO

student•

Una red neuronal es un modelo computacional inspirado en el funcionamiento del cerebro humano. Se compone de capas de nodos (neuronas) conectados entre sí, donde cada conexión tiene un peso que se ajusta durante el proceso de entrenamiento. Las redes neuronales se utilizan para identificar patrones en datos, como en el procesamiento de lenguaje natural, donde aprenden relaciones entre palabras a través de la tokenización y la atención, tal como se mencionó en la clase sobre grandes modelos de lenguaje.

Alfredo Olmedo

student•

El perro Maulla y el Gato Ladra

Josué Eliezer Gómez Soto

student•

Sublime papu... pase como una hora analizando, buscando maás definiciones de token, su correlación, vector.... es una clase densa pero se entiende todo....

Diego Gutierrez

student•

Un token es una unidad básica de significado en el procesamiento del lenguaje natural. Se refiere a fragmentos de texto, que pueden ser palabras, caracteres o sílabas, que se utilizan para representar información en un modelo de lenguaje. En el contexto de los grandes modelos de lenguaje, los tokens son esenciales para la tokenización, que es el proceso de dividir el lenguaje en estas unidades para su análisis y comprensión. Por ejemplo, en la palabra "satisfacción", los tokens podrían incluir "satisfacción", "acción" y letras individuales.

Mauricio Suarez

student•

Les recomiendo el libro "Prompt Engineering for Generative AI" de James Phoenix y Mike Taylor. ¡Una excelente guía para profundizar en el tema! lo encuentran en Amazon

Javier Ramos

student•

Gracias por la recomendación

cesar marquez

student•

Buenos dias viniendo a hacer el curso para ver que y como nos va