Qué son los embeddings y vectores en LLMs

Curso de Prompt Engineering

Contenido del curso

Fundamentos de los LLMs

Tipos de Prompts y sus Aplicaciones

Técnicas Avanzadas de Prompt Engineering

Optimización y Aplicaciones del Prompt Engineering

Tomar examen

Qué son los embeddings y vectores en LLMs

Resumen

Cuando le escribes a ChatGPT o Claude, detrás hay un sistema que convierte tus palabras en coordenadas matemáticas. Eso son los embeddings: la forma en que un LLM entiende el lenguaje a través de vectores con múltiples dimensiones, y entenderlos te ayuda a escribir mejores prompts.

¿Cómo entiende un LLM las palabras a través de vectores?

Un LLM no lee palabras como tú y yo. Las transforma en relaciones y características, igual que cuando buscas un libro en una biblioteca: piso, estantería, posición. Cada palabra recibe coordenadas que la ubican en un espacio.

Piensa en la palabra motivar. Podrías describirla por su categoría gramatical (verbo), por el sentimiento que evoca, por los contextos en los que aparece (deportivo, laboral) o por si sirve para inspirar o desmotivar. Cada una de esas características es una dimensión [01:00].

¿Qué es un embedding? Es un vector que representa una palabra mediante muchas dimensiones numéricas, donde cada dimensión captura una característica semántica o gramatical descubierta por el modelo durante su entrenamiento.

¿Qué es un vector y cómo se relaciona con los embeddings?

En el colegio aprendiste que un vector es un punto en el plano cartesiano con eje X y eje Y. Por ejemplo, el punto (4,5). Después llegó la tercera dimensión, la profundidad, y con eso piensas el ancho, alto y profundidad de un mueble cuando mides si te cabe en la sala [02:30].

Los embeddings llevan esa idea más lejos: son vectores ndimensionales, es decir, pueden tener tantas dimensiones como sean necesarias, muchas más de tres. Por eso cuesta imaginarlos, aunque los uses sin darte cuenta.

¿Cómo funcionan las dimensiones en un embedding?

Usamos vectores ndimensionales todo el tiempo. Cuando dejas una reseña en un restaurante, no evalúas una sola cosa: calificas la comida, el servicio, el ambiente, la frescura, el menú, la música y hasta subes fotos. Ya tienes siete dimensiones para describir tu experiencia [04:30].

Un ejemplo aún más claro está en una dirección postal en México. Para llegar a las oficinas de Platzi en Ciudad de México necesitas:

País: México.
Ciudad: Ciudad de México.
Alcaldía: Cuauhtémoc.
Colonia: Cuauhtémoc.
Calle: Avenida Paseo de la Reforma.
Número exterior: 373.
Número interior: piso 20.
Código postal.
Estado.
Características de la fachada (puerta de cristal).
Entre calles: río Guadalquivir y río Nilo.

Si además quieres encontrar a una persona específica dentro de esa oficina, sumas género y nombre. Llegas fácilmente a 11 dimensiones distintas para identificar a alguien [07:30].

¿Por qué importan tantas dimensiones para caracterizar una palabra?

Si solo usaras una característica general como hombres, descartarías apenas la mitad de la población. Pero combinando dimensiones específicas puedes ubicar con precisión un punto único. Lo mismo ocurre con las palabras: cuantas más dimensiones bien elegidas, mejor se diferencia su significado.

Un dato clave: estas dimensiones no las define un humano. Un algoritmo descubre durante el entrenamiento cuáles caracterizan mejor el lenguaje, después de leer enormes cantidades de literatura y texto disponible.

¿Qué papel juega la similitud semántica en los LLMs?

Una de las dimensiones más importantes es la similitud semántica, que conecta palabras según su significado. Por eso los LLMs manejan varios idiomas sin esfuerzo aparente.

La palabra aguacate en español comparte características con avocado en inglés: ambas son frutas, verdes, comestibles. El modelo no traduce palabra por palabra, encuentra la cercanía semántica entre ambos vectores. Por eso puedes mezclar idiomas en una conversación con ChatGPT y te sigue entendiendo [10:30].

¿Por qué dos palabras significan algo parecido para un LLM? Porque sus vectores quedan cerca en el espacio multidimensional. Perro y gato están cerca entre sí (animales domésticos), pero banana queda lejos de ambas porque pertenece a otra familia semántica.

¿Cómo afecta esto la forma en que escribes un prompt?

Cada palabra que eliges empuja al modelo hacia una zona distinta de ese espacio vectorial. Cambiar una sola palabra puede cambiar por completo el resultado que obtienes.

Si pides redacta un correo serio o redacta un correo formal, el LLM navega dimensiones distintas: serio puede activar tonos más rígidos o solemnes, mientras que formal lo lleva hacia estructuras profesionales. Por eso tu elección de palabras importa tanto.

¿Qué pasa si cambio una palabra del prompt? El embedding cambia, el modelo recorre otra zona del espacio vectorial y la respuesta puede variar de tono, enfoque o contenido. Por eso la precisión léxica mejora los resultados.

¿Qué viene después de entender los embeddings?

Ya tienes claro que los embeddings son vectores ndimensionales que capturan características semánticas, gramaticales y contextuales de cada palabra. También sabes por qué elegir bien tus palabras al escribir un prompt cambia el resultado.

Falta una pieza más para completar el panorama: los tokenizers, que son los responsables de partir tu texto en unidades antes de convertirlo en embeddings. ¿Has notado cómo cambia una respuesta de ChatGPT cuando modificas una sola palabra de tu prompt? Cuéntalo en los comentarios.

Isaac David Hernández Vallejo

Estudiante

Conclusiones después de haber profundizado la clase con un LLM

Lo que hacen los LLMs con nuestras palabras es convertirlas en representaciones numéricas (vectores llamados embeddings). Estos vectores están construidos de manera que capturan las características de uso y el contexto de cada palabra, permitiendo a la IA entender las relaciones de significado y asociación entre ellas basándose en la proximidad de sus vectores en un espacio matemático(N-dimensional).

En esencia: Los *LLMs* convierten palabras en un *lenguaje numérico* (*vectores*) que les permite "medir" qué tan relacionadas están las palabras (*Embeddings*) (por su cercanía en el Espacio N-Dimensional). Esto es fundamental para que la IA pueda entender el significado, el contexto y generar texto coherente.

La *codificación crea* el *embedding* (el *vector*). Y esa *codificación* permite que el *embedding* (el *vector*) se sitúe en el *Espacio N-Dimensional* de forma que muestre sus relaciones**.**

---

➡️ Vectores

*Matemáticamente*:

Un *vector* es una entidad matemática que tiene tanto una magnitud como una dirección.**

Un vector es simplemente un punto ubicado en un plano (con eje X, eje Y, incluso eje Z).
En términos prácticos, podría representar dimensiones físicas como distancia recorrida, ancho y alto de objetos.
Olvídate por un momento de las matemáticas complejas.
- Pensar en un *vector* como una lista ordenada de números. Eso es todo.

En el contexto de los ``LLMs:

Un *vector* es simplemente una forma de codificar información (como una manzana, una palabra, una foto, etc.) en una *secuencia numérica* para que la computadora la pueda "leer" y procesar.
- Cada número en la lista (*vector*) es una "dimensión" o una "característica" que describe algo.
  - (El vector es un punto o posición en el espacio N-Dimensional).
  - El vector es el objeto matemático en sí: la lista ordenada de números [v1, v2, ..., vN].
  - Un "*vector*" es una *lista de números* ([v1, v2, ..., vN]).
    - Es un objeto matemático general.

---

➡️ Embeddings

El *Embedding* es el Vector numérico que representa el significado.

Un *Embedding* es la representación vectorial numérica de un elemento.
Un *Embedding* es un *vector numérico* que representa una palabra.
Los *valores numéricos* en el *vector* (el *embedding*)
Los *Embeddings* Son un *tipo de vector* con un detalle: Son *N-Dimensionales* (Pueden tener tantas dimensiones como sea necesaria (mas de 3))
Un *embedding* es similar a una dirección exacta: permite identificar características específicas de nuestras palabras, ubicándolas de manera precisa en un *espacio multidimensional*.
Un *Embedding* es la representación numérica (el *vector*) de algo (como una palabra o frase), generada de tal forma que su posición en un *Espacio N-Dimensional* refleja su significado o relación con otras cosas.
El *embedding* (que es el *vector*) no es solo una lista de números aleatorios; es una lista de números cuidadosamente calculados que intentan *codificar* todas esas características contextuales y de uso de la palabra.

--- ➡️ Espacios N-Dimensionales

El Espacio N-Dimensional, es donde "ocurre la magia" de las relaciones entre embeddings.
El *Espacio N-Dimensional* no es un lugar físico que espera a los embeddings.

Es el marco matemático de referencia que se crea al definir que los *embeddings* serán vectores ****de *N dimensiones*.Este marco permite que la posición de cada *embedding* (determinada por los números del vector) y la distancia entre ellos tengan un significado que el *LLM* utiliza para entender las *relaciones semánticas* entre palabras.---➡️ La belleza está en cómo un simple concepto matemático (una lista de números = vector) colocado en un marco matemático (espacio N-dimensional) puede usarse para representar algo tan complejo como el significado del lenguaje.---

Javier Ramos

Estudiante

Felicitaciones, Excelente comentario muy bien explicado y lo mejor entendible aun que me quedo doliendo l cabeza jejeje

Gandy Montenegro

Estudiante

perfecto

Jheyson Eduardo Galvis Valencia

María Paula Rodriguez Quiñones

Enrique Alexis Lopez Araujo

William Ruiz

Juan Carlos Quishpe

Juan Alejandro Gómez Jaramillo

Francisco Ponce

BALFRE VAZQUEZ CASTREJON

Jose L. Figueroa

Jorge Guzman Suir

Jose Ever Muñoz Muñoz

Samuel Romero Quevedo

Marcos Vázquez González

Jesus Guillermo Belman Leal

Syddar Bujato Herrera

carlos Isaza Vélez

Karla Verónica Álvarez Vázquez

Evel Castro

Carlos Castillo

Martin Ponce De Leon

Antonio Chaparro

Alejandro Martinez

Luis Miguel Mejia Martinez

Qué son los embeddings y vectores en LLMs

Fundamentos de los LLMs

Este curso tiene una versión actualizada.

Qué es un LLM y cómo darle contexto