Resumen

Cada palabra que escribes en un prompt tiene peso, posición y significado dentro de un espacio matemático gigante. Comprender cómo los modelos de lenguaje organizan y relacionan las palabras es fundamental para escribir instrucciones precisas y obtener respuestas de calidad. Aquí se explica el mecanismo que hace posible que herramientas como ChatGPT entiendan lo que realmente quieres decir.

¿Qué son los embeddings y por qué funcionan como un GPS de palabras?

Imagina que organizas una biblioteca por temáticas: cocina en un estante, novelas en otro, programación en otro más. Usas una característica de cada libro —su tema— para ubicarlo rápidamente. Los modelos de lenguaje hacen algo muy parecido: asignan una ubicación matemática específica a cada palabra, considerando no solo la palabra en sí, sino todo su significado cultural y contextual [0:24].

Esa ubicación se conoce como embedding o representación vectorial. Funciona como el ADN de una palabra: una secuencia de números que le permite a la máquina —que piensa en números— comprender el sentido completo de lo que decimos [1:02].

¿Cómo se representan las palabras con coordenadas numéricas?

Por ejemplo, la palabra perro podría tener las coordenadas 0.2, -0.5, 0.8, 0.3 y muchas más. La palabra gato tendría coordenadas muy cercanas: 0.21, -0.48, 0.79, 0.31. Si no te gustan las matemáticas, piensa en esto como una dirección postal: son simplemente una forma de llegar a un lugar [1:20].

  • Las coordenadas se parecen porque ambas palabras comparten significado.
  • Ambas son animales, mamíferos y domésticos.
  • Aunque las letras sean diferentes, su cercanía semántica queda reflejada en esa ubicación matemática.

¿Cómo capturan los embeddings relaciones complejas entre palabras?

El espacio vectorial no solo agrupa palabras similares, también permite operaciones matemáticas sobre significados. Un ejemplo clásico: si al vector de rey le restas hombre y le sumas mujer, el resultado apunta hacia reina [3:10].

Esto demuestra que el espacio multidimensional captura relaciones abstractas —como género, jerarquía o contexto— de la misma forma en que nosotros las procesamos intuitivamente. La diferencia es que los modelos de lenguaje lo hacen con cálculos numéricos en cientos o miles de dimensiones: 748, 1024 o incluso 2056 dimensiones, algo imposible de visualizar para un ser humano [5:00].

¿Cómo se visualiza el espacio vectorial con el embedding projector?

Existe una herramienta llamada embedding projector que permite ver de forma gráfica cómo se distribuyen las palabras en este espacio. Al buscar queen (reina), las palabras más cercanas son Elizabeth, Anne, King, Mary, Princess y Catherine [5:15].

  • Solo muestra tres dimensiones, aunque los modelos reales usan muchas más.
  • La cercanía entre palabras proviene del entrenamiento con enormes volúmenes de texto disponibles en internet y literatura sin copyright.
  • Gráficamente se observa cómo algunas palabras parecen cercanas pero al rotar la vista tridimensional se alejan, lo que ilustra la complejidad real del espacio.

Este entrenamiento masivo es la base con la que los LLMs simulan la inteligencia humana: primero necesitan entender nuestro lenguaje, y los embeddings son el primer paso para lograrlo [5:50].

¿Por qué los embeddings marcan la diferencia frente al texto predictivo?

El teclado predictivo de WhatsApp solo predice cuál es la siguiente palabra más probable basándose en frecuencia de uso. No busca significado ni intención. Por eso un autocorrector no puede redactar un correo profesional [6:30].

ChatGPT y otros LLMs, en cambio, capturan la esencia de lo que estás comunicando. Cuando escribes "el cielo es", el modelo mueve su atención hacia la zona del espacio vectorial relacionada con el clima y genera respuestas coherentes con ese contexto [7:00].

  • Cada palabra en tu prompt dirige la atención del modelo hacia una región específica del espacio vectorial.
  • Por eso se recomienda escribir prompts en tu idioma nativo: dominas las sutilezas culturales y los matices de significado que en otro idioma podrías perder [7:40].
  • En las siguientes lecciones se explora cómo asignar un rol al LLM y aplicar técnicas de prompt engineering que aprovechan este mecanismo de atención para obtener resultados más efectivos.

Si cada palabra importa, la próxima vez que escribas un prompt, piensa en que estás dando coordenadas precisas a un sistema que entiende significados. ¿Qué palabra cambiarías en tu último prompt para obtener una mejor respuesta? Compártelo en los comentarios.