Tokenización y Uso de Tokens en Modelos de Lenguaje Natural

Clase 3 de 16 • Curso de Prompt Engineering

Resumen

Comprender cómo los modelos de lenguaje (LLM) definen y manejan las palabras resulta esencial para elegir y aplicar correctamente dichas herramientas en circunstancias reales. Los embeddings, representaciones vectoriales con dimensiones específicas, permiten encontrar relaciones semánticas, pero antes necesitan determinar qué constituye exactamente una "palabra".

¿Qué es la tokenización en LLM y cómo funciona?

La tokenización en modelos de lenguaje como GPT, Cloth o Lama implica fragmentar el texto en unidades llamadas tokens. A diferencia de simples divisiones por espacios realizadas automáticamente por humanos, estos modelos emplean métodos algorítmicos y redes neuronales para identificar patrones textuales relevantes.

Imagina un cocinero que corta todos sus ingredientes exactamente del mismo modo, sin considerar las particularidades de cada alimento:

Esta rigidez podría entorpecer la preparación de ciertos platos.
De igual forma, un tokenizador usando un método demasiado rígido perdería eficacia al interpretar correctamente el contexto de cada palabra.

Por eso, los tokenizadores de los LLMs examinan millones de textos para decidir intuitivamente cómo dividir mejor las palabras según su contexto y relevancia semántica.

¿Por qué importan los tokens a nivel práctico?

Cada vez que interactúas con una herramienta como OpenAI, notarás términos como "128k context window" o precios asociados al número de tokens:

El costo generalmente se factura por tokens utilizados.
Un "context window" limita el volumen de texto analizable o generable; entender esta limitación ayuda a gestionar mejor los prompts.

Debido a ello, conocer cómo se determinan los tokens permite:

Optimizar los prompts enviados a los modelos para reducir costos.
Fragmentar adecuadamente problemas en varias partes si exceden las capacidades de contexto del modelo.

¿Cómo afectan las particularidades idiomáticas la eficacia del prompt?

La efectividad del prompt depende también del conocimiento profundo del idioma trabajado. Factores claves como:

Uso correcto de signos de interrogación o exclamación en español.
Utilización precisa de contracciones (por ejemplo, "de él" en "del").
Consideraciones como el uso adecuado de mayúsculas.

Estos detalles impactan significativamente en la eficacia de la respuesta generada por el modelo. Un prompt diseñado cuidadosamente, considerando todas estas particularidades idiomáticas, mejora la calidad de los resultados.

¿Por qué los LLM son especialmente buenos escribiendo código?

Otra fortaleza conocida de los LLMs radica en la generación de código. Esto ocurre porque:

Existen enormes volúmenes de código disponibles para el aprendizaje automático.
La sintaxis programática posee reglas muy definidas y predecibles, facilitando su procesamiento algorítmico.

Además, resolver problemas matemáticos resulta más desafiante para los LLM ya que:

Las matemáticas no se basan mayormente en semántica de lenguaje natural.
Frecuentemente, se prefiere trasladar estos problemas a generación automática de código para abordarlos con efectividad.

Este conocimiento prepara el terreno para aprender técnicas avanzadas de prompting y utilizar herramientas como Playground de OpenAI.