Tokenización y su impacto en costos y efectividad de prompts

Clase 3 de 16 • Curso de Prompt Engineering

Resumen

Los tokens no solo representan palabras dentro de un modelo de lenguaje, sino que constituyen una unidad crucial cuyo entendimiento influye directamente sobre el costo, calidad y efectividad al usar herramientas como GPT o Lama. Con una analogía sencilla explicaremos qué implica elegir cómo definimos qué es una palabra y cómo aplicarlo adecuadamente en tus prompts.

¿Qué son exactamente los embeddings y tokens?

Los embeddings son representaciones vectoriales que dotan de significado y contexto a las palabras en los modelos de lenguaje (LLMs). Sin embargo, decidir qué consideramos una palabra, o dicho en términos técnicos, cómo se efectúa la tokenización, cobra igual relevancia. Esta tokenización implica dividir el texto en fragmentos menores, o tokens, los cuales determinan cómo los modelos entienden y responden ante cada palabra o frase.

¿Cómo afecta la tokenización tu uso diario de herramientas como GPT?

Al utilizar herramientas como OpenAI, los tokens determinan tres aspectos relevantes:

Costo económico: Se cobra según cuántos tokens ingresas (entrada) y cuántos obtienes como respuesta (salida).
Capacidad de conversación: Cada interacción está limitada por una ventana específica de tokens, imponiendo restricciones en la cantidad de texto manejable.
Efectividad del resultado: Una correcta elección al separar tokens asegura mejores resultados semánticos y una mejor interacción con el modelo.

¿Qué patrones influyen sobre la tokenización?

Los sistemas como GPT no emplean métodos rígidos de corte, sino algoritmos inteligentes capaces de aprender, gracias a redes neuronales, qué palabras o partes aportan mayor valor contextual. Éstos identifican patrones teniendo en cuenta particularidades del lenguaje tales como:

Usar mayúsculas.
Signos especiales como interrogación o exclamación de apertura.
Contracciones típicas de cada idioma.

Comunicarnos adecuadamente usando estas convenciones puede incrementar considerablemente la efectividad del prompt.

¿Qué diferencias existen según el idioma?

Los algoritmos distinguen y aprenden peculiaridades profundas en cada idioma que analizan, por tal razón, particularidades del español como signos iniciales de interrogación y contracciones tienen impacto directo en la precisión del resultado entregado por el modelo.

¿Por qué estos modelos destacan generando código?

El reconocimiento y generación de código es una de las mayores fortalezas de estos modelos por:

Existir abundante información pública de códigos escritos previamente.
La estructura sintáctica clara y previsiblemente reglada del código facilita considerablemente su análisis y reproducción.

Sin embargo, estas fortalezas no aplican igual a todas las áreas.

¿Cuáles áreas presentan dificultades para los LLMs?

Ciertos procesos, como operaciones matemáticas complejas, no suelen resolverse desde una perspectiva semántica. Ante esto, los modelos derivan estos problemas a códigos específicos que ejecutan el cálculo requerido.

¿Cómo usar esta información al escribir tus prompts?

Al momento de elaborar un prompt, considera:

Mantener un lenguaje claro, conciso y lleno de significado.
Usar las palabras más convencionales y pertinentes de tu idioma.
Recordar la sensibilidad de las elecciones lingüísticas (signos, mayúsculas) que afectan directamente la calidad de respuesta.
Tener presente la capacidad del modelo, ajustando tus prompts según los límites existentes en número de tokens.

¿Te quedó claro cómo aprovechar esta información para tu próximo prompt? ¡Cuéntanos tu experiencia al aplicarlo!