You don't have access to this class

Keep learning! Join and start boosting your career

Aprovecha el precio especial y haz tu profesión a prueba de IA

Antes: $249

Currency
$209
Suscríbete

Termina en:

0 Días
5 Hrs
26 Min
32 Seg

Tokenización

3/16
Resources

Understanding how language models (LLMs) define and handle words is essential to correctly choose and apply such tools in real-world circumstances. Embeddings, vector representations with specific dimensions, allow you to find semantic relationships, but first you need to determine what exactly constitutes a "word".

What is tokenization in LLM and how does it work?

Tokenization in language models such as GPT, Cloth or Lama involves breaking text into units called tokens. Unlike simple space divisions performed automatically by humans, these models employ algorithmic methods and neural networks to identify relevant textual patterns.

Imagine a cook who slices all his ingredients in exactly the same way, without considering the particularities of each food:

  • This rigidity could hinder the preparation of certain dishes.
  • Similarly, a tokenizer using too rigid a method would lose efficiency in correctly interpreting the context of each word.

That's why LLM tokenizers examine millions of texts to intuitively decide how best to split words according to their context and semantic relevance.

Why do tokens matter on a practical level?

Whenever you interact with a tool like OpenAI, you will notice terms like "128k context window" or pricing associated with the number of tokens:

  • The cost is generally billed per tokens used.
  • A "context window" limits the volume of parseable or generable text; understanding this limitation helps to better manage prompts.

Because of this, knowing how tokens are determined allows:

  • Optimize prompts sent to models to reduce costs.
  • Properly fragment problems into several parts if they exceed the model's context capabilities.

How do language peculiarities affect the effectiveness of the prompt?

The effectiveness of the prompt also depends on a thorough knowledge of the language being worked on. Key factors such as:

  • Correct use of question or exclamation marks in Spanish.
  • Accurate use of contractions (e.g., "de él" into "del").
  • Considerations such as the proper use of capital letters.

These details significantly impact the effectiveness of the response generated by the model. A carefully designed prompt, considering all these idiomatic peculiarities, improves the quality of the results.

Why are LLMs especially good at writing code?

Another known strength of LLMs lies in code generation. This is because:

  • There are huge volumes of code available for machine learning.
  • The programmatic syntax has very well-defined and predictable rules, making it easy to process algorithmically.

In addition, solving mathematical problems is more challenging for LLMs because:

  • Mathematics is mostly not based on natural language semantics.
  • Often, it is preferred to translate these problems to automatic code generation to address them effectively.

This knowledge paves the way for learning advanced prompting techniques and using tools such as OpenAI's Playground.

Contributions 9

Questions 0

Sort by:

Want to see more contributions, questions and answers from the community?

Los nuevos modelos de lenguaje (LLMs) sí son más sensibles a la ortografía y puntuación que sus predecesores. Como se mencionó en la clase, variaciones como el uso correcto de mayúsculas, signos de interrogación y contracciones pueden afectar la efectividad de un prompt. Una redacción intencionada ayuda a que el modelo entienda mejor el contexto y genere respuestas más precisas. Por lo tanto, prestar atención a estos detalles puede mejorar significativamente los resultados al interactuar con modelos avanzados.
## Tipos de Tokenización * **Por palabras:** Divide el texto en palabras completas. Eg: "Gato" -> "gato" * **Por caracteres:** Cada carácter es un token individual. Eg: "Gato" -> "g", "a", "t", "o" * **Por subpalabras:** Divide palabras en unidades más pequeñas según frecuencia. Eg: "Supermercado" -> "super" + "mercado" ![](https://static.platzi.com/media/user_upload/upload-1748aec8-3b84-4450-8cd6-8b66581ca8c1.png)![](https://static.platzi.com/media/user_upload/upload-625545d1-54ce-4cb6-9a8c-4c6f9e5b10d8.png) ## ¿Por qué es necesaria la tokenización? ## 1. Los modelos trabajan con números Las redes neuronales no procesan texto directamente, sino que operan con vectores numéricos. La tokenización convierte el texto en secuencias de números que el modelo puede procesar. 2\. Vocabulario fijo Los LLMs tienen un vocabulario predefinido (típicamente entre 30,000 y 100,000 tokens) que se crea durante el entrenamiento del modelo. 3\. Longitud de contexto Los LLMs tienen una ventana de contexto máxima (por ejemplo, 4K, 8K, 32K tokens) que determina cuánto texto pueden procesar a la vez. 4\. Eficiencia computacional Trabajar con tokens permite una representación más eficiente y compacta del texto para su procesamiento.
### ¿Qué son los embeddings? * Representaciones vectoriales de palabras con n dimensiones. * Sirven para encontrar relaciones semánticas y características de las palabras. ### El problema de definir una palabra * Los LLM no cortan las palabras igual que los humanos (por espacios). * El proceso se llama tokenización y depende del contexto y patrones aprendidos. ### Analogía con un chef * Así como un chef corta los alimentos de distintas formas según el plato, un LLM corta (tokeniza) las palabras de acuerdo a lo que quiere obtener. * No existe una única forma de cortar las palabras. ### ¿Cómo funciona la tokenización en los LLM? * Los LLM usan redes neuronales para aprender patrones y decidir cómo cortar mejor las palabras. * Este corte afecta la calidad de los resultados. ### Tokens y costos en los LLM * Los modelos como GPT usan tokens para medir uso y costos. Los LLM cobran por tokens usados. * Ejemplos de precios en OpenAI: Se cobra por millón de tokens de entrada y salida. * El límite de tokens define cuánto texto se puede enviar y recibir. ### Importancia de entender los tokens * Conocer los límites de tokens ayuda a diseñar mejores prompts. * Permite dividir un problema grande en partes pequeñas cuando se alcanza el límite. ### Ejemplo de tokenización * Frase “el gato come pescado” se tokeniza fácilmente por los espacios. * Palabras largas o complejas pueden dividirse según patrones aprendidos. ### Influencia del idioma en la tokenización * El idioma afecta cómo se tokeniza: inglés, español o japonés tienen particularidades. * Detalles como signos de interrogación, contracciones o mayúsculas afectan el resultado. ### Cómo mejorar los prompts * Leer mucho y tener buen vocabulario ayuda a crear mejores prompts. * Usar el lenguaje de forma natural y común mejora la efectividad de las respuestas. * Es clave usar un lenguaje natural y correcto. ### Ventaja de los LLM escribiendo código * El código es muy fácil de entender para los LLM por su estructura y sintaxis exacta. * La generación de código es uno de los principales usos de los LLM. ### Dificultad de los LLM con matemáticas * Las matemáticas no se basan en patrones de lenguaje, por eso son más difíciles para un LLM. * Los LLM suelen convertir problemas matemáticos en código para resolverlos. ### Preparación para escribir mejores prompts * Es necesario entender cómo funciona la tokenización y los embeddings. * Leer y usar buen vocabulario mejora los prompts.
La inteligencia artificial (IA) no amplifica la estupidez de manera intrínseca, pero puede reflejar sesgos presentes en los datos con los que se entrena. Si se alimenta a un modelo con información errónea o sesgada, sus respuestas también lo serán. Por tanto, es esencial seleccionar y curar adecuadamente los datos y ser críticos con los resultados que proporciona la IA. Esto se relaciona con la tokenización y el proceso de embeddings, donde la calidad de los datos influye en la efectividad del modelo.
🔤 ¿Qué es la tokenización? La **tokenización** es el proceso de **dividir un texto en partes más pequeñas** llamadas **tokens**. Un **token** no siempre es una palabra. Puede ser: * Una palabra completa (`gato`) * Una parte de una palabra (`increíble` puede ser `in`, `cre`, `í`, `ble`) * Un signo de puntuación (`!`, `¿`, `...`) * Un espacio (` `) La tokenización es **la primera etapa** para que ChatGPT entienda tu mensaje. ### 🧠 ¿Por qué se hace? Las máquinas **no entienden el lenguaje humano** como lo hacemos nosotros. Necesitan **números**. La tokenización: 1. Divide el texto en tokens. 2. Asigna un número a cada token. 3. Transforma tu mensaje en una secuencia de números (vectores) que el modelo puede procesar. ### 🔍 Ejemplo sencillo: Tú escribes: > "Hola, ¿cómo estás?" ChatGPT lo tokeniza así (ejemplo con su tokenizador típico): * `"Hola"` → Token 15496 * `","` → Token 11 * `"¿"` → Token 29871 * `"cómo"` → Token 3490 * `"estás"` → Token 837 * `"?"` → Token 30 Y lo convierte en la secuencia: `[15496, 11, 29871, 3490, 837, 30]` ### 🛠️ ¿Cómo convierte eso en respuesta? 1. **Tokenización**: divide tu mensaje en tokens. 2. **Embedding**: convierte esos tokens en vectores (números en un espacio N-dimensional). 3. **Procesamiento**: analiza los vectores, los relaciona con lo que sabe, busca el significado, y predice la mejor respuesta. 4. **Generación de respuesta**: crea tokens de respuesta uno por uno, basándose en probabilidad. 5. **Detokenización**: esos tokens de respuesta se convierten en texto entendible para ti. ### ⚠️ ¿Por qué importa esto? * ChatGPT **tiene un límite de tokens** por conversación (por ejemplo, GPT-4o maneja hasta ~128,000 tokens). * Un texto largo usa más tokens que palabras. * Saber esto te ayuda a **resumir mejor**, **optimizar tus prompts**, y entender por qué a veces ChatGPT corta la respuesta. ### ✨ Curiosidad adicional Una palabra como “transformación” puede ocupar más de un token. Una palabra como “sol” solo ocupa uno. Una palabra rara o inventada puede ocupar varios tokens.
Hola!. Les comparto una lectura complementaria sobre los Tokens. Espero les sirva de algo. <https://www.xataka.com/robotica-e-ia/que-token-cuando-hablamos-ia-que-importante-que-gemini-admita-millon>
Y si en vez de tokenizar palabras tokenizaramos conceptos, a un nivel semántico?
Cual es la relación entre los embeddings y la tonkenizacion?
Un embedding es una representación vectorial de palabras o frases en un espacio de alta dimensión. Permite capturar relaciones semánticas y contextuales entre las palabras, facilitando el procesamiento del lenguaje natural por modelos de lenguaje. Los embeddings se generan mediante técnicas como el aprendizaje profundo y son fundamentales para la tokenización en LLMs, ya que convierten texto en una forma que las máquinas pueden entender y utilizar para tareas como traducción, clasificación o generación de texto.