Configuración de temperatura, top-p y top-k en modelos de lenguaje

Clase 2 de 4 • Curso de tips y trucos de IA

Resumen

Trabajar con modelos de lenguaje grandes implica comprender los hiperparámetros que controlan la generación de respuestas. Ajustar temperatura, top-p y top-k puede marcar una gran diferencia tanto en creatividad como en precisión de las respuestas que obtenemos de herramientas como Gemini 2.5 Pro, Google AI Studio o Vertex AI.

¿Cómo influye la temperatura en la creatividad de la IA?

La temperatura regula cuán predecible o creativa será la respuesta de un modelo de lenguaje. Si está configurada en uno, el modelo responde de manera promedio, tal como espera la mayoría.

Subir la temperatura a dos permite que el modelo genere respuestas más variadas, empleando tokens menos usuales.
Notarás mayor creatividad, como comentarios más extensos en el código o ejemplos más detallados.
Reducir la temperatura produce respuestas más predecibles y alineadas a lo que el modelo ha encontrado con mayor frecuencia en su entrenamiento.

Explorar diferentes niveles de temperatura te permite identificar el equilibrio entre creatividad y precisión, según tu necesidad.

¿Qué es top-p y cómo mejora la selección de tokens?

El parámetro top-p (probabilidad acumulada o nucleus sampling) limita la cantidad de tokens que el modelo puede usar en cada respuesta, enfocándose solo en los que suman una probabilidad total igual o menor al valor configurado.

Un top-p bajo (por ejemplo, 0.05) restringe mucho las opciones, haciendo la salida más precisa y menos creativa.
Un top-p alto (como 0.95) permite escoger entre más tokens, dando respuestas menos deterministas.
En tareas relacionadas con código, una configuración recomendada suele ser top-p: 0.80 y temperatura: 0.92.

La combinación adecuada depende de tu objetivo. Más creatividad puede requerir valores más altos, mientras que para respuestas técnicas la precisión es clave.

¿Por qué el top-k es relevante en algunos modelos?

El parámetro top-k determina el número máximo de tokens candidatos que el modelo puede considerar en cada paso de generación.

Un top-k bajo hace las respuestas más predecibles.
Un top-k alto, por ejemplo 500, aumenta la diversidad y aleatoriedad.
En situaciones como escribir historias, puedes usar temperatura y top-p al máximo y top-k alto para promover variedad.
Si buscas precisión, como en matemáticas o código, lo ideal es bajar estos valores.

Ten presente que no todos los modelos soportan top-k; revisa la documentación de cada uno para conocer los hiperparámetros disponibles.

¿Qué recomendaciones prácticas existen para combinar estos hiperparámetros?

Cada tarea puede requerir un ajuste distinto. Por ejemplo:

Para historias: temperatura alta, top-p y top-k elevados.
Para código: valores bajos para más determinismo y precisión.
Experimenta con diferentes configuraciones para ver cómo varía el resultado según el caso de uso y el modelo.

Otras opciones, como el presence penalty, ayudan a evitar repeticiones, ideal para obtener respuestas más concisas o creativas.

¿Ya probaste ajustar estos parámetros en tus proyectos? Comparte tu experiencia y sigue explorando nuevos modelos para encontrar la mejor combinación.

Jerson Andres Cuellar Saenz

student•

Creo que la clase anterior de tips para respuestas de LLMs (Freddy) y saltar a esta es muy grande la brecha de conocimiento que necesita y queda uno sin contexto claro

Génesis Morales

student•

Totalmente de acuerdo

Francisco August

student•

de acuerdo con usted

David De La Pena

student•

No se si sea relevante, pero la grabación muestra al instructor sobre la configuración que esta colocando (asi que NO se ve realmente)

Yolotl Zoe Manrique

student•

Hiperparámetros

Configuraciones que podemos ajustar para modificar el comportamiento de un modelo de lenguaje grande (LLM) sin cambiar el prompt. Estos ajustes influyen directamente en cómo el modelo selecciona los tokens (palabras o fragmentos de texto) para generar sus respuestas. Afectando directamente la diversidad, creatividad y determinismo de las respuestas.

Temperatura> Controla el nivel de aleatoriedad o creatividad en las respuestas del modelo. Se configura típicamente en un rango de 0 a 2, donde:
- Baja (cercana a 0): Respuestas más deterministas y conservadoras. El modelo selecciona los tokens de mayor probabilidad, generando soluciones más predecibles y básicas.
- Media (alrededor de 1): Equilibrio entre creatividad y precisión. Esta es la configuración predeterminada en la mayoría de las interfaces.
- Alta (cercana a 2): Respuestas más diversas y creativas. El modelo considera tokens menos probables, produciendo contenido más original aunque potencialmente menos preciso.
Top-p> También conocido como "nucleus sampling", este parámetro controla la diversidad de tokens que el modelo considera para su respuesta. Al limitar o ampliar la selección de tokens, permite generar respuestas más predecibles o diversas.
1. Ordena todos los tokens posibles de mayor a menor probabilidad.
2. Selecciona únicamente los tokens cuyas probabilidades sumadas alcanzan el valor de Top-p establecido.
3. Elige aleatoriamente entre los tokens seleccionados.
Top-k> Especifica el número máximo de tokens candidatos que el modelo puede considerar al generar una respuesta. Esta función permite controlar con precisión el nivel de creatividad del modelo y está disponible en algunos modelos, como los de Anthropic en Google Cloud.
- Un valor bajo de Top-k (por ejemplo, 10) genera respuestas más predecibles y deterministas.
- Un valor alto (por ejemplo, 500) produce respuestas más variadas y aleatorias.
Penalty Parameters> Particularmente útiles al generar contenido extenso, como historias o documentación de código, pues ayudan a evitar redundancias y mantener la diversidad del texto.Algunos son:
- Presence penalty: Penaliza al modelo por repetir temas o conceptos.
- Repetition penalty: Evita específicamente que el modelo repita palabras o frases exactas.
Configuraciones
- Tareas creativas (escritura, storytelling):
  - Temperatura: Alta (1.5-2.0)
  - Top-p: Alto (0.95-1.0)
  - Top-k: Alto (100-500)
- Tareas técnicas (programación, matemáticas):
  - Temperatura: Baja (0.2-0.5)
  - Top-p: Bajo (0.25-0.5)
  - Top-k: Bajo (10-50)

Jose L. Figueroa

student•

Gracias por el resumen!!!!

Ivonne Daniela Canaviri Gonzalez

student•

exelente explicacion. gracias

Carlos Adrian PACHECO PINILLA

student•

Mil disculpas, pero desde mi punto de vista, esta clase no es optima, no logro identificar las diferencias en los ejemplos planteados. Obviamente el profe Jhenner es teso en el tema, pero para las mentes tan limitadas como la mia, sugiero ejemplos más representativos, qué opina #PlatziTeam ?

Andrea Alexandra Mora Vega

student•

Resumen de esta clase con una breve intro:

Los modelos de IA como GPT-4o, Gemini Pro, Vertex y otros LLMs pueden usarse desde chats convencionales o desde consolas más avanzadas como el Playground de OpenAI, el AI Studio de Google o Vertex AI. En estas consolar podemos ajustar parámetros e hiperparámetros según sea nuestro caso de uso —y esa es la clave para sacarles el máximo provecho acomodando el modelo a lo que nosotros necesitemos.

No es lo mismo un caso de uso de una narrativa fantástica que resolver un caso lógico-matemático. Algunos hiperparámetros clave:

Temperatura: controla la creatividad. Alta temperatura = más impredecible, baja = más precisa.
Top-p (nucleus sampling): filtra los tokens según su probabilidad acumulada. Limita la respuesta a un conjunto más coherente.
Top-k (más común en Anthropic): define cuántos tokens candidatos se consideran. Menores valores = respuestas más deterministas.
Presence penalty / Repeat penalty: penalizan repeticiones para que el modelo no se vuelva redundante.

Un tip importante: revisar la documentación de cada modelo permite entender mejor qué hiperparámetros están disponibles en cada modelo para elegir cuál y cómo usarlos estratégicamente según sea el caso de uso.

Laura Alzate

student•

Súper, acá está el contexto que necesitaba! Gracias!

David Angel

student•

Gracias

David Antequera

student•

Pero solamente maneja la temperatura Google AI Studio?

Platzi

student•

Además de la temperatura, Google AI Studio permite ajustar otros hiperparámetros como top p y top k para obtener diferentes resultados.

Enrique Alexis Lopez Araujo

student•

no es la única herramienta que maneja la temperatura. Otros modelos de lenguaje, como los de OpenAI, también permiten ajustar la temperatura para controlar https://platform.openai.com/ https://console.anthropic.com/ pero seria las plataformas como ai studio de google openai y anthropic tienen estos features

Victor Baruch Pazaran Jaimes

student•

La clase está muy interesante, pero no sería mejor iniciar un nuevo chat cada que haga modificaciones en la temperatura para que los chats pasados no influencien las nuevas respuestas?

Grabiela M de los Angeles Medina Parra

student•

Es correcto. Fue lo que nos enseñaron en los otros cursos sobre Inteligencia Artificial. Supongo que no lo hizo para aligerar la clase.

Alejandra Hernandez Hernandez

student•

Entiendo pero me quedo un poco sin contexto sobre las herramientas que está usando...

Johanna Vargas

student••

Mi sugerencia viendo la clase es complementar con el curso de Fundamentos de LLMs https://platzi.com/cursos/llms/ ya que hay palabras técnicas que a la primera se puede quedar como pollo sin cabeza.

Lo que comprendo de esta clase es que se enseña a experimentar con los hiperparámetros (valores de configuración que se establecen antes de comenzar el proceso de entrenamiento de un modelo de aprendizaje automático, y que controlan el comportamiento del algoritmo durante ese proceso) = Optimización, lo que hace que el modelo sea más creativo, menos determinista, entre otras cosas, en este caso los ejemplos se hacen con los LLM Google AI Studio y Vertex AI de Google Cloud.

Pedro Esteban Bedoya Castaño

student•

Vertex AI es una plataforma de Google Cloud que permite desarrollar, implementar y escalar modelos de inteligencia artificial. Facilita la creación de aplicaciones utilizando modelos de aprendizaje automático y proporciona herramientas para gestionar el ciclo de vida de modelos de IA, incluyendo la selección de modelos, la configuración de hiperparámetros y la implementación en producción. Además, ofrece capacidades avanzadas como el uso de diferentes modelos y parámetros como "top k" y "top p" para optimizar las respuestas generadas, lo que puede ser útil en contextos como los discutidos en el curso de IA.

Juan Carlos Quishpe

student•

Parámetros clave en modelos de lenguaje

Al usar modelos de lenguaje, los principales parámetros a considerar son el prompt, la temperatura y Top-p. La temperatura regula la creatividad: valores bajos dan respuestas más precisas y altas más creativas. Top-p limita las opciones de palabras según su probabilidad, haciendo la respuesta más controlada o más variada.

Ejemplos prácticos

Una consulta con temperatura 1 genera una respuesta promedio. Al aumentar la temperatura a 2, el modelo ofrece respuestas más elaboradas y comentadas. Reduciendo Top-p, el modelo se vuelve más determinista y menos disperso.

Otros ajustes avanzados

En plataformas como Vertex AI con modelos de Anthropic, también se puede ajustar Top-k, que define cuántas opciones considera el modelo antes de elegir un token. Además, parámetros como repetition penalty ayudan a evitar repeticiones.

Recomendación

Experimentar con diferentes combinaciones de temperatura, Top-p y Top-k permite adaptar el modelo a tareas creativas o técnicas como código, logrando el equilibrio ideal entre precisión y originalidad.

Maximiliano Ayarde

student•

Recuerdo que al principio le configurabas la temperatura al máximo a algunos modelos y te terminaban mostrando caracteres rarísimos en la salida jajajaj Realmente escogía los tokens menos probables! 😆

Xiomara Gomez Gutierrez

student•

Clase 1: Si tengo un objeto que pesa 80 kg

Clase 2: Calcule la masa del sol

Gabriel Obregón

student•

🧠 HIPERPARÁMETROS EN MODELOS DE LENGUAJE

🎛️ TEMPERATURA – ¿Cómo afecta la creatividad?

Baja (ej. 0.2 – 0.5): ✅ Respuestas más precisas y predecibles ❌ Menos creatividad
Media (≈ 1): 🔁 Generación equilibrada, sin extremos
Alta (ej. 1.5 – 2): ✅ Más variedad y originalidad ❌ Menos control en la respuesta 📌 Ideal para tareas creativas (ej. ejemplos detallados, redacción libre)

🎯 TOP-P – ¿Qué es el nucleus sampling?

¿Qué hace? Limita la generación a un conjunto de tokens cuya probabilidad total acumulada ≤ valor de top-p.
Top-p bajo (ej. 0.05): ✅ Alta precisión ❌ Baja diversidad
Top-p alto (ej. 0.95): ✅ Más creatividad y espontaneidad ❌ Respuestas menos predecibles

📌 Recomendado para código: → Top-p: 0.80 + Temperatura: 0.92

🔢 TOP-K – ¿Qué tokens puede elegir el modelo?

¿Qué hace? Limita el número máximo de tokens candidatos en cada paso.
Top-k bajo (ej. 10): ✅ Generación muy controlada ❌ Menos diversidad
Top-k alto (ej. 500): ✅ Alta variedad ❌ Menos determinismo

⚠️ No todos los modelos usan top-k → Revisa la documentación

🧩 ¿CÓMO COMBINAR LOS PARÁMETROS SEGÚN LA TAREA?

📝 Historias / Creatividad:
- Temperatura: alta
- Top-p: alto
- Top-k: alto
👨‍💻 Código / Precisión técnica:
- Temperatura: baja
- Top-p: bajo
- Top-k: bajo

➕ EXTRAS ÚTILES

Presence penalty: Evita repeticiones → mejora creatividad o claridad

Isaac David Hernández Vallejo

student•

Para los muchos que no entendimos el top-p:

Olvidemos las definiciones complejas. Piénsalo de esta forma:

Top-p es un filtro de calidad.

Imagina que el modelo tiene que elegir la siguiente palabra. Ha calculado las probabilidades:

casa (50%)
hogar (30%)
edificio (10%)
manzana (0.01%)
... y miles de otras palabras con probabilidades minúsculas.

Si estableces Top-p = 0.9 (o 90%), el modelo hace esto:

Suma las probabilidades de las palabras más probables: casa (50%) + hogar (30%) + edificio (10%) = 90%.
¡SE DETIENE! Ya alcanzó el umbral del 90%.
Crea un "grupo de candidatos de élite" con solo esas tres palabras: {casa, hogar, edificio}.
Ignora por completo manzana y todas las demás opciones de baja probabilidad.
Finalmente, elige una palabra de ese grupo seguro.

Top-p es el portero que solo deja pasar a los candidatos de calidad a la fiesta. Luego, la Temperatura decide qué tan "loco" se pone el baile dentro de esa fiesta.

---

Pensemos en la diferencia entre temperatura & top-p así:

Temperatura (El Apostador): Una temperatura alta es como un apostador que pone dinero en caballos con pocas probabilidades de ganar. Puede resultar en una victoria sorprendente (creatividad genial) o en una pérdida total (un texto sin sentido).
Top-p (El Gerente de Cartera): Top-p es como un gerente de inversiones. No elige caballos al azar. Primero, crea una cartera con los candidatos más probables hasta alcanzar un nivel de confianza (por ejemplo, 90% de probabilidad acumulada). Luego, elige una opción dentro de esa cartera segura.

La diferencia fundamental es el riesgo. Temperatura arriesga la coherencia por la posibilidad de genialidad, mientras que Top-p busca la máxima diversidad dentro de un rango de opciones seguras y coherentes.

Isaac David Hernández Vallejo

student•

Bajo esta explicación os dejo una pregunta para que la respondan ustedes mismos o la debatan/complementen con un LLM:

- ⁉️ Ahora que ya hemos desglosado el mecanismo: Explica con tus palabras por qué usar Temperatura alta sin un Top-p que la controle puede ser peligroso.

Adonys Santos

student•

En la clase se abordaron los siguientes puntos clave sobre la optimización de hiperparámetros en modelos de lenguaje grande:

Temperatura: Controla la creatividad de las respuestas. Un valor bajo (ej. 0.35) produce respuestas más predecibles, mientras que un valor alto (ej. 2) genera respuestas más diversas y creativas.
Top P: Limita la selección de tokens a aquellos cuya probabilidad acumulada no exceda un cierto umbral. Ajustar este parámetro también influye en la creatividad y la precisión de las respuestas.
Top K: Específico de algunos modelos, determina cuántos candidatos a tokens el modelo puede considerar, afectando así el nivel de aleatoriedad en las respuestas.

Se sugiere experimentar con estos parámetros según el contexto de uso, como programación o escritura creativa.

Pablo Gabriel Mederos Caballero

student•

Respuesta de un Gemini 3 Pro: Para entender realmente cómo funcionan estos parámetros, primero debemos visualizar qué hace el modelo "bajo el capó" justo antes de escribir una palabra.

Imagina que le das al modelo la frase: "El lenguaje de programación más rápido es..."

El modelo no tiene una única respuesta fija. Lo que hace es generar una lista gigante de todas las palabras posibles que podrían seguir, asignándole una probabilidad a cada una.

Por ejemplo, podría calcular esto internamente:

C++: 65%
Rust: 20%
C: 10%
Python: 4%
...
Pizza: 0.00001%

Aquí es donde entran tus parámetros. Son las "perillas" que controlan cómo elegimos una palabra de esa lista. Vamos a desglosarlos paso a paso.

1. Temperature (Temperatura): El "Escalador de Confianza"

La temperatura no recorta la lista, sino que cambia la forma de la curva de probabilidades antes de elegir.

Temperatura Baja (< 1.0): Hace que el modelo sea "conservador". Exagera las diferencias. Si "C++" tenía un 65%, con temperatura baja el modelo lo trata como si fuera un 95%. Las opciones menos probables casi desaparecen.
- Efecto: Respuestas muy deterministas, lógicas y repetitivas.
Temperatura Alta (> 1.0): Hace que el modelo sea "aventurero". Aplana la curva. "C++" baja al 30% y "Rust" o "C" suben de probabilidad. Incluso "Pizza" gana una pequeña oportunidad.
- Efecto: Respuestas más creativas y variadas, pero con mayor riesgo de errores o incoherencias (alucinaciones).

2. Top-K: El "Ranking Duro"

Este es un filtro de corte bruto. Le dices al modelo: "Ordena las palabras de mayor a menor probabilidad y quédate solo con las K primeras".

Si configuras Top-K = 3 en nuestro ejemplo anterior:

El modelo selecciona: [C++, Rust, C].
Elimina completamente "Python" y "Pizza", aunque la Temperatura fuera alta.
Luego, vuelve a calcular las probabilidades solo entre esas 3 y elige una.

Efecto: Evita que el modelo elija palabras absurdas (como "Pizza" en este contexto), pero puede cortar opciones válidas si la lista de palabras correctas es larga.

3. Top-P (Nucleus Sampling): El "Corte Dinámico"

Este es el parámetro más sofisticado. En lugar de elegir un número fijo de palabras (como Top-K), eliges un porcentaje acumulado.

Si configuras Top-P = 0.90 (90%):

El modelo empieza a sumar probabilidades desde la más alta hasta llegar al 90%:

C++ (65%) -> Suma: 65% (¿Llegamos a 90? No, seguimos).
Rust (20%) -> Suma: 85% (¿Llegamos a 90? No, seguimos).
C (10%) -> Suma: 95% (¡Pasamos el 90!).

El modelo se queda con el conjunto {C++, Rust, C} y elige entre ellas.

La gran diferencia: Si el modelo está muy seguro ("El color del cielo es..."), la palabra "Azul" tendrá 99% de probabilidad. Top-P solo elegirá "Azul" (1 palabra). Si el modelo está indeciso, Top-P permitirá muchas más palabras. Se adapta al contexto.

Pablo Gabriel Mederos Caballero

student•

Sigo sin entender la diferencia entre Temperatura, Top K y Top P. Si espero que sea más determinista y predecible ¿qué parámetro cambiaría? Yo pensaría que es el Top K, pero resulta que una temperatura menor reduce la creatividad, eso lo haría más determinista. ¿acaso reducir los tokens posibles no hace variar menos la cantidad de palabras o expresiones posibles? Ahí veo determinismo. Esta clase me pareció confusa, y teniendo en cuenta que le puedo preguntar sobre esto a un LLM o a varios antes de llegar a una conclusión más clara, también innecesaria. Si estoy enfocando mal mi razonamiento, es porque no entendí la clase.

Samuel Arotingo Flores

student•

CLASE DEMASIADA INNECESARIA PARA PRINCIPIANTES

Jose Luis López

student•

En wue lsrtw se puede configurar temperatura y tokens en chatgpt?