Configuración de temperatura, top-p y top-k en modelos de lenguaje

Clase 2 de 4Curso de tips y trucos de IA

Resumen

Trabajar con modelos de lenguaje grandes implica comprender los hiperparámetros que controlan la generación de respuestas. Ajustar temperatura, top-p y top-k puede marcar una gran diferencia tanto en creatividad como en precisión de las respuestas que obtenemos de herramientas como Gemini 2.5 Pro, Google AI Studio o Vertex AI.

¿Cómo influye la temperatura en la creatividad de la IA?

La temperatura regula cuán predecible o creativa será la respuesta de un modelo de lenguaje. Si está configurada en uno, el modelo responde de manera promedio, tal como espera la mayoría.

  • Subir la temperatura a dos permite que el modelo genere respuestas más variadas, empleando tokens menos usuales.
  • Notarás mayor creatividad, como comentarios más extensos en el código o ejemplos más detallados.
  • Reducir la temperatura produce respuestas más predecibles y alineadas a lo que el modelo ha encontrado con mayor frecuencia en su entrenamiento.

Explorar diferentes niveles de temperatura te permite identificar el equilibrio entre creatividad y precisión, según tu necesidad.

¿Qué es top-p y cómo mejora la selección de tokens?

El parámetro top-p (probabilidad acumulada o nucleus sampling) limita la cantidad de tokens que el modelo puede usar en cada respuesta, enfocándose solo en los que suman una probabilidad total igual o menor al valor configurado.

  • Un top-p bajo (por ejemplo, 0.05) restringe mucho las opciones, haciendo la salida más precisa y menos creativa.
  • Un top-p alto (como 0.95) permite escoger entre más tokens, dando respuestas menos deterministas.
  • En tareas relacionadas con código, una configuración recomendada suele ser top-p: 0.80 y temperatura: 0.92.

La combinación adecuada depende de tu objetivo. Más creatividad puede requerir valores más altos, mientras que para respuestas técnicas la precisión es clave.

¿Por qué el top-k es relevante en algunos modelos?

El parámetro top-k determina el número máximo de tokens candidatos que el modelo puede considerar en cada paso de generación.

  • Un top-k bajo hace las respuestas más predecibles.
  • Un top-k alto, por ejemplo 500, aumenta la diversidad y aleatoriedad.
  • En situaciones como escribir historias, puedes usar temperatura y top-p al máximo y top-k alto para promover variedad.
  • Si buscas precisión, como en matemáticas o código, lo ideal es bajar estos valores.

Ten presente que no todos los modelos soportan top-k; revisa la documentación de cada uno para conocer los hiperparámetros disponibles.

¿Qué recomendaciones prácticas existen para combinar estos hiperparámetros?

Cada tarea puede requerir un ajuste distinto. Por ejemplo:

  • Para historias: temperatura alta, top-p y top-k elevados.
  • Para código: valores bajos para más determinismo y precisión.
  • Experimenta con diferentes configuraciones para ver cómo varía el resultado según el caso de uso y el modelo.

Otras opciones, como el presence penalty, ayudan a evitar repeticiones, ideal para obtener respuestas más concisas o creativas.

¿Ya probaste ajustar estos parámetros en tus proyectos? Comparte tu experiencia y sigue explorando nuevos modelos para encontrar la mejor combinación.