Contenido del curso

Fine-tuning de modelos de OpenAI

Temperatura y alucinaciones en fine tuning

Resumen

Ajustar los parámetros de un modelo con fine tuning en OpenAI marca la diferencia entre respuestas alucinadas y respuestas precisas. Aquí verás cómo modificar la temperatura y el maximum length en el Playground, y cómo llevar ese mismo experimento a Python para validar la calidad del modelo.

¿Por qué un modelo con fine tuning sigue alucinando?

Aunque ya entrenaste tu modelo con un dataset propio, las primeras respuestas pueden inventar cursos, enlaces o datos que nunca estuvieron en los datos de entrenamiento. Esto se llama alucinación y suele aparecer cuando la temperatura está demasiado alta y el modelo prioriza creatividad sobre exactitud.

En la prueba inicial, al preguntar cómo mejorar habilidades de creación de contenido con inteligencia artificial, el modelo respondió con un curso inexistente de creación de contenido 2D y 3D en Platzi. La respuesta sonaba bien, pero no estaba en el dataset.

¿Qué es una alucinación en modelos de lenguaje? Es una respuesta que el modelo genera con apariencia de verdad, pero que no está respaldada por sus datos de entrenamiento. Suele ocurrir con temperaturas altas o prompts ambiguos.

¿Cómo afecta la temperatura a las respuestas del modelo?

La temperatura controla qué tan determinista o creativo es el modelo. Cuanto más baja, más predecible; cuanto más alta, más libertad creativa y más riesgo de inventar.

En el Playground, al bajar la temperatura a 0 [01:08], el modelo respondió con el curso real de creación de contenido con IA disponible en platzi.com/cursos/contenido-ia. La diferencia fue inmediata: pasó de inventar a citar un recurso verificable del dataset.

Después vino el ajuste fino para no quedarse en un modo demasiado rígido:

  • Temperatura 0: respuesta exacta, pero limitada y repetitiva.
  • Temperatura 0.01: misma información con leve variación natural.
  • Temperatura 0.02: respuesta más rica, con más contexto sobre lo que el estudiante encontrará en el curso.

Ese pequeño aumento le da al modelo margen para expresarse sin perder la fidelidad al dataset.

¿Para qué sirve el parámetro maximum length?

El maximum length define cuántos tokens puede generar el modelo en su respuesta. Si quieres respuestas más concisas, lo reduces; si necesitas explicaciones extensas, lo amplías.

En la prueba se redujo a 149 [01:38] para forzar respuestas más cortas. El modelo siguió recomendando el curso correcto con su URL, pero sin extenderse de más. Es una palanca útil cuando construyes un chatbot y necesitas controlar costos o tiempos de respuesta.

¿Cuándo conviene bajar el maximum length? Cuando integras el modelo en interfaces de chat donde el usuario espera respuestas rápidas, o cuando quieres optimizar el consumo de tokens por llamada.

¿Cómo llevar el experimento del Playground a Python?

Una vez que encuentras la combinación de parámetros que funciona, el Playground te permite exportar el código directamente. Desde la opción view code [02:35], copias el snippet en Python con la misma configuración: modelo con fine tuning, system message, temperatura y maximum length.

El flujo para reproducirlo en una notebook de análisis es directo:

  1. Copia el código Python generado desde view code.
  2. Pégalo en tu notebook de fine-tune model analysis.
  3. Ejecuta la celda y usa print(response[0].message.content) para ver la salida.
  4. Compara la respuesta con la del Playground para validar consistencia.

Al ejecutarlo, el modelo devolvió la misma recomendación del curso de creación de contenido con IA, e incluso sugirió contenidos adicionales que enriquecen la experiencia del estudiante de Platzi.

¿Qué debes recordar al usar tu modelo desde Python?

La lógica es la misma que cuando usas modelos de chat estándar, con dos diferencias clave:

  • Debes especificar el ID del modelo al que aplicaste fine tuning, no un modelo base.
  • Los messages deben respetar el formato del dataset con el que entrenaste.

Eso garantiza que el comportamiento del asistente se mantenga alineado con los ejemplos que usaste durante el entrenamiento.

¿Qué puedes construir con un modelo afinado?

Con el ciclo completo ya recorrido (preparar el dataset, validar su estructura, ejecutar el fine tuning en la plataforma de OpenAI, evaluar resultados y ajustar parámetros), tienes la base para crear productos reales.

Un chatbot educativo es la idea más obvia, pero hay más caminos: asistentes de soporte, generadores de recomendaciones personalizadas, sistemas de respuesta para documentación interna o agentes que respondan dudas frecuentes con el tono de tu marca.

¿Qué se te ocurre construir con un modelo afinado a tu propio dataset? Cuéntanos en los comentarios qué proyecto tienes en mente.