Temperatura y alucinaciones en fine tuning

Curso de Desarrollo de Chatbots con OpenAI

Contenido del curso

OpenAI API

Fine-tuning de modelos de OpenAI

Integración de modelo a aplicación de chat

Conclusión

24
Proyectos de Fine Tuning y Procesamiento de Lenguaje Natural
02:58 min

Tomar examen

Temperatura y alucinaciones en fine tuning

Resumen

Ajustar los parámetros de un modelo con fine tuning en OpenAI marca la diferencia entre respuestas alucinadas y respuestas precisas. Aquí verás cómo modificar la temperatura y el maximum length en el Playground, y cómo llevar ese mismo experimento a Python para validar la calidad del modelo.

¿Por qué un modelo con fine tuning sigue alucinando?

Aunque ya entrenaste tu modelo con un dataset propio, las primeras respuestas pueden inventar cursos, enlaces o datos que nunca estuvieron en los datos de entrenamiento. Esto se llama alucinación y suele aparecer cuando la temperatura está demasiado alta y el modelo prioriza creatividad sobre exactitud.

En la prueba inicial, al preguntar cómo mejorar habilidades de creación de contenido con inteligencia artificial, el modelo respondió con un curso inexistente de creación de contenido 2D y 3D en Platzi. La respuesta sonaba bien, pero no estaba en el dataset.

¿Qué es una alucinación en modelos de lenguaje? Es una respuesta que el modelo genera con apariencia de verdad, pero que no está respaldada por sus datos de entrenamiento. Suele ocurrir con temperaturas altas o prompts ambiguos.

¿Cómo afecta la temperatura a las respuestas del modelo?

La temperatura controla qué tan determinista o creativo es el modelo. Cuanto más baja, más predecible; cuanto más alta, más libertad creativa y más riesgo de inventar.

En el Playground, al bajar la temperatura a 0 [01:08], el modelo respondió con el curso real de creación de contenido con IA disponible en platzi.com/cursos/contenido-ia. La diferencia fue inmediata: pasó de inventar a citar un recurso verificable del dataset.

Después vino el ajuste fino para no quedarse en un modo demasiado rígido:

Temperatura 0: respuesta exacta, pero limitada y repetitiva.
Temperatura 0.01: misma información con leve variación natural.
Temperatura 0.02: respuesta más rica, con más contexto sobre lo que el estudiante encontrará en el curso.

Ese pequeño aumento le da al modelo margen para expresarse sin perder la fidelidad al dataset.

¿Para qué sirve el parámetro maximum length?

El maximum length define cuántos tokens puede generar el modelo en su respuesta. Si quieres respuestas más concisas, lo reduces; si necesitas explicaciones extensas, lo amplías.

En la prueba se redujo a 149 [01:38] para forzar respuestas más cortas. El modelo siguió recomendando el curso correcto con su URL, pero sin extenderse de más. Es una palanca útil cuando construyes un chatbot y necesitas controlar costos o tiempos de respuesta.

¿Cuándo conviene bajar el maximum length? Cuando integras el modelo en interfaces de chat donde el usuario espera respuestas rápidas, o cuando quieres optimizar el consumo de tokens por llamada.

¿Cómo llevar el experimento del Playground a Python?

Una vez que encuentras la combinación de parámetros que funciona, el Playground te permite exportar el código directamente. Desde la opción view code [02:35], copias el snippet en Python con la misma configuración: modelo con fine tuning, system message, temperatura y maximum length.

El flujo para reproducirlo en una notebook de análisis es directo:

Copia el código Python generado desde view code.
Pégalo en tu notebook de fine-tune model analysis.
Ejecuta la celda y usa print(response[0].message.content) para ver la salida.
Compara la respuesta con la del Playground para validar consistencia.

Al ejecutarlo, el modelo devolvió la misma recomendación del curso de creación de contenido con IA, e incluso sugirió contenidos adicionales que enriquecen la experiencia del estudiante de Platzi.

¿Qué debes recordar al usar tu modelo desde Python?

La lógica es la misma que cuando usas modelos de chat estándar, con dos diferencias clave:

Debes especificar el ID del modelo al que aplicaste fine tuning, no un modelo base.
Los messages deben respetar el formato del dataset con el que entrenaste.

Eso garantiza que el comportamiento del asistente se mantenga alineado con los ejemplos que usaste durante el entrenamiento.

¿Qué puedes construir con un modelo afinado?

Con el ciclo completo ya recorrido (preparar el dataset, validar su estructura, ejecutar el fine tuning en la plataforma de OpenAI, evaluar resultados y ajustar parámetros), tienes la base para crear productos reales.

Un chatbot educativo es la idea más obvia, pero hay más caminos: asistentes de soporte, generadores de recomendaciones personalizadas, sistemas de respuesta para documentación interna o agentes que respondan dudas frecuentes con el tono de tu marca.

¿Qué se te ocurre construir con un modelo afinado a tu propio dataset? Cuéntanos en los comentarios qué proyecto tienes en mente.

Paolo Joaquin Pinto Perez

Estudiante

++Chatbot de atención al cliente: caso de estudio++

Un chatbot normalmente contendrá contexto relevante sobre la conversación (detalles del pedido), un resumen de la conversación hasta el momento y los mensajes más recientes. Para este caso de uso, la misma conversación anterior puede generar múltiples filas en el conjunto de datos, cada vez con un contexto ligeramente diferente, para cada generación de agentes como finalización. Este requerirá algunos miles de ejemplos, ya que probablemente tratará con diferentes tipos de solicitudes y problemas de los clientes. El resumen se puede generar con un modelo ajustado de transformación de texto independiente. El conjunto de datos podría tener el siguiente aspecto:

{"prompt":"resumen: <resumen de la interaccion hasta ahora>\n\nInformation Especifica:<por ejemplo orden de detalles en lenguaje natural>\n\n###\n\nCliente: <message1>\nSoporte: <response1>\nCliente: <message2>\nSoporte:", "completion":" <response2>\n"}
{"prompt":"resumen: <resumen de la interaccion hasta ahora>\n\nInformation Especifica:<por ejemplo orden de detalles en lenguaje natural>\n\n###\n\nCliente: <message1>\nSporte: <response1>\nCliente: <message2>\nSoporte: <response2>\nCliente: <message3>\nSoporte:", "completion":" <response3>\n"}

Aquí separamos a propósito los diferentes tipos de información de entrada, pero mantuvimos el diálogo Agente del cliente en el mismo formato entre un aviso y una finalización. Todas las finalizaciones solo deben ser realizadas por el agente, y podemos usar \n como una secuencia de parada al hacer inferencias. Más casos de estudio:

Juan R. Vergara M.

Estudiante

👍📝✔💡

Patricio Sánchez Fernández

Estudiante

Paolo, muchas gracias por todos los aportes que has hecho a lo largo del curso, han sido de mucha ayuda.

Temperatura y alucinaciones en fine tuning

OpenAI API

Análisis de sentimiento con la API de OpenAI

Uso de la Documentación de OpenAI para Fine Tuning y Text Completion

Roles en Chat Completions con GPT-3.5

Temperatura y top P en la API de OpenAI

Juego de adivinanza de animales con OpenAI en Python

Soft limit y hard limit en OpenAI

Actualización de Modelos y Funcionalidades de OpenAI

Fine-tuning de modelos de OpenAI

Cuándo hacer fine tuning a modelos OpenAI

Modelos de OpenAI para Fine-Tuning: Guía Completa

Estima costos en la API de OpenAI con tiktoken

Configuración de entorno local de OpenAI con Anaconda

Reglas para formatear datos en fine tuning de OpenAI

Validación y costo del fine-tuning en OpenAI

Fine-tuning de GPT-3.5 con datos propios

Uso del Playground de OpenAI para Probar Modelos sin Programación

Evaluación de Modelos de IA: Técnicas y Aplicaciones Prácticas