Evaluación de Modelos de IA: Técnicas y Aplicaciones Prácticas

Clase 16 de 24 • Curso de Desarrollo de Chatbots con OpenAI

Contenido del curso

OpenAI API

Fine-tuning de modelos de OpenAI

Integración de modelo a aplicación de chat

Conclusión

24
Proyectos de Fine Tuning y Procesamiento de Lenguaje Natural
02:58 min

Tomar examen

Resumen

Después de completar el proceso de fine tuning con OpenAI, el siguiente paso crítico es validar que tu modelo personalizado funcione correctamente. Existen dos formas principales de hacerlo: desde el Playground de OpenAI y mediante código Python. Ambas permiten evaluar la calidad de las respuestas y analizar las métricas de desempeño para asegurarte de que el entrenamiento fue exitoso.

¿Cómo probar tu modelo con fine tuning en el Playground de OpenAI?

Para comenzar a probar tu modelo personalizado, lo primero es acceder al Playground de OpenAI y seleccionar el modelo con fine tuning desde la lista de modelos disponibles [0:12]. Una vez seleccionado, es fundamental configurar el system message, es decir, el mensaje de sistema que utilizaste en tu conjunto de datos de entrenamiento.

En el caso del proyecto, el system message indica que el modelo es un asistente de estudiantes y clientes de Platzi [0:30]. Si omites este paso, el modelo responderá con información genérica de su base de conocimientos general, no con los datos específicos con los que fue entrenado.

¿Por qué es importante ajustar la temperatura del modelo?

Al hacer una pregunta como "¿qué curso tomar para aprender redes neuronales?", el modelo puede generar una alucinación, es decir, una respuesta que parece correcta pero contiene información inventada [1:06]. Para mitigar esto, se recomienda:

Bajar la temperatura del modelo a cero.
Esto fuerza al modelo a responder con mayor certeza basándose en los datos de entrenamiento.
La respuesta se vuelve más precisa y delimitada.

Con la temperatura en cero, el modelo responde correctamente con el curso específico y su URL en Platzi [1:27].

¿Cómo exportar el experimento a código Python?

Desde el Playground, puedes exportar tu configuración seleccionando View Code y copiando el código Python generado [1:40]. Este código se pega en una notebook llamada Fine Tune Model Analysis, disponible en los recursos del curso.

El código exportado incluye:

La llamada a la API de chat completions.
El identificador del modelo con fine tuning.
Los mensajes configurados en el Playground.
Los parámetros como la temperatura.

Para obtener la respuesta, es necesario agregar la instrucción de impresión: print(response.choices[0].message.content) [2:26].

¿Cómo obtener información y métricas del modelo desde Python?

Más allá de hacer preguntas, Python permite acceder a la información detallada del modelo. Utilizando client.fine_tuning.jobs.retrieve() con el ID del modelo, se obtienen datos como la fecha de creación, errores durante el proceso, el nombre del modelo y los hiperparámetros utilizados [2:52].

Para encontrar el ID correcto, debes ir a la sección de fine tuning en la interfaz de OpenAI y copiar el ID del modelo, no su nombre [3:12].

¿Cómo analizar los resultados de entrenamiento con pandas?

Dentro de la información del modelo se encuentra el archivo de resultados de métricas. Se accede a él con client.files.content() usando el nombre del archivo obtenido previamente [3:48].

El contenido viene como un string con todas las métricas de cada paso de entrenamiento. Para interpretarlo de forma legible, se utiliza pandas [4:22]:

Se hace un split por saltos de línea para separar filas.
Se divide por comas para separar cada registro.
Se crea un dataframe con las columnas: train loss, training accuracy, validation loss y valid mean token accuracy.

Los resultados muestran que en el último paso del entrenamiento:

La pérdida de entrenamiento (train loss) fue de 0.3, la más baja registrada.
El accuracy alcanzó 0.9, un valor cercano a 1 que indica un desempeño sólido [4:55].

¿Cómo visualizar el desempeño del modelo con gráficas?

Convirtiendo los datos a valores numéricos, se pueden graficar con matplotlib para observar la evolución del entrenamiento paso a paso [5:10]. En la gráfica se aprecia que:

El training accuracy aumenta progresivamente hasta llegar a 0.9.
El train loss disminuye de forma constante, lo cual es el comportamiento esperado.

Esta visualización confirma que el modelo tiene un buen desempeño general.

Como ejercicio práctico, compara la calidad de respuestas, el costo y las métricas entre el modelo entrenado con más datos y el que entrenaste con menos datos en clases anteriores. Podrías descubrir que un modelo con menos datos logra un desempeño similar a menor costo. Comparte tus hallazgos en los comentarios.

Comentarios

Gabriel Ichcanziho Pérez Landa

student•

Añadiendo un poquito de contexto:

BLEU (Bilingual Evaluation Understudy):

BLEU es una métrica ampliamente utilizada para evaluar la calidad de las traducciones automáticas o generaciones de lenguaje natural en general. Fue propuesta originalmente para evaluar sistemas de traducción automática, pero también ha sido adoptada para evaluar modelos generativos de lenguaje como ChatGPT. BLEU compara las respuestas generadas por el modelo con las respuestas de referencia proporcionadas en el conjunto de datos de prueba. Para calcular BLEU, se mide la coincidencia de palabras y frases entre las respuestas generadas y las respuestas de referencia. Cuanto mayor sea el puntaje de BLEU, mayor será la similitud entre las respuestas generadas y las respuestas de referencia.

METEOR (Metric for Evaluation of Translation with Explicit Ordering):

METEOR es otra métrica automática utilizada para evaluar la calidad de las traducciones o generaciones de lenguaje natural. Al igual que BLEU, METEOR compara las respuestas generadas con las respuestas de referencia, pero utiliza un enfoque diferente. METEOR no se basa únicamente en la coincidencia exacta de palabras, sino que también tiene en cuenta sinónimos y variaciones gramaticales.

Patricio Sánchez Fernández

student•

Gabriel, muchas gracias por el aporte...

Luis Boivar

student•

Excelente aporte, muchas gracias!

Paolo Joaquin Pinto Perez

student•

Pruebas al modelo con fine-tuning

Debemos evaluar la eficiencia del modelo:

Metricas automaticas: se utilizaran metricas como BLEU y METEOR.
Diversidad y novedad: si tenemos diferentes preguntas y cuando estas respuestas tienen cierta similitud(lo que queremos evitar).
Evaluacion de dominio especifico: Si todas las respuestas pertenecen al mismo contexto con el dataset con el que se entreno.
Evaluación humana: Pedimos a un grupo de personas que evalúen las respuestas generadas en la gramatica y si acierta con el contexto.

Patricio Sánchez Fernández

student•

Buen resumen, Paolo.

Sebastian Gomez

student•

Esta bastante desactualizado el curso, la interfaz del tutor es bastante diferente a la que está en este momento. Deberían actualizar el curso

Erick Bonilla

student•

Tengo una pregunta, o no se si me salte algo de la clase, pero en que momento se le dijo al playground que usara el modelo que entrenamos previamente?

Platzi

student•

No se menciona en el transcript cómo se le indica al playground que use el modelo entrenado previamente.

Wilson Barrera

student•

lo escoges del menu de la derecha donde dice models

Andres Antonio Santisteban Lino

student•

Vale un aporte que agregar, actualmente ha cambiado y te entrega un archivo codificado en base 64 como resultado, tienes que decodificarlo yo lo hive de la siguiente manera:import base64 # Obtener el contenido del archivocontent = client.files.content('file-lkh0aMzm68zhp2OLZ1lhAznD') # Decodificar el contenido de Base64 (si es necesario)file_content = base64.b64decode(content.read()) # Escribir el contenido decodificado en un archivowith open('mi_archivo_decodificado', 'wb') as f: f.write(file_content) # Descargar el archivo decodificadofrom google.colab import filesfiles.download('mi_archivo_decodificado')```js import base64

Obtener el contenido del archivo

content = client.files.content('file-ID DEL ARCHIVO')

Decodificar el contenido de Base64 (si es necesario)

file_content = base64.b64decode(content.read())

Escribir el contenido decodificado en un archivo

with open('mi_archivo_decodificado', 'wb') as f: f.write(file_content)

Descargar el archivo decodificado

from google.colab import files files.download('mi_archivo_decodificado')

David Vallejo Gomez

student•

Te lo agradezco bastante, me estaba costando identificar cómo decodificar el result_files. 👍

Juan Camilo Jaramillo Tascón

student•

Para enero 2026 asi se imprime en el response print(response.output[0].content[0].text)

Pablo Martinez

student•

client =  OpenAI(api_key=os.environ["OPENAI_API_KEY"])
content = client.files.content('file-M1XX')
raw_bytes = content.read()
decoded_bytes = base64.b64decode(raw_bytes)
file_content = decoded_bytes.decode('utf-8')
metric_list = [line.split(',') for line in file_content.strip().split('\n')]
df = pd.DataFrame(metric_list[1:], columns=metric_list[0])
df = df.apply(pd.to_numeric, errors='coerce')
print(df.tail())
```Guía de cómo decodificar el archivo de resultados post entrenamiento. No olvides importar librerías como pandas y base64.

Juan Camilo Jaramillo Tascón

student•

Excelente aporte, muchas gracias.

Pepe Sosa

student•

¿Cuánto es el número recomendado de registros para un entrenamiento que por lo menos arroje respuestas coherentes?

Carli Code

teacher•

Según mi experiencia a partir de 1000 registros

Luis Miguel Rodriguez

student•

No se si estoy haciendo algo mal, el archivo de resultados me ahorra todo menos numeros para posterior graficar ;(

y en teoría es el result_files

Edgar Melean

student•

debes decodificarlo, agrega esto despues del paso de import pandas as pd

import base64

raw_bytes = content.read()

decoded_bytes = base64.b64decode(raw_bytes)

file_content = decoded_bytes.decode('utf-8')

y para esta linea

metrics_list = [line.split(',') for line in file_content.split('\n')]

cambia metrics_str por file_content

Saludos

Arístides Pérez Hernández

student•

¿Qué pasa si el modelo pierde contexto?

Si el modelo pierde contexto, comienza a sufrir de las famosas "alucinaciones" o a entregar información totalmente irrelevante que no pertenece a tu set de datos original. Por ejemplo, si entrenaste una inteligencia artificial exclusivamente para dar soporte técnico sobre un software financiero y de repente empieza a responder con recetas de cocina o datos históricos aleatorios, el modelo ha fallado drásticamente en su evaluación de dominio específico. Para evitar que esto suceda en producción, debes realizar pruebas rigurosas que limiten el universo de conocimiento de la IA. Configurar correctamente parámetros como la temperature y asegurarte de hacer un fine-tuning con datos sumamente limpios y enfocados garantiza que las respuestas se mantengan estrictamente dentro de los límites de tu negocio. Así proteges la credibilidad de tu aplicación y evitas confundir a tus usuarios.

Arístides Pérez Hernández

student•

¿Cuándo debo usar la evaluación humana?

Debes usar la evaluación humana como el filtro definitivo de calidad justo antes de lanzar tu proyecto a producción. Aunque los algoritmos y las métricas automatizadas son increíblemente rápidos para procesar grandes volúmenes de datos, carecen por completo de intuición para detectar sarcasmo, tono, empatía o errores sutiles de contexto que un cerebro humano nota al instante. Es altamente recomendable reunir a un grupo de beta testers o usuarios reales para que interactúen libremente con el modelo y califiquen la naturalidad, la coherencia y la gramática de las respuestas generadas. Esta técnica es absolutamente indispensable en proyectos conversacionales complejos, como asistentes virtuales o tutores educativos, ya que te brinda una retroalimentación cualitativa invaluable. Los humanos pueden juzgar si la IA realmente "se siente" como un experto en la materia, algo que ninguna fórmula matemática puede medir con exactitud.

Arístides Pérez Hernández

student•

¿Cuál es la mejor forma de probar prompts?

La mejor forma de probar prompts es reescribir la misma intención de búsqueda utilizando múltiples estructuras gramaticales y sinónimos directamente en tu entorno de pruebas. Dado que los usuarios reales en el mundo exterior nunca formulan sus preguntas exactamente de la misma manera, es tu deber simular esta variabilidad extrema. Por ejemplo, puedes alternar entre preguntas directas como "¿De qué trata este tema?" y peticiones más formales como "¿Cuál es la descripción detallada de este concepto?". Al ejecutar estas variaciones, puedes observar críticamente si el modelo logra mantener la coherencia semántica, la precisión de los datos y el contexto, a pesar de que la longitud de los tokens o las palabras de entrada cambien drásticamente. Es una práctica de ingeniería de prompts excelente y necesaria para asegurar la robustez de tu inteligencia artificial frente a la imprevisibilidad del lenguaje humano.

Pablo Arango

student•

que pasa si un usuario escribe algo sin sentido, o que no tiene nada que ver con el contexto en mi modelo entrenado ?

Carli Code

teacher•

Hola Pablo, el modelo siempre intentará dar una respuesta, en el caso de este proyecto no establecimos un sesgo de respuesta errónea, por lo que es probable que el modelo tenga alucinaciones e intente responderte en el marco de su conocimiento a una pregunta sin sentido.

Alexis H

student•

Que significa perdida en este context ?

Vicente Benavides

student•

desde la clase anterior no encuentro el fine-tunning de openia en la pagina oficial

Paulo Esteban Orsini

student•

Miguel no me quedo claro como hago para darle la base de conocimientos al modelo. Muchas Gracias.

Mateo Montoya Henao

student•

Después de realizar fine-tuning a un modelo de OpenAI, es importante realizar una serie de pruebas para evaluar su rendimiento y asegurarte de que cumple con tus requisitos. Aquí tienes algunas pruebas y métodos de evaluación que puedes aplicar:

1. Evaluación de la Calidad del Texto Generado

Consistencia: Verifica que el modelo genere respuestas consistentes con los prompts de entrada. Puedes crear un conjunto de pruebas con prompts similares y comparar las respuestas generadas.
Relevancia: Evalúa que las respuestas sean relevantes y útiles para la tarea específica. Puedes usar métricas como la precisión y el recall para medir la relevancia de las respuestas.

2. Evaluación de la Seguridad del Contenido

Contenido Dañino: Utiliza las métricas de riesgo y seguridad integradas de OpenAI para evaluar si el modelo genera contenido potencialmente dañino (violencia, sexual, odio, etc.). Si el modelo supera los umbrales aceptables de contenido dañino, no se desplegará.

3. Análisis de Pérdida y Precisión

Pérdida de Entrenamiento y Validación: Analiza los valores de pérdida durante el entrenamiento y la validación. La pérdida debería disminuir a lo largo del tiempo, y la precisión debería aumentar.
Precisión de Tokens: Revisa la precisión de los tokens en los lotes de entrenamiento y validación. Esto te dará una idea de cuán bien el modelo está aprendiendo y generalizando.

4. Pruebas de Despliegue

Despliegue y Uso en Producción: Una vez que el modelo esté fine-tuned y evaluado, despliéga-lo y prueba su funcionamiento en un entorno de producción. Utiliza el Playground de Azure AI Foundry para experimentar con el modelo y ajustar parámetros como temperature y max_tokens.

5. Evaluación de Checkpoints

Checkpoints Intermedios: OpenAI genera checkpoints al final de cada época de entrenamiento. Puedes utilizar estos checkpoints para evaluar el modelo en diferentes etapas del entrenamiento y seleccionar el mejor punto antes de que ocurra el sobreajuste.

6. Visualización de Métricas

Gráficos de Pérdida y Precisión: Utiliza las herramientas de visualización de Azure AI Foundry para graficar la pérdida y la precisión de tokens. Esto te ayudará a identificar si el modelo está sobreajustándose o no está aprendiendo correctamente.

7. Evaluación de Seguridad en Conversaciones Simuladas

Simulación de Diálogos: Simula diálogos con el modelo para evaluar su capacidad de generar respuestas seguras y apropiadas. Esto es especialmente importante para modelos que se utilizarán en aplicaciones de conversación.

8. Análisis de Archivos de Resultados

Archivo _results.csv: OpenAI proporciona un archivo results.csv que contiene métricas de entrenamiento y validación. Este archivo te permite analizar el desempeño del modelo en detalle.

9. Pruebas de Rendimiento en Tareas Específicas

Tareas Específicas: Realiza pruebas en tareas específicas para las que has fine-tuned el modelo. Por ejemplo, si has fine-tuned un modelo para la generación de código, prueba su rendimiento en tareas de programación.

10. Evaluación de la Usabilidad del Modelo

Feedback de Usuarios: Si es posible, obtén feedback de usuarios reales sobre la usabilidad y la efectividad del modelo en tareas específicas.

Conclusión

Realizar una evaluación exhaustiva de un modelo fine-tuned es crucial para asegurarte de que cumple con tus requisitos y está listo para su uso en producción. Utiliza una combinación de pruebas de calidad, seguridad, análisis de métricas y feedback de usuarios para obtener una visión completa del rendimiento del modelo.

Luis Miguel Mejia Basantes

student•

Actualmente el archivo de resultados viene codificado en base64.

import base64 # Obtener el contenido del archivocontent = client.files.content('aqui el id del archivo de resultados') # Decodificar el contenido de Base64 (si es necesario)file_content = base64.b64decode(content.read())

Con estas lineas tenemos el archivo decodificado en la variable file_content

Santiago Roldan

student•

Hola! tengo una pregunta, para que sirve el archivo jsonl de validacion? entrene un modelo con un archivo con 100 entradas pero cuando hago la prueba parece no haber aprendido nada de la data que le pase

Bruno Andre Castro Barrientos

student•

Por que me sale esto? como puedo solucionarlo

client =  OpenAI(api_key=os.environ["OPENAI_API_KEY"])
content = client.files.content('file-M1XX')
raw_bytes = content.read()
decoded_bytes = base64.b64decode(raw_bytes)
file_content = decoded_bytes.decode('utf-8')
metric_list = [line.split(',') for line in file_content.strip().split('\n')]
df = pd.DataFrame(metric_list[1:], columns=metric_list[0])
df = df.apply(pd.to_numeric, errors='coerce')
print(df.tail())
```Guía de cómo decodificar el archivo de resultados post entrenamiento. No olvides importar librerías como pandas y base64.

Evaluación de Modelos de IA: Técnicas y Aplicaciones Prácticas

OpenAI API

Uso de Modelos GPT para Análisis de Texto en Python

Uso de la Documentación de OpenAI para Fine Tuning y Text Completion

Configuración y Uso de Chat Completions en OpenAI GPT

Ajuste de Parámetros en Modelos de OpenAI para Mejorar Resultados

Juego de adivinanza de animales con OpenAI en Python

Gestión de Límites y Facturación en OpenAI

Actualización de Modelos y Funcionalidades de OpenAI

Fine-tuning de modelos de OpenAI

Personalización de Modelos OpenAI para Soluciones Empresariales

Modelos de OpenAI para Fine-Tuning: Guía Completa

Tokenización de Texto y Estimación de Costos en OpenAI con TikToken

Configuración de entorno local de OpenAI con Anaconda

Reglas para formatear datos en fine tuning de OpenAI

Conversión de CSV a JSON-L para Fine Tuning en OpenAI

Fine Tuning de Modelos OpenAI: Proceso y Solución de Errores

Uso del Playground de OpenAI para Probar Modelos sin Programación