Evaluación de Modelos de IA: Técnicas y Aplicaciones Prácticas

Clase 16 de 24 • Curso de Desarrollo de Chatbots con OpenAI

Resumen

Al adentrarnos en el fascinante universo de la inteligencia artificial, resulta fundamental no solo concebir y entrenar modelos con OpenAI, sino también medir su eficacia una vez están en funcionamiento. La evaluación de modelos de IA se ramifica en técnicas meticulosas que garantizan que las respuestas generadas no solo sean correctas, sino también relevantes y originales. A continuación, desgranaremos cuatro métodos clave para evaluar la calidad de estos modelos y cómo estos pueden ser aplicados de manera práctica.

¿Cómo funcionan las métricas automáticas en la evaluación de modelos de IA?

Tras entrenar nuestro modelo de IA con datos cuidadosamente seleccionados, es hora de examinar su rendimiento. El uso de métricas automáticas es uno de esos métodos y uno bastante puntero; pensemos en algoritmos como BLEU o METEOR, destrezas de la ingeniería lingüística que nos permiten comparar textos generados con otros de temáticas similares para evaluar la coherencia léxica, gramatical y semántica de las respuestas.

¿Qué medimos exactamente con la diversidad y novedad al evaluar un modelo de OpenAI?

No es suficiente con generar conocimiento; debe ser fresco y evitar la redundancia. Al evaluar la diversidad y novedad, analizamos si el modelo puede producir respuestas variadas a preguntas semejantes, generando así contenido enriquecedor y evitando caer en la trampa de la repetición textual.

¿En qué consiste la evaluación de dominio específico?

Esta técnica se centra en confirmar que las respuestas generadas se mantengan fidedignas al contexto del conjunto de datos utilizado en el entrenamiento del modelo. Es decir, si el modelo fue adiestrado en temas de medicina, sus respuestas deberían resonar con terminología y conceptos médicos claros y precisos.

La evaluación humana, ¿es el estándar de oro para medir la eficacia de un modelo de IA?

La evaluación humana puede considerarse un faro de certeza en océanos de datos. Convocamos a personas reales para que juzguen las respuestas — valorando aspectos como la gramática y la adecuación contextual —, lo cual ofrece una visión práctica e intuitiva de la calidad del modelo. En el Playground, se visualiza este método mediante la propuesta de diversas preguntas relacionadas, por ejemplo, con un curso de redes neuronales con PyTorch, y se analizan las respuestas generadas para verificar su coherencia y relevancia.

El desafío que se plantea hacia adelante es tomar otro modelo, retocarlo (fine tuning) y comparar sus resultados con el modelo actual. Esto permite discernir cuál modelo presenta un rendimiento superior y se ajusta de manera más eficaz a las necesidades de la aplicación final, como podría ser el soporte de PlatziBot.

Preparémonos para profundizar en las otras técnicas de evaluación, pero antes, te invito a abrazar este reto de selección y afinación de modelos. Los resultados podrían revelarte una nueva perspectiva en el arte de adiestrar y pulir la inteligencia artificial. ¡Manos a la obra y te espero en la próxima clase para seguir aprendiendo juntos!

Comentarios

Gabriel Ichcanziho Pérez Landa

student•

Añadiendo un poquito de contexto:

BLEU (Bilingual Evaluation Understudy):

BLEU es una métrica ampliamente utilizada para evaluar la calidad de las traducciones automáticas o generaciones de lenguaje natural en general. Fue propuesta originalmente para evaluar sistemas de traducción automática, pero también ha sido adoptada para evaluar modelos generativos de lenguaje como ChatGPT. BLEU compara las respuestas generadas por el modelo con las respuestas de referencia proporcionadas en el conjunto de datos de prueba. Para calcular BLEU, se mide la coincidencia de palabras y frases entre las respuestas generadas y las respuestas de referencia. Cuanto mayor sea el puntaje de BLEU, mayor será la similitud entre las respuestas generadas y las respuestas de referencia.

METEOR (Metric for Evaluation of Translation with Explicit Ordering):

METEOR es otra métrica automática utilizada para evaluar la calidad de las traducciones o generaciones de lenguaje natural. Al igual que BLEU, METEOR compara las respuestas generadas con las respuestas de referencia, pero utiliza un enfoque diferente. METEOR no se basa únicamente en la coincidencia exacta de palabras, sino que también tiene en cuenta sinónimos y variaciones gramaticales.

Patricio Sánchez Fernández

student•

Gabriel, muchas gracias por el aporte...

Luis Boivar

student•

Excelente aporte, muchas gracias!

Paolo Joaquin Pinto Perez

student•

Pruebas al modelo con fine-tuning

Debemos evaluar la eficiencia del modelo:

Metricas automaticas: se utilizaran metricas como BLEU y METEOR.
Diversidad y novedad: si tenemos diferentes preguntas y cuando estas respuestas tienen cierta similitud(lo que queremos evitar).
Evaluacion de dominio especifico: Si todas las respuestas pertenecen al mismo contexto con el dataset con el que se entreno.
Evaluación humana: Pedimos a un grupo de personas que evalúen las respuestas generadas en la gramatica y si acierta con el contexto.

Patricio Sánchez Fernández

student•

Buen resumen, Paolo.

Sebastian Gomez

student•

Esta bastante desactualizado el curso, la interfaz del tutor es bastante diferente a la que está en este momento. Deberían actualizar el curso

Erick Bonilla

student•

Tengo una pregunta, o no se si me salte algo de la clase, pero en que momento se le dijo al playground que usara el modelo que entrenamos previamente?

Platzi

student•

No se menciona en el transcript cómo se le indica al playground que use el modelo entrenado previamente.

Wilson Barrera

student•

lo escoges del menu de la derecha donde dice models

Andres Antonio Santisteban Lino

student•

Vale un aporte que agregar, actualmente ha cambiado y te entrega un archivo codificado en base 64 como resultado, tienes que decodificarlo yo lo hive de la siguiente manera:import base64 # Obtener el contenido del archivocontent = client.files.content('file-lkh0aMzm68zhp2OLZ1lhAznD') # Decodificar el contenido de Base64 (si es necesario)file_content = base64.b64decode(content.read()) # Escribir el contenido decodificado en un archivowith open('mi_archivo_decodificado', 'wb') as f: f.write(file_content) # Descargar el archivo decodificadofrom google.colab import filesfiles.download('mi_archivo_decodificado')```js import base64

Obtener el contenido del archivo

content = client.files.content('file-ID DEL ARCHIVO')

Decodificar el contenido de Base64 (si es necesario)

file_content = base64.b64decode(content.read())

Escribir el contenido decodificado en un archivo

with open('mi_archivo_decodificado', 'wb') as f: f.write(file_content)

Descargar el archivo decodificado

from google.colab import files files.download('mi_archivo_decodificado')

David Vallejo Gomez

student•

Te lo agradezco bastante, me estaba costando identificar cómo decodificar el result_files. 👍

Juan Camilo Jaramillo Tascón

student•

Para enero 2026 asi se imprime en el response print(response.output[0].content[0].text)

Pablo Martinez

student•

client =  OpenAI(api_key=os.environ["OPENAI_API_KEY"])
content = client.files.content('file-M1XX')
raw_bytes = content.read()
decoded_bytes = base64.b64decode(raw_bytes)
file_content = decoded_bytes.decode('utf-8')
metric_list = [line.split(',') for line in file_content.strip().split('\n')]
df = pd.DataFrame(metric_list[1:], columns=metric_list[0])
df = df.apply(pd.to_numeric, errors='coerce')
print(df.tail())
```Guía de cómo decodificar el archivo de resultados post entrenamiento. No olvides importar librerías como pandas y base64.

Juan Camilo Jaramillo Tascón

student•

Excelente aporte, muchas gracias.

Pepe Sosa

student•

¿Cuánto es el número recomendado de registros para un entrenamiento que por lo menos arroje respuestas coherentes?

Carli Code

teacher•

Según mi experiencia a partir de 1000 registros

Luis Miguel Rodriguez

student•

No se si estoy haciendo algo mal, el archivo de resultados me ahorra todo menos numeros para posterior graficar ;(

y en teoría es el result_files

Pablo Arango

student•

que pasa si un usuario escribe algo sin sentido, o que no tiene nada que ver con el contexto en mi modelo entrenado ?

Carli Code

teacher•

Hola Pablo, el modelo siempre intentará dar una respuesta, en el caso de este proyecto no establecimos un sesgo de respuesta errónea, por lo que es probable que el modelo tenga alucinaciones e intente responderte en el marco de su conocimiento a una pregunta sin sentido.

Alexis H

student•

Que significa perdida en este context ?

Vicente Benavides

student•

desde la clase anterior no encuentro el fine-tunning de openia en la pagina oficial

Paulo Esteban Orsini

student•

Miguel no me quedo claro como hago para darle la base de conocimientos al modelo. Muchas Gracias.

Mateo Montoya Henao

student•

Después de realizar fine-tuning a un modelo de OpenAI, es importante realizar una serie de pruebas para evaluar su rendimiento y asegurarte de que cumple con tus requisitos. Aquí tienes algunas pruebas y métodos de evaluación que puedes aplicar:

1. Evaluación de la Calidad del Texto Generado

Consistencia: Verifica que el modelo genere respuestas consistentes con los prompts de entrada. Puedes crear un conjunto de pruebas con prompts similares y comparar las respuestas generadas.
Relevancia: Evalúa que las respuestas sean relevantes y útiles para la tarea específica. Puedes usar métricas como la precisión y el recall para medir la relevancia de las respuestas.

2. Evaluación de la Seguridad del Contenido

Contenido Dañino: Utiliza las métricas de riesgo y seguridad integradas de OpenAI para evaluar si el modelo genera contenido potencialmente dañino (violencia, sexual, odio, etc.). Si el modelo supera los umbrales aceptables de contenido dañino, no se desplegará.

3. Análisis de Pérdida y Precisión

Pérdida de Entrenamiento y Validación: Analiza los valores de pérdida durante el entrenamiento y la validación. La pérdida debería disminuir a lo largo del tiempo, y la precisión debería aumentar.
Precisión de Tokens: Revisa la precisión de los tokens en los lotes de entrenamiento y validación. Esto te dará una idea de cuán bien el modelo está aprendiendo y generalizando.

4. Pruebas de Despliegue

Despliegue y Uso en Producción: Una vez que el modelo esté fine-tuned y evaluado, despliéga-lo y prueba su funcionamiento en un entorno de producción. Utiliza el Playground de Azure AI Foundry para experimentar con el modelo y ajustar parámetros como temperature y max_tokens.

5. Evaluación de Checkpoints

Checkpoints Intermedios: OpenAI genera checkpoints al final de cada época de entrenamiento. Puedes utilizar estos checkpoints para evaluar el modelo en diferentes etapas del entrenamiento y seleccionar el mejor punto antes de que ocurra el sobreajuste.

6. Visualización de Métricas

Gráficos de Pérdida y Precisión: Utiliza las herramientas de visualización de Azure AI Foundry para graficar la pérdida y la precisión de tokens. Esto te ayudará a identificar si el modelo está sobreajustándose o no está aprendiendo correctamente.

7. Evaluación de Seguridad en Conversaciones Simuladas

Simulación de Diálogos: Simula diálogos con el modelo para evaluar su capacidad de generar respuestas seguras y apropiadas. Esto es especialmente importante para modelos que se utilizarán en aplicaciones de conversación.

8. Análisis de Archivos de Resultados

Archivo _results.csv: OpenAI proporciona un archivo results.csv que contiene métricas de entrenamiento y validación. Este archivo te permite analizar el desempeño del modelo en detalle.

9. Pruebas de Rendimiento en Tareas Específicas

Tareas Específicas: Realiza pruebas en tareas específicas para las que has fine-tuned el modelo. Por ejemplo, si has fine-tuned un modelo para la generación de código, prueba su rendimiento en tareas de programación.

10. Evaluación de la Usabilidad del Modelo

Feedback de Usuarios: Si es posible, obtén feedback de usuarios reales sobre la usabilidad y la efectividad del modelo en tareas específicas.

Conclusión

Realizar una evaluación exhaustiva de un modelo fine-tuned es crucial para asegurarte de que cumple con tus requisitos y está listo para su uso en producción. Utiliza una combinación de pruebas de calidad, seguridad, análisis de métricas y feedback de usuarios para obtener una visión completa del rendimiento del modelo.

Luis Miguel Mejia Basantes

student•

Actualmente el archivo de resultados viene codificado en base64.

import base64 # Obtener el contenido del archivocontent = client.files.content('aqui el id del archivo de resultados') # Decodificar el contenido de Base64 (si es necesario)file_content = base64.b64decode(content.read())

Con estas lineas tenemos el archivo decodificado en la variable file_content

Santiago Roldan

student•

Hola! tengo una pregunta, para que sirve el archivo jsonl de validacion? entrene un modelo con un archivo con 100 entradas pero cuando hago la prueba parece no haber aprendido nada de la data que le pase

Bruno Andre Castro Barrientos

student•

Por que me sale esto? como puedo solucionarlo

client =  OpenAI(api_key=os.environ["OPENAI_API_KEY"])
content = client.files.content('file-M1XX')
raw_bytes = content.read()
decoded_bytes = base64.b64decode(raw_bytes)
file_content = decoded_bytes.decode('utf-8')
metric_list = [line.split(',') for line in file_content.strip().split('\n')]
df = pd.DataFrame(metric_list[1:], columns=metric_list[0])
df = df.apply(pd.to_numeric, errors='coerce')
print(df.tail())
```Guía de cómo decodificar el archivo de resultados post entrenamiento. No olvides importar librerías como pandas y base64.

Evaluación de Modelos de IA: Técnicas y Aplicaciones Prácticas

OpenAI API

Uso de Modelos GPT para Análisis de Texto en Python

Uso de la Documentación de OpenAI para Fine Tuning y Text Completion

Configuración y Uso de Chat Completions en OpenAI GPT

Ajuste de Parámetros en Modelos de OpenAI para Mejorar Resultados

Juego de adivinanza de animales con OpenAI en Python

Gestión de Límites y Facturación en OpenAI

Actualización de Modelos y Funcionalidades de OpenAI

Fine-tuning de modelos de OpenAI

Personalización de Modelos OpenAI para Soluciones Empresariales

Modelos de OpenAI para Fine-Tuning: Guía Completa

Tokenización de Texto y Estimación de Costos en OpenAI con TikToken

Configuración de entorno local de OpenAI con Anaconda

Reglas para formatear datos en fine tuning de OpenAI

Conversión de CSV a JSON-L para Fine Tuning en OpenAI

Fine Tuning de Modelos OpenAI: Proceso y Solución de Errores

Uso del Playground de OpenAI para Probar Modelos sin Programación

Evaluación de Modelos de IA: Técnicas y Aplicaciones Prácticas

Optimización de Hiperparámetros en Modelos de OpenAI

Integración de modelo a aplicación de chat

Creación de Chatbots en Telegram con BotFather

Procesamiento de Mensajes en Telegram con Python

Recepción y Procesamiento de Mensajes de Telegram con Python

Conexión de PlatziBot con OpenAI usando Python

Integración de OpenAI y Telegram en PlatziBot con Python

Manejo de Errores y Excepciones en la API de OpenAI con Python

Conclusión

Proyectos de Fine Tuning y Procesamiento de Lenguaje Natural