No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

Pruebas al modelo con fine-tuning

16/24
Recursos

Al adentrarnos en el fascinante universo de la inteligencia artificial, resulta fundamental no solo concebir y entrenar modelos con OpenAI, sino también medir su eficacia una vez están en funcionamiento. La evaluación de modelos de IA se ramifica en técnicas meticulosas que garantizan que las respuestas generadas no solo sean correctas, sino también relevantes y originales. A continuación, desgranaremos cuatro métodos clave para evaluar la calidad de estos modelos y cómo estos pueden ser aplicados de manera práctica.

¿Cómo funcionan las métricas automáticas en la evaluación de modelos de IA?

Tras entrenar nuestro modelo de IA con datos cuidadosamente seleccionados, es hora de examinar su rendimiento. El uso de métricas automáticas es uno de esos métodos y uno bastante puntero; pensemos en algoritmos como BLEU o METEOR, destrezas de la ingeniería lingüística que nos permiten comparar textos generados con otros de temáticas similares para evaluar la coherencia léxica, gramatical y semántica de las respuestas.

¿Qué medimos exactamente con la diversidad y novedad al evaluar un modelo de OpenAI?

No es suficiente con generar conocimiento; debe ser fresco y evitar la redundancia. Al evaluar la diversidad y novedad, analizamos si el modelo puede producir respuestas variadas a preguntas semejantes, generando así contenido enriquecedor y evitando caer en la trampa de la repetición textual.

¿En qué consiste la evaluación de dominio específico?

Esta técnica se centra en confirmar que las respuestas generadas se mantengan fidedignas al contexto del conjunto de datos utilizado en el entrenamiento del modelo. Es decir, si el modelo fue adiestrado en temas de medicina, sus respuestas deberían resonar con terminología y conceptos médicos claros y precisos.

La evaluación humana, ¿es el estándar de oro para medir la eficacia de un modelo de IA?

La evaluación humana puede considerarse un faro de certeza en océanos de datos. Convocamos a personas reales para que juzguen las respuestas — valorando aspectos como la gramática y la adecuación contextual —, lo cual ofrece una visión práctica e intuitiva de la calidad del modelo. En el Playground, se visualiza este método mediante la propuesta de diversas preguntas relacionadas, por ejemplo, con un curso de redes neuronales con PyTorch, y se analizan las respuestas generadas para verificar su coherencia y relevancia.

El desafío que se plantea hacia adelante es tomar otro modelo, retocarlo (fine tuning) y comparar sus resultados con el modelo actual. Esto permite discernir cuál modelo presenta un rendimiento superior y se ajusta de manera más eficaz a las necesidades de la aplicación final, como podría ser el soporte de PlatziBot.

Preparémonos para profundizar en las otras técnicas de evaluación, pero antes, te invito a abrazar este reto de selección y afinación de modelos. Los resultados podrían revelarte una nueva perspectiva en el arte de adiestrar y pulir la inteligencia artificial. ¡Manos a la obra y te espero en la próxima clase para seguir aprendiendo juntos!

Aportes 6

Preguntas 3

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

Añadiendo un poquito de contexto:

BLEU (Bilingual Evaluation Understudy):


BLEU es una métrica ampliamente utilizada para evaluar la calidad de las traducciones automáticas o generaciones de lenguaje natural en general. Fue propuesta originalmente para evaluar sistemas de traducción automática, pero también ha sido adoptada para evaluar modelos generativos de lenguaje como ChatGPT. BLEU compara las respuestas generadas por el modelo con las respuestas de referencia proporcionadas en el conjunto de datos de prueba. Para calcular BLEU, se mide la coincidencia de palabras y frases entre las respuestas generadas y las respuestas de referencia. Cuanto mayor sea el puntaje de BLEU, mayor será la similitud entre las respuestas generadas y las respuestas de referencia.

METEOR (Metric for Evaluation of Translation with Explicit Ordering):


METEOR es otra métrica automática utilizada para evaluar la calidad de las traducciones o generaciones de lenguaje natural. Al igual que BLEU, METEOR compara las respuestas generadas con las respuestas de referencia, pero utiliza un enfoque diferente. METEOR no se basa únicamente en la coincidencia exacta de palabras, sino que también tiene en cuenta sinónimos y variaciones gramaticales.

Pruebas al modelo con fine-tuning

Debemos evaluar la eficiencia del modelo:

  • Metricas automaticas: se utilizaran metricas como BLEU y METEOR.
  • Diversidad y novedad: si tenemos diferentes preguntas y cuando estas respuestas tienen cierta similitud(lo que queremos evitar).
  • Evaluacion de dominio especifico: Si todas las respuestas pertenecen al mismo contexto con el dataset con el que se entreno.
  • Evaluación humana: Pedimos a un grupo de personas que evalúen las respuestas generadas en la gramatica y si acierta con el contexto.
Vale un aporte que agregar, actualmente ha cambiado y te entrega un archivo codificado en base 64 como resultado, tienes que decodificarlo yo lo hive de la siguiente manera:import base64 \# Obtener el contenido del archivocontent = client.files.content('file-lkh0aMzm68zhp2OLZ1lhAznD') \# Decodificar el contenido de Base64 (si es necesario)file\_content = base64.b64decode(content.read()) \# Escribir el contenido decodificado en un archivowith open('mi\_archivo\_decodificado', 'wb') as f:    f.write(file\_content) \# Descargar el archivo decodificadofrom google.colab import filesfiles.download('mi\_archivo\_decodificado')```js import base64 # Obtener el contenido del archivo content = client.files.content('file-ID DEL ARCHIVO') # Decodificar el contenido de Base64 (si es necesario) file_content = base64.b64decode(content.read()) # Escribir el contenido decodificado en un archivo with open('mi_archivo_decodificado', 'wb') as f: f.write(file_content) # Descargar el archivo decodificado from google.colab import files files.download('mi_archivo_decodificado') ```
Que significa perdida en este context ?
Hola! tengo una pregunta, para que sirve el archivo jsonl de validacion? entrene un modelo con un archivo con 100 entradas pero cuando hago la prueba parece no haber aprendido nada de la data que le pase
Por que me sale esto? como puedo solucionarlo ![](file:///C:/Users/USER/OneDrive/Im%C3%A1genes/Capturas%20de%20pantalla/Captura%20de%20pantalla%202024-06-11%20200617.png)![](file:///C:/Users/USER/OneDrive/Im%C3%A1genes/Capturas%20de%20pantalla/Captura%20de%20pantalla%202024-06-11%20200617.png)