No tienes acceso a esta clase

¬°Contin√ļa aprendiendo! √önete y comienza a potenciar tu carrera

Curso de Desarrollo de Chatbots con OpenAI

Curso de Desarrollo de Chatbots con OpenAI

Carla Marcela Florida Rom√°n

Carla Marcela Florida Rom√°n

Pruebas al modelo con fine-tuning

16/25
Recursos

Aportes 2

Preguntas 3

Ordenar por:

¬ŅQuieres ver m√°s aportes, preguntas y respuestas de la comunidad?

o inicia sesión.

Pruebas al modelo con fine-tuning

Debemos evaluar la eficiencia del modelo:

  • Metricas automaticas: se utilizaran metricas como BLEU y METEOR.
  • Diversidad y novedad: si tenemos diferentes preguntas y cuando estas respuestas tienen cierta similitud(lo que queremos evitar).
  • Evaluacion de dominio especifico: Si todas las respuestas pertenecen al mismo contexto con el dataset con el que se entreno.
  • Evaluaci√≥n humana: Pedimos a un grupo de personas que eval√ļen las respuestas generadas en la gramatica y si acierta con el contexto.

A√Īadiendo un poquito de contexto:

BLEU (Bilingual Evaluation Understudy):


BLEU es una métrica ampliamente utilizada para evaluar la calidad de las traducciones automáticas o generaciones de lenguaje natural en general. Fue propuesta originalmente para evaluar sistemas de traducción automática, pero también ha sido adoptada para evaluar modelos generativos de lenguaje como ChatGPT. BLEU compara las respuestas generadas por el modelo con las respuestas de referencia proporcionadas en el conjunto de datos de prueba. Para calcular BLEU, se mide la coincidencia de palabras y frases entre las respuestas generadas y las respuestas de referencia. Cuanto mayor sea el puntaje de BLEU, mayor será la similitud entre las respuestas generadas y las respuestas de referencia.

METEOR (Metric for Evaluation of Translation with Explicit Ordering):


METEOR es otra m√©trica autom√°tica utilizada para evaluar la calidad de las traducciones o generaciones de lenguaje natural. Al igual que BLEU, METEOR compara las respuestas generadas con las respuestas de referencia, pero utiliza un enfoque diferente. METEOR no se basa √ļnicamente en la coincidencia exacta de palabras, sino que tambi√©n tiene en cuenta sin√≥nimos y variaciones gramaticales.