No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

Formato de datos para fine-tuning

12/24
Recursos

Para aprovechar al máximo los modelos de inteligencia artificial, como aquellos desarrollados por OpenAI, es clave comprender y aplicar adecuadamente el formato de datos durante el proceso de ajuste fino o fine tuning. Este procedimiento implica personalizar modelos con base en conjuntos de datos específicos, lo que permite obtener resultados más relevantes y precisos. A continuación, profundicemos en algunas reglas fundamentales para la preparación de datos en el fine tuning de modelos de OpenAI.

¿Cuál es la primera regla para los 'prompts' en el dataset?

Cuando estamos preparando los 'prompts' dentro de nuestro conjunto de datos, cada uno de ellos debe finalizar con un separador de caracteres definido. Este separador actúa como un delimitador claro que permite al modelo distinguir entre diferentes solicitudes de entrada. Es un paso esencial para mantener la precisión y ayudar al modelo a comprender dónde termina un 'prompt' y comienza el siguiente.

¿Qué debemos hacer con los 'completions'?

Los 'completions', o las continuaciones generadas a partir de un 'prompt', también deben seguir reglas específicas:

  • Inicio del 'completion': Cada respuesta generada por el modelo debe empezar con un espacio en blanco. Esto señaliza el comienzo de la continuación y mantiene la consistencia en el formato.

  • Final del 'completion': Al concluir cada 'completion', se debe incorporar una secuencia de caracteres predefinida, como puede ser \n para una nueva línea o una serie de signos de numeral ####.

¿Cómo debemos utilizar el modelo ajustado?

Una vez que el modelo ha sido ajustado mediante el fine tuning, debemos interactuar con él utilizando la misma estructura de 'prompts' que le fue enseñada inicialmente. Esto incluye la adición del separador fijo de caracteres. El modelo "recuerda" la estructura con la que fue entrenado y, por ende, la consistencia en su uso es imperativa para obtener los mejores resultados.

¿Cómo se sugiere dar formato a los datos?

OpenAI mismo proporciona directrices específicas en su documentación para el formato correcto de los datos. Algunas recomendaciones clave son:

  • Separador en 'prompts': Colocar el separador de caracteres al final de cada 'prompt'.

  • Inicio de 'completions': Asegurarse de que cada 'completion' comience con un espacio en blanco.

  • Final de 'completions': Utilizar la secuencia de caracteres adecuada para marcar el término de cada continuación.

¿Es necesario formatear los datos manualmente?

La buena noticia es que no tienes que formatear manualmente tu conjunto de datos. OpenAI ofrece herramientas automatizadas que pueden realizar este procedimiento por ti, facilitando la preparación de los datos y ahorrando un valioso tiempo. En la próxima lección, exploraremos cómo utilizar estas herramientas eficazmente.

Estas reglas no son meras formalidades; son parte integral de un proceso cuidadoso que nos permite sacar el mejor partido de los modelos de IA. Con estas pautas claras, estás preparado para iniciar el fine tuning de manera efectiva y garantizar que tu modelo funcione con la alta precisión que OpenAI desea proporcionar. ¡Es hora de poner en práctica estos conocimientos y preparar tus propios conjuntos de datos con confianza y precisión!

Aportes 4

Preguntas 4

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

Reglas básicas para un correcto formato de datos para fine tuning

  1. Cada prompt debe terminar con un separador fijo con esto el modelo entiende donde termina la solicitud \n\n###\n\n.
  2. Cada completion debe comenzar con un espacio en blanco para un correcto proceso de tokenización.
  3. Cada completion debe terminar con una secuencia para que el modelo entienda donde termina o finaliza el proceso \n o ###.
  4. Se debe utilizar la misma estructura de prompt con la que fue entrenado.

Formato de datos para fine-tuning

Ada, Babbage, curie y davinci se desactivarán el 4 de enero de 2024. OpenAI Esta trabajando para habilitar para los modelos base actualizados GPT-3 y GPT-4, recomiendan esperar para que esas nuevas opciones estén disponibles en lugar de ajustes basados en los modelos que pronto quedarán obsoletos.
Fine Tuning permite sacar más provecho de los modelos disponibles a través de la API al proporcionar:

  • Resultados de mayor calidad que el diseño rápido
  • Capacidad para entrenar en más ejemplos de los que caben en un aviso
  • Ahorro de tokens debido a avisos más cortos
  • Solicitudes de menor latencia
Hola. Tengo una duda, quiero realizar un chatbot para la empresa en donde trabajo, mi duda radica en el formato, me podrían apoyar en el formato de ejemplo para mi caso, la data con la cual are el fine-tuning, sera de productos (medicamentos) y sucursales. En los productos tengo la información sobre \[Nombre, Precio rebajado, Precio normal] son aproximadamente 2,100 productos En las sucursales \[Nombre sucursal, Dirección 1, Dirección 2, Ciudad, Estado, Codigo postal, Pais, Latitud, longitud, Horario, Telefono de contacto, Correo de contacto, Categoria] son 676 sucursales Podrían apoyarme en darme un ejemplo en como podría quedar mi archivo .JSONL

Lo que ves al entrar a la documentación de OpenAi:

On July 6, 2023, we announced the deprecation of ada, babbage, curie and davinci models. These models, including fine-tuned versions, will be turned off on January 4, 2024. We are actively working on enabling fine-tuning for upgraded base GPT-3 models as well as GPT-3.5 Turbo and GPT-4, we recommend waiting for those new options to be available rather than fine-tuning based off of the soon to be deprecated models.