No tienes acceso a esta clase

隆Contin煤a aprendiendo! 脷nete y comienza a potenciar tu carrera

Compra acceso a todo Platzi por 1 a帽o

Antes: $249

Currency
$209/a帽o

Paga en 4 cuotas sin intereses

Paga en 4 cuotas sin intereses
Suscr铆bete

Termina en:

13D
13H
11M
26S
Curso de Desarrollo de Chatbots con OpenAI

Curso de Desarrollo de Chatbots con OpenAI

Carla Marcela Florida Rom谩n

Carla Marcela Florida Rom谩n

Formato de datos para fine-tuning

13/26
Recursos

Para aprovechar al m谩ximo los modelos de inteligencia artificial, como aquellos desarrollados por OpenAI, es clave comprender y aplicar adecuadamente el formato de datos durante el proceso de ajuste fino o fine tuning. Este procedimiento implica personalizar modelos con base en conjuntos de datos espec铆ficos, lo que permite obtener resultados m谩s relevantes y precisos. A continuaci贸n, profundicemos en algunas reglas fundamentales para la preparaci贸n de datos en el fine tuning de modelos de OpenAI.

驴Cu谩l es la primera regla para los 'prompts' en el dataset?

Cuando estamos preparando los 'prompts' dentro de nuestro conjunto de datos, cada uno de ellos debe finalizar con un separador de caracteres definido. Este separador act煤a como un delimitador claro que permite al modelo distinguir entre diferentes solicitudes de entrada. Es un paso esencial para mantener la precisi贸n y ayudar al modelo a comprender d贸nde termina un 'prompt' y comienza el siguiente.

驴Qu茅 debemos hacer con los 'completions'?

Los 'completions', o las continuaciones generadas a partir de un 'prompt', tambi茅n deben seguir reglas espec铆ficas:

  • Inicio del 'completion': Cada respuesta generada por el modelo debe empezar con un espacio en blanco. Esto se帽aliza el comienzo de la continuaci贸n y mantiene la consistencia en el formato.

  • Final del 'completion': Al concluir cada 'completion', se debe incorporar una secuencia de caracteres predefinida, como puede ser \n para una nueva l铆nea o una serie de signos de numeral ####.

驴C贸mo debemos utilizar el modelo ajustado?

Una vez que el modelo ha sido ajustado mediante el fine tuning, debemos interactuar con 茅l utilizando la misma estructura de 'prompts' que le fue ense帽ada inicialmente. Esto incluye la adici贸n del separador fijo de caracteres. El modelo "recuerda" la estructura con la que fue entrenado y, por ende, la consistencia en su uso es imperativa para obtener los mejores resultados.

驴C贸mo se sugiere dar formato a los datos?

OpenAI mismo proporciona directrices espec铆ficas en su documentaci贸n para el formato correcto de los datos. Algunas recomendaciones clave son:

  • Separador en 'prompts': Colocar el separador de caracteres al final de cada 'prompt'.

  • Inicio de 'completions': Asegurarse de que cada 'completion' comience con un espacio en blanco.

  • Final de 'completions': Utilizar la secuencia de caracteres adecuada para marcar el t茅rmino de cada continuaci贸n.

驴Es necesario formatear los datos manualmente?

La buena noticia es que no tienes que formatear manualmente tu conjunto de datos. OpenAI ofrece herramientas automatizadas que pueden realizar este procedimiento por ti, facilitando la preparaci贸n de los datos y ahorrando un valioso tiempo. En la pr贸xima lecci贸n, exploraremos c贸mo utilizar estas herramientas eficazmente.

Estas reglas no son meras formalidades; son parte integral de un proceso cuidadoso que nos permite sacar el mejor partido de los modelos de IA. Con estas pautas claras, est谩s preparado para iniciar el fine tuning de manera efectiva y garantizar que tu modelo funcione con la alta precisi贸n que OpenAI desea proporcionar. 隆Es hora de poner en pr谩ctica estos conocimientos y preparar tus propios conjuntos de datos con confianza y precisi贸n!

Aportes 3

Preguntas 0

Ordenar por:

驴Quieres ver m谩s aportes, preguntas y respuestas de la comunidad?

o inicia sesi贸n.

Reglas b谩sicas para un correcto formato de datos para fine tuning

  1. Cada prompt debe terminar con un separador fijo con esto el modelo entiende donde termina la solicitud \n\n###\n\n.
  2. Cada completion debe comenzar con un espacio en blanco para un correcto proceso de tokenizaci贸n.
  3. Cada completion debe terminar con una secuencia para que el modelo entienda donde termina o finaliza el proceso \n o ###.
  4. Se debe utilizar la misma estructura de prompt con la que fue entrenado.

Formato de datos para fine-tuning

Ada, Babbage, curie y davinci se desactivar谩n el 4 de enero de 2024. OpenAI Esta trabajando para habilitar para los modelos base actualizados GPT-3 y GPT-4, recomiendan esperar para que esas nuevas opciones est茅n disponibles en lugar de ajustes basados en los modelos que pronto quedar谩n obsoletos.
Fine Tuning permite sacar m谩s provecho de los modelos disponibles a trav茅s de la API al proporcionar:

  • Resultados de mayor calidad que el dise帽o r谩pido
  • Capacidad para entrenar en m谩s ejemplos de los que caben en un aviso
  • Ahorro de tokens debido a avisos m谩s cortos
  • Solicitudes de menor latencia

Lo que ves al entrar a la documentaci贸n de OpenAi:

On July 6, 2023, we announced the deprecation of ada, babbage, curie and davinci models. These models, including fine-tuned versions, will be turned off on January 4, 2024. We are actively working on enabling fine-tuning for upgraded base GPT-3 models as well as GPT-3.5 Turbo and GPT-4, we recommend waiting for those new options to be available rather than fine-tuning based off of the soon to be deprecated models.