Conversión de CSV a JSON-L para Fine Tuning en OpenAI

Clase 13 de 24 • Curso de Desarrollo de Chatbots con OpenAI

Resumen

Transformación de datos para Fine Tuning en OpenAI

La personalización de modelos de inteligencia artificial es una tarea claramente exigente pero crucial en la búsqueda de asistentes virtuales más eficientes y adaptados a necesidades específicas. Cuando nos referimos al fine tuning de modelos de OpenAI, se hace imperativo contar con una estructura de datos definida que permita entrenar de manera óptima a estos modelos. Hoy exploraremos cómo dar ese paso esencial mediante una herramienta automatizada que facilita el proceso.

¿Cuál es la estructura de datos requerida por OpenAI?

OpenAI demanda un formato particular denominado JSON-L para llevar a cabo el fine tuning de sus modelos. Este formato se organiza en registros que incluyen las partes "prompt" y "completion": el prompt representa la entrada proporcionada al modelo, y el completion es la respuesta deseada a esa entrada. Visualmente, estos registros se presentan entre llaves {}, clave en la preparación de los datos.

¿Cómo transformar datos al formato JSON-L?

Para transformar datos desde formatos comunes como CSV, TSV o JSON al formato JSON-L requerido, OpenAI ofrece herramientas convenientes dentro de su documentación, en la sección "Fine Tuning, Prepare Training Data." Es aquí donde el proceso se simplifica y deviene accesible incluso para aquellos con menos experiencia técnica.

El caso práctico de PlatziBot

Tomemos como ejemplo el ficticio "PlatziBot", un asistente pensado para interactuar con usuarios y recomendar cursos y rutas de aprendizaje de Platzi. Durante este ejercicio, se parte de un archivo CSV que contiene múltiples ejemplos, con prompts como "qué tipo de cursos o programas educativos ofrece Platzi" seguidos de su correspondiente completion. Este archivo con 1,955 ejemplos es el punto de partida para procesar los datos.

Pasos para la conversión de datos

Análisis Preliminar: Es esencial revisar nuestros datos y conocer la cantidad exacta de ejemplos disponibles, así como identificar posibles duplicados o registros vacíos que no aportarían al entrenamiento.
Ejecución del Comando: A través de la terminal, empleamos el comando proporcionado por OpenAI, adaptándolo al nombre de nuestro CSV, para iniciar la transformación hacia JSON-L.
Limpieza de Datos: OpenAI asiste eliminando duplicados y registros vacíos automáticamente, asegurando que solo se utilicen datos idóneos para el entrenamiento del modelo.
Ajustes Finales: El proceso incluye añadir sufijos específicos y espacios requeridos como parte de las reglas de OpenAI, para que los datos cumplan con los estándares necesarios.

Visualización y verificación de la transformación

Una vez realizado el proceso, es prudente revisar el nuevo archivo JSON-L, preferiblemente utilizando un editor de código como Visual Studio Code. De esta manera, podemos confirmar que la conversión se haya efectuado correctamente, verificando que cada prompt y completion poseen los caracteres y espacios añadidos que garantizan su compatibilidad con el modelo de OpenAI.

A medida que nos desarrollamos en este campo, se vuelve imperativo destacar la importancia de la calidad de los datos. Un modelo de IA será tan bueno como los datos con los que fue entrenado. Es por ello que no solo debemos concentrarnos en la transformación de formatos, sino también en el contexto, la extracción, transformación y limpieza de datos, elementos que juntos contribuirán al rendimiento óptimo del modelo personalizado. Continuaremos aprendiendo y profundizando en este proceso en nuestras próximas sesiones, siempre con datos precisos y métodos eficaces para alcanzar la excelencia en la personalización de IA.

Comentarios

Paolo Joaquin Pinto Perez

student•

La limipieza de datos es fundamental para cualquier entrenamiento de algun modelo, esto se ve reflejado desde los fundamentos del pensamiento probabilistico. Saber más de Garbage in,garbage out: https://platzi.com/clases/1841-probabilistica/26582-garbage-in-garbage-out/

Juan R. Vergara M.

student•

Así es, se necesita un proceso de ETL completo.

Patricio Sánchez Fernández

student•

Muy cierto, la limpieza de los datos es crucial, tanto para su análisis o en este caso, el entrenamiento.

Daniel Chinome

student•

openai tools fine_tunes.prepare_data -f file_name.csv

Alexander Armúa Abregu

student•

Si en lugar de hacerlo en una maquina local, prefieren usar Google Colab es posible.

El .csv lo tienen que arrastrar dentro de la carpeta "Archivos" en Google Colab y ponerle un nombre simple, en mi caso data.csv.

Luego en el Colab, crean una nueva linea de código y ponen ! al principio para indicar que es comando de bash y no python.

El comando es el siguiente:

!yes | openai tools fine\_tunes.prepare\_data -f data.csv

yes es un programa que responde siempre "yes" al output de un programa de consola. Como Colab no soporta responder, de otra forma quedaríamos trabados.

Luego ejecutamos el comando de openai para fine_tunes y listo, en menos de un minuto se genera data_prepared.jsonl

Nicolás Cáceres Sala

student•

Chicos a ver si alguien me sabe responder. Si por ejemplo mas que entrenar, quisiera pasarle el contexto de todo mi proyecto para generar un modelo que q me pueda responder en el contexto de mi proyecto total, pero sin respuestas ya armadas sino con el entranamiento que ya mismo gpt tiene, se puede haer? desde ya muchas gracias

Miguel Torres

student•

Para ese caso sería mejor hacer una app que funcione con un RAG donde el modelo sea capaz de "leer" información de documentos externos.

Eso se puede crear con los cursos de LangChain y bases de datos vectoriales:

Samuel José Moreno

student•

Cree este codigo para mi proyecto para importar desde excel las preguntas y respuestas. Al que le sirva, bien pueda.

import pandas as pd while True: try: archivo = "./Documentos/data.xlsx" break except: continue sistema = input("Indicame el rol: ")puntero = open("./Documentos/finetunning.jsonl", "w")dataframe = pd.read_excel(archivo) for index, row in dataframe.iterrows(): pregunta = row["pregunta"] respuesta = row["respuesta"] mensaje = '{"messages":[{"role":"system","content":"' + sistema + '"},{"role":"user","content":"' + pregunta +'"},{"role":"assistant","content":"' + respuesta + '"}]}\n' puntero.write(mensaje) puntero.close()

Fidel Parabacuto

student•

Esto cambió. Ahora se genera un archivo jsonl para interactuar con el modelo gpt-3.5-turbo

Este es el formato:

{"messages": [{"role": "system", "content": "Marv is a factual chatbot that is also sarcastic."}, {"role": "user", "content": "What's the capital of France?"}, {"role": "assistant", "content": "Paris, as if everyone doesn't know that already."}]}
{"messages": [{"role": "system", "content": "Marv is a factual chatbot that is also sarcastic."}, {"role": "user", "content": "Who wrote 'Romeo and Juliet'?"}, {"role": "assistant", "content": "Oh, just some guy named William Shakespeare. Ever heard of him?"}]}
{"messages": [{"role": "system", "content": "Marv is a factual chatbot that is also sarcastic."}, {"role": "user", "content": "How far is the Moon from Earth?"}, {"role": "assistant", "content": "Around 384,400 kilometers. Give or take a few, like that really matters."}]}
```Como mínimo debes usar 10 ejemplos.&#x20;

Y puedes generar el modelo directamente desde la web ![](https://static.platzi.com/media/user_upload/image-254a3bcd-b619-442b-b119-951bfd797d84.jpg)

Aquiles Naspe

student•

gracias por el dato mejr asi que se pueda hacer directo desde su web

Ricardo Mazuera

student•

Los tokens que usará el data_val.jsonl son ~109116 y el costo en openAI hoy en día cambió y ahora es 8USD/1M... entonces sería así

109.116/1.000.000 = 0,109116

0,109116*8 = 0,87 UDS

Javier Lazaro

student•

El "data train" y el "data val" son conjuntos de datos utilizados en el entrenamiento de modelos de machine learning, incluyendo el fine-tuning de modelos de OpenAI.

Data Train: Es el conjunto de datos que se utiliza para entrenar el modelo. Aquí el modelo aprende a ajustar sus parámetros en base a las entradas y salidas proporcionadas.
Data Val (Validation): Este conjunto se utiliza para evaluar el rendimiento del modelo durante el entrenamiento. Permite verificar si el modelo generaliza bien a datos no vistos, ayudando a evitar el sobreajuste.

Ambos conjuntos son esenciales para desarrollar un modelo robusto.

Jesús Enrique Rojas

student•

Mi pregunta es, como generaron esos mil prompts para el dataset, los escribieron a mano o utilizaron tambien un modelo para poder hacerlo?

Miguel Torres

student•

En casos reales son recolectados de historiales de conversaciones con clientes y de las FAQs que el equipo de atención al cliente pueda compartirte. 🤓

Pepe Sosa

student•

Si no tienes datos, te recomiendo este curso: Curso de Web Scraping: Extracción de Datos en la Web

Así aprendes más (a scrapear web's) y ya tienes tus datos

Pepe Sosa

student•

Al final esto fue que yo tenía el csv con una coma al final de cada registro, en CSV es linea = registro. Eso estaba provocando que las columnas no se leyeran correctamente, quitando esa coma final y también quitando el espacio que tenía después de cada coma que separaba las columnas ya quedó todo listo.

También un update, ahora al final la herramienta no añade " END" lo que añade es \n

Zaidibeth Ramos

student•

Este es el nuevo enlace al curso https://platzi.com/clases/old/webscraping/

Mauricio Combariza

student•

Si estan en linux o wsl2 y les aparece este error:

PermissionError: [Errno 13] Permission denied: 'data_prepared.jsonl'

Acuerdense de habiliatar las propiedades de lectura y escritura del archivo csv usando

cmod

Arístides Pérez Hernández

student•

¿Es posible automatizar la limpieza inicial?

Sí, y de hecho es altamente recomendado antes de pasar los datos por la herramienta de OpenAI. Aunque el comando de conversión elimina duplicados exactos, no detecta inconsistencias semánticas (preguntas diferentes con la misma respuesta) ni errores ortográficos. La mejor forma de automatizar esto es crear un pequeño script en Python usando la librería pandas. Puedes cargar tu CSV inicial, aplicar funciones como dropna() para eliminar valores nulos, y usar expresiones regulares para limpiar caracteres extraños o estandarizar el formato del texto. Una vez que tu dataset está pulido a nivel de contenido, recién ahí lo pasas por la herramienta de línea de comandos para que se encargue exclusivamente de la sintaxis y los sufijos técnicos. Datos limpios equivalen a un modelo inteligente.

Arístides Pérez Hernández

student•

¿Por qué es mejor usar JSON-L?

El formato JSON-L (JSON Lines) procesa cada línea como un objeto JSON independiente. A diferencia de un archivo JSON tradicional que carga toda la estructura en memoria de una sola vez, JSON-L permite que los sistemas de OpenAI lean los datos línea por línea de manera secuencial. Esto es vital cuando manejas miles de ejemplos para fine-tuning, ya que evita la saturación de memoria y hace que el procesamiento sea extremadamente rápido y eficiente. Piensa en un JSON normal como un libro entero que debes cargar en tu mente antes de leer, mientras que JSON-L es como leer una tarjeta de estudio a la vez. Además, si una línea tiene un error de sintaxis, el proceso no se rompe por completo, facilitando la depuración de tus prompts y completions.

Arístides Pérez Hernández

student•

¿Qué pasa si tengo datos duplicados?

Si envías datos duplicados, el modelo sufrirá de un problema conocido como sobreajuste (overfitting). Básicamente, la inteligencia artificial memorizará esa respuesta específica en lugar de aprender el patrón general, volviéndose menos flexible ante preguntas nuevas. Afortunadamente, la herramienta de preparación de OpenAI actúa como un filtro inteligente. Al ejecutar el comando de conversión, la consola escanea automáticamente todo tu set de datos y detecta filas idénticas o completions vacíos. Antes de generar el archivo final, te pedirá confirmación para eliminar esta basura de forma automática. Es una excelente práctica dejar que la herramienta haga esta purga, ya que te ahorra horas de revisión manual en hojas de cálculo y garantiza que cada token invertido en el entrenamiento aporte valor real al comportamiento de tu asistente.

Arístides Pérez Hernández

student•

¿Cuándo debo usar el formato JSON-L?

Debes implementar este formato exclusivamente cuando estés en la etapa de entrenamiento personalizado (fine-tuning) de un modelo base. Si solo estás haciendo consultas regulares a la API (como en un chat estándar), usarás JSON tradicional. Sin embargo, cuando necesitas enseñarle a la IA un tono de voz específico, un formato de respuesta estructurado o conocimiento de un nicho particular, el JSON-L se vuelve obligatorio. Es el estándar de la industria para inyectar miles de ejemplos de pregunta-respuesta de una sola vez. Piensa en este formato como el lenguaje nativo que los servidores de entrenamiento de OpenAI esperan recibir para calibrar sus pesos internos de manera óptima.

Miguel Angel Jimenez Osorio

student•

Hola! ¿El precio aplica si este fine tunning se hace local? Estaba pensando en hacerlo para el gpt de 20B de parametros que acaban de sacar

Gracias!

Victor Alfredo Matzar Say

student•

Y para hacerlo con una base de datos relacional ?

Aldo Andres Delgado Castillo

student•

Esta es mi respuesta o no se si pregunta mas que nada. Veo que ahora en 2025 el costo también se debe considerar por hora de entrenamiento. yo monte lo siguiente.

# Modelo 04-mini Precio de entrada 4 dolares por millon de tokens
# Modelo 04-mini Precio de salida 16 dolares por millon de tokens
# Modelo o4-mini Precio de cached input 1 dolar por millon de tokens
# Modelo 04-mini Precio de entrenamiento 100 dolares por hora de entrenamiento.

precio_entrada = 4
precio_salida = 16
n_tokens_entrenamiento = 36372
n_tokens_evaluacion = 109116

#Dataset has ~36372 tokens that will be charged for during training
#By default, you'll train for 3 epochs on this dataset
#By default, you'll be charged for ~109116 tokens

#Calculamos el costo de entrenamiento
costo_entrenamiento = n_tokens_entrenamiento * precio_entrada / 1000000
print(f"Costo de entrenamiento: {costo_entrenamiento} dolares")

#Calculamos el costo de evaluacion
costo_evaluacion = n_tokens_evaluacion * precio_salida / 1000000
print(f"Costo de evaluacion: {costo_evaluacion} dolares")

```Mis dudas serian:

Si se tiene que considerar la entrada de datos aun así mas bien vamos a evaluar el modelo entrenado?


Al ahora tener que pagar por hora, como podemos calcular cuanto podrá demorar el modelo o será este cargo para quienes hacen fine-tuning arduamente?

Global Solutions Group

student•

Cual es el setup en VS Code para poder ejecutar los comandos del notebook? pues desde VSCode al ejecutar !pip install tiktoken no reconoce. El mismo notebook desde el GoogleCollab ejecuta sin problemas. Se puede cargar el dataset desde el googleCollab?

Eduardo Perez

student•

En local (o sea, en el VSCode de tu computador, o en tu terminal) no trates de ejecutar "!pip install tiktoken" sino "pip install tiktoken", sin el "!" (signo de admiración). Para esto yo te recomiendo que primero creer un entorno virtual, y luego sí instales todos lo paquetes que quieras. Además, tengo entendido (por que no lo he probado) que si con VSCode abres un archivo .ipynb, se te abre en el formato de cuaderno

Camilo Cabrales Arango

student•

Entrene el modelo con 100 ejemplos sin embargo cuando le hago preguntas no me responde con la información que lo entrene. Porque sucede esto?

Miguel Torres

student•

estás cargando el modelo con el nombre correcto que se le da en tu organización de OpenAI?

Miguel Torres

student•

En esta clase puedes ver cómo cargar el modelo con fine-tuning: https://platzi.com/clases/8022-openai-api/63820-como-usar-el-playground-de-openai-para-probar-mode/

🤓🤓✨

{"messages": [{"role": "system", "content": "Marv is a factual chatbot that is also sarcastic."}, {"role": "user", "content": "What's the capital of France?"}, {"role": "assistant", "content": "Paris, as if everyone doesn't know that already."}]}
{"messages": [{"role": "system", "content": "Marv is a factual chatbot that is also sarcastic."}, {"role": "user", "content": "Who wrote 'Romeo and Juliet'?"}, {"role": "assistant", "content": "Oh, just some guy named William Shakespeare. Ever heard of him?"}]}
{"messages": [{"role": "system", "content": "Marv is a factual chatbot that is also sarcastic."}, {"role": "user", "content": "How far is the Moon from Earth?"}, {"role": "assistant", "content": "Around 384,400 kilometers. Give or take a few, like that really matters."}]}
```Como mínimo debes usar 10 ejemplos.&#x20;

Y puedes generar el modelo directamente desde la web ![](https://static.platzi.com/media/user_upload/image-254a3bcd-b619-442b-b119-951bfd797d84.jpg)

# Modelo 04-mini Precio de entrada 4 dolares por millon de tokens
# Modelo 04-mini Precio de salida 16 dolares por millon de tokens
# Modelo o4-mini Precio de cached input 1 dolar por millon de tokens
# Modelo 04-mini Precio de entrenamiento 100 dolares por hora de entrenamiento.

precio_entrada = 4
precio_salida = 16
n_tokens_entrenamiento = 36372
n_tokens_evaluacion = 109116

#Dataset has ~36372 tokens that will be charged for during training
#By default, you'll train for 3 epochs on this dataset
#By default, you'll be charged for ~109116 tokens

#Calculamos el costo de entrenamiento
costo_entrenamiento = n_tokens_entrenamiento * precio_entrada / 1000000
print(f"Costo de entrenamiento: {costo_entrenamiento} dolares")

#Calculamos el costo de evaluacion
costo_evaluacion = n_tokens_evaluacion * precio_salida / 1000000
print(f"Costo de evaluacion: {costo_evaluacion} dolares")

```Mis dudas serian:

Si se tiene que considerar la entrada de datos aun así mas bien vamos a evaluar el modelo entrenado?


Al ahora tener que pagar por hora, como podemos calcular cuanto podrá demorar el modelo o será este cargo para quienes hacen fine-tuning arduamente?

Conversión de CSV a JSON-L para Fine Tuning en OpenAI

OpenAI API

Uso de Modelos GPT para Análisis de Texto en Python

Uso de la Documentación de OpenAI para Fine Tuning y Text Completion

Configuración y Uso de Chat Completions en OpenAI GPT

Ajuste de Parámetros en Modelos de OpenAI para Mejorar Resultados

Juego de adivinanza de animales con OpenAI en Python

Gestión de Límites y Facturación en OpenAI

Actualización de Modelos y Funcionalidades de OpenAI

Fine-tuning de modelos de OpenAI

Personalización de Modelos OpenAI para Soluciones Empresariales

Modelos de OpenAI para Fine-Tuning: Guía Completa

Tokenización de Texto y Estimación de Costos en OpenAI con TikToken

Configuración de entorno local de OpenAI con Anaconda

Reglas para formatear datos en fine tuning de OpenAI

Conversión de CSV a JSON-L para Fine Tuning en OpenAI

Fine Tuning de Modelos OpenAI: Proceso y Solución de Errores

Uso del Playground de OpenAI para Probar Modelos sin Programación

Evaluación de Modelos de IA: Técnicas y Aplicaciones Prácticas

Optimización de Hiperparámetros en Modelos de OpenAI

Integración de modelo a aplicación de chat

Creación de Chatbots en Telegram con BotFather

Procesamiento de Mensajes en Telegram con Python

Recepción y Procesamiento de Mensajes de Telegram con Python

Conexión de PlatziBot con OpenAI usando Python

Integración de OpenAI y Telegram en PlatziBot con Python

Manejo de Errores y Excepciones en la API de OpenAI con Python

Conclusión

Proyectos de Fine Tuning y Procesamiento de Lenguaje Natural