Fine tuning de GPT-4o con datos propios

Curso de Fundamentos de LLMs

Contenido del curso

Fundamentos de los LLMs

Componentes Avanzandos de los LLMs

Personalización y Optimización

Evaluación de Modelos

20
Benchmarks para evaluar y comparar modelos LLM
12:53 min

Tomar examen

Fine tuning de GPT-4o con datos propios

Resumen

El fine tuning de GPT-4o con supervised fine tuning te permite adaptar un modelo preentrenado a tu caso de uso sin entrenar desde cero. En esta guía aprenderás a limpiar un dataset médico, formatearlo para la API de OpenAI, lanzar un job de ajuste fino y comparar el modelo resultante contra el modelo base.

Por qué hacer fine tuning a un modelo preentrenado

Un LLM como GPT-4o, ChatGPT o Claude responde según la distribución de los datos con los que fue entrenado. Cuando esa información no cubre tu dominio, el modelo improvisa o falla. Ahí entra el fine tuning: tomas un modelo preentrenado y lo reentrenas con datos específicos tuyos, modificando sus pesos mediante forward y backward pass.

El supervised fine tuning significa que tú le muestras explícitamente al modelo cuál es la pregunta y cuál es la respuesta correcta. Él aprende por imitación supervisada [02:00].

¿Qué es el supervised fine tuning? Es una técnica donde le entregas al modelo pares pregunta-respuesta etiquetados. El modelo ajusta sus pesos para reproducir ese estilo de respuesta en casos nuevos.

Cómo limpiar un dataset antes del fine tuning

El principio rector aquí es garbage in, garbage out. Si entrenas con datos sucios, el modelo solo aprenderá a producir basura. Por eso la fase de limpieza no es opcional [07:30].

En la clase trabajamos con un dataset llamado Bad Medical Medium WikiDoc, tomado de Kaggle, al que se le inyectaron problemas a propósito: duplicados, respuestas truncadas, frases poco útiles como “ve al doctor inmediatamente” y curse words como damn o hell.

Qué revisar en el análisis del dataset

La función analyze_dataset replica los pasos típicos de limpieza en la vida real:

Detectar duplicados.
Identificar respuestas truncadas (terminadas en tres puntos o con menos de 50 caracteres).
Buscar frases no útiles dentro del texto.
Detectar groserías o contenido problemático.

Los resultados sobre el dataset original fueron contundentes: de 11.500 entradas totales, había 1.113 duplicados, 763 respuestas truncadas y 283 con contenido problemático. Tras aplicar correct_dataset, quedaron 9.641 registros limpios [10:30].

En proyectos reales puedes empezar con el 100% de los datos y terminar con un 20% utilizable. Por eso el activo más valioso de las empresas de IA suele ser el dato, no el modelo.

Cómo formatear el dataset para la API de OpenAI

OpenAI exige una estructura específica de mensajes con tres roles por cada ejemplo de entrenamiento:

system: la instrucción general (en el dataset es el campo instruction).
user: la pregunta del usuario (campo input).
assistant: la respuesta esperada (campo output).

El archivo final se guarda como train_formatted_dataset.jsonl. El formato .jsonl significa JSON Lines: cada línea del archivo es un registro JSON independiente, que es justo lo que OpenAI espera [13:30].

Para acelerar el ejemplo, se filtran respuestas de menos de 500 palabras y se toman solo los primeros 500 registros con un list comprehension [:500]. Recuerda separar siempre conjunto de entrenamiento y conjunto de test.

¿Qué es un archivo .jsonl? Es un archivo donde cada línea contiene un objeto JSON completo e independiente. OpenAI lo usa porque permite procesar los ejemplos uno por uno sin cargar todo el archivo en memoria.

Cómo lanzar el job de fine tuning en OpenAI

Primero necesitas una API key de OpenAI, que se crea en el panel de API keys y se guarda como secreto en Google Colab bajo el nombre OPENAI_API_KEY. Luego subes los archivos con client.files.create, asignando purpose="fine-tune" para que la API sepa que son para entrenamiento [16:00].

El job se crea con client.fine_tuning.jobs.create, pasando:

training_file: el ID del archivo de entrenamiento.
validation_file: el ID del archivo de test.
model: en este caso gpt-4o-2024-08-06.
method: tipo supervised con sus hiperparámetros.

Qué hiperparámetros configurar y por qué

Los hiperparámetros son valores que tú eliges manualmente y ajustas por prueba y error:

batch size = 5: cada cuántos ejemplos se ejecuta el backpropagation. Números bajos hacen el entrenamiento más lento pero más detallado.
learning rate multiplier = 0.001: controla qué tan grande es el “salto” de los pesos en cada actualización. Valores típicos van de 0.0001 a 10. Si lo subes demasiado, el modelo nunca converge.
n_epochs = auto: deja que OpenAI decida cuántas iteraciones completas hacer sobre el dataset.

Qué esperar mientras corre el entrenamiento

El job entra a una cola compartida con miles de usuarios de OpenAI. En el ejemplo de la clase, la espera fue de casi 19 horas antes de que empezara el entrenamiento, y luego unos 30 minutos de cómputo real [22:00]. A veces tendrás que cancelarlo y volverlo a lanzar.

Durante el proceso se generan checkpoints en distintos steps (por ejemplo step 100 y step 200) que puedes probar individualmente.

Métricas que entrega OpenAI al terminar

Tokens de entrenamiento: 116.283 en este caso. Es la base con la que OpenAI te factura.
Train loss y valid loss: indican si el modelo está aprendiendo. Si la curva de validación deja de bajar y empieza a subir, hay sobreajuste.
Accuracy: en el ejemplo, 60% en train y 56% en valid. No es ideal, porque se usó un subconjunto pequeño y pocas épocas.
Seed: la semilla pseudoaleatoria que define el estado inicial. Reutilizarla reproduce métricas similares, igual que las semillas procedurales en Minecraft.

Cómo comparar el modelo fine tuneado contra el modelo base

El Playground de OpenAI permite poner lado a lado el modelo base y tu versión ajustada. Con la pregunta “¿qué encuentros de laboratorio están asociados con la hemofilia?”, el modelo base respondió con 289 tokens y el modelo fine tuneado con 181 tokens, mucho más conciso y alineado con la respuesta del dataset [29:00].

Esa diferencia importa por dos razones: respuestas más claras para el usuario y ahorro real en costos de tokens cuando escalas a miles de consultas. La latencia inicial puede ser un poco mayor en el modelo fine tuneado porque debe cargarse en memoria, mientras que GPT-4o base ya está caliente en los datacenters.

El fine tuning es un proceso iterativo: cada comparación te muestra dónde tu modelo flaquea y qué necesitas mejorar en el dataset. ¿Has probado hacer fine tuning con datos propios? Cuéntame en los comentarios qué dataset usarías y qué easter eggs encontraste al limpiar el WikiDoc.

Wilmar Carrillo

Estudiante

Le pregunté a Gemini cual era el valor de usar fine tuning:

🛠️ Fine-Tuning: El Mito de la Base de Datos y el Valor Comercial Real

Wil, aquí hay una confusión técnica fundamental: el Fine-Tuning NO conecta el modelo a una base de datos. Entender la diferencia entre alterar el "cerebro" del modelo (Fine-Tuning) y darle un libro para leer (RAG) es lo que separa a un arquitecto de software de un entusiasta de la IA.

🔍 1. Análisis Crítico: El Error del "Buscador"

Tu premisa inicial asume que el modelo entrenado "buscará en la base de datos que le cargué y dará la misma respuesta". Esto es técnicamente incorrecto.

El modelo no guarda tu archivo de Excel o JSONL como si fuera un disco duro. Durante el Supervised Fine-Tuning (SFT), el modelo lee las preguntas y respuestas miles de veces y ajusta sus pesos neuronales (probabilidades matemáticas). Una vez termina el entrenamiento, el archivo de datos se destruye o descarta; el conocimiento queda "horneado" en el modelo.

Analogía:

RAG (Retrieval-Augmented Generation): Es darle a un estudiante generalista un manual médico abierto durante el examen para que busque la respuesta y te la lea.
Fine-Tuning (SFT): Es enviar al estudiante a la facultad de medicina por 5 años. En el examen no tiene libros; responde de memoria basándose en cómo fue entrenado.

Checklist de Arquitectura (SFT vs RAG):

[ ] Si necesitas que el modelo cite fuentes o busque datos exactos de ayer ➡️ Usa RAG.
[ ] Si necesitas que el modelo cambie su forma de hablar, formato o razonamiento ➡️ Usa Fine-Tuning.

🪞 2. El Efecto Espejo: El Caso de la "Fiebre"

Si en tu dataset de entrenamiento pones: Usuario: "¿Cuál es un síntoma de la gripe?"Asistente: "Fiebre."

¿Qué hará el modelo cuando le preguntes eso en producción? Dará exactamente esa respuesta seca: "Fiebre".

El modelo es un espejo estadístico. Si lo entrenas con respuestas de una sola palabra, aprenderá que el comportamiento deseado es ser extremadamente cortante. No te dará una respuesta "mejor o más explicada" porque le acabas de enseñar, mediante la actualización de sus pesos, que las respuestas largas están mal.

Ejemplo Práctico de Condicionamiento: Si quieres que el modelo sea explicativo, tu dataset debe verse así:

// Lo que el modelo aprenderá: Estructura, empatía y completitud.
{"role": "user", "content": "¿Cuál es un síntoma de la gripe?"}
{"role": "assistant", "content": "El síntoma más común es la fiebre. Sin embargo, también suele acompañarse de mialgia (dolor muscular) y fatiga severa. ¿Deseas saber cómo tratar estos síntomas?"}

💰 3. La Verdad Realista: ¿Tiene Valor Comercial?

Tu pregunta final es clave: ¿No sería mejor para las personas simplemente ir a ChatGPT? La respuesta realista y sin suavizar es: Sí, para el usuario común (B2C), tu modelo no tiene ningún valor comercial. No puedes competir con los miles de millones de dólares que OpenAI invierte en modelos generalistas.

El valor comercial masivo del Fine-Tuning está en el sector B2B (Empresas) y Automatización, donde ChatGPT generalista falla miserablemente por ser demasiado verboso, caro o inseguro.

Propuesta de ValorChatGPT / Gemini (General)Modelo con Fine-Tuning (Especializado)

Privacidad de Datos

Envías datos médicos confidenciales a servidores externos (Ilegal en muchos países).

Se puede ejecutar en servidores locales del hospital (Cumplimiento HIPAA/Ley de Datos).

Formato Estricto

Te da la respuesta con introducciones molestas ("¡Claro! Aquí tienes...").

Devuelve exclusivamente un JSON perfecto para ser inyectado en una base de datos automáticamente.

Costos a Escala

Usar GPT-4 para clasificar 100,000 historiales médicos te costará miles de dólares.

Un modelo pequeño de 8B (gratis) con SFT hace la misma tarea 100 veces más rápido y casi a costo cero.

🧠 Cerebro de Arquitecto

💡 Tip Pro: El flujo de trabajo moderno en ingeniería de IA (State of the Art) no elige entre uno u otro; los combina. Se hace Fine-Tuning a un modelo pequeño para que aprenda el tono clínico y entienda el formato de un expediente, y simultáneamente se le conecta un sistema RAG para que busque la dosis exacta de un medicamento en la base de datos del hospital en tiempo real.

⚠️ Anti-patrón: Tratar de inyectarle toda la enciclopedia médica de Wikipedia a un modelo mediante Fine-Tuning. Es el error número uno de los juniors. El SFT es pésimo para memorizar datos duros nuevos; es excelente para aprender estilo, formato y lógica de respuesta.

Daniel Gallego

Javier Ramos

Moises Bravo

Brayam Ruiz

Gabriel Obregón

Jose Daniel Barría Reyes

Tetsu Osnaya

Emilio Sala

Daniel Hernandez

Kevin Fiorentino

Manuel Alejandro Perdomo

Edgar Haro

Javier Bornia

augusto garzon

Andy Morraz

Juan Diego

•

Aura Ximena González Cely

Edwin yamid Castillo Riapira

MARIA TERESA PANIAGUA RIVERA

Christopher Vilches

Fine tuning de GPT-4o con datos propios

Fundamentos de los LLMs

Funcionamiento interno de los grandes modelos de lenguaje

Qué construirás al terminar el curso de LLMs

Historia de la inteligencia artificial desde Turing hasta GPT-4

Tokenización y embeddings en LLMs

Qué es y cómo aprende un MLP

Cómo funciona la atención en GPT-2

Fundamentos de PyTorch para modelos de machine learning

Componentes Avanzandos de los LLMs

Construye GPT-2 desde cero con PyTorch

Qué es RoPE y cómo mejora GPT

Integración de Rope en GPT-2 con PyTorch

Leyes de escalado y modelos multimodales en inteligencia artificial

Cómo se entrena un LLM paso a paso

Mixture of Experts: cómo funciona MoE

RAM y VRAM para ejecutar LLMs en local

Instalación de Olama y configuración de clúster local con ExoLabs

Personalización y Optimización