Fine tuning supervisado de GPT-4 con datasets médicos

Clase 16 de 20 • Curso de Fundamentos de LLMs

Resumen

La técnica supervised fine tuning permite ajustar modelos preentrenados como GPT-4 usando conjuntos específicos de datos. Esto es clave cuando modelos generales como ChatGPT carecen de respuestas adecuadas por limitaciones en su entrenamiento inicial.

¿Qué es el fine tuning supervisado en la inteligencia artificial?

El fine tuning supervisado significa entrenar un modelo preexistente suministrando claramente tanto el dato como la respuesta esperada. El modelo ajusta sus pesos mediante procesos llamados forward pass y backward pass, procedimientos explicados previamente y esenciales para adaptar el modelo al nuevo contexto.

¿Para qué sirve aplicar fine tuning con GPT-4 en OpenAI?

Esta técnica permite darle al modelo la habilidad de responder preguntas específicas que inicialmente no podría contestar bien debido a la limitación de su entrenamiento original:

Adaptar respuestas a contextos especializados como medicina.
Incrementar la precisión y calidad de respuestas.
Controlar extensiones de textos generados para eficiencias mayores y costos operacionales menores.

¿Cómo preparar un dataset para fine tuning de GPT-4?

El proceso anterior a la ejecución del fine tuning implica una serie de etapas esenciales para asegurar la calidad del modelo entrenado:

Análisis inicial del conjunto de datos identificando duplicados, respuestas truncadas, o contenido inapropiado.
Eliminación de registros no óptimos como entradas duplicadas, información incompleta o expresiones problemáticas mediante herramientas como expresiones regulares con Pandas.
Transformación y formateo del dataset según la estructura admitida por OpenAI, con campos claramente definidos para roles de asistencia, usuario y sistema.

¿Qué tipo de ajustes se requieren para un entrenamiento exitoso?

Algunos aspectos críticos durante la limpieza y filtrado del dataset pueden incluir:

Comprobación exhaustiva del contenido duplicado o incorrecto.
Asegurar respuestas completas y evitar desviaciones o datos irrelevantes.
Mantener un estándar mínimo definido (p.e., respuestas mayores a cincuenta caracteres).

Usar librerías Python como Pandas facilita enormemente estos procesos.

¿Qué parámetros configurar durante el fine tuning en OpenAI?

El usuario debe establecer hiperparámetros vitales que optimizan cómo el modelo aprende del nuevo dataset:

Batch size: define el número de iteraciones antes de actualizar los pesos (menor número implica procesos más lentos).
Learning rate multiplier: ajusta el nivel del aprendizaje para evitar mínimos locales.
Número de épocas: automatizable por OpenAI o manualmente controlable para diferentes niveles de detalle en el entrenamiento.

¿Qué resultados esperar tras el proceso de fine tuning?

La plataforma OpenAI proporciona múltiples métricas relevantes:

Cantidad de tokens utilizados, directamente vinculados al costo económico.
Gráficas detalladas mostrando comportamento de métricas como pérdida (loss) en entrenamiento y validación.
Precisión (accuracy) del modelo con el conjunto de pruebas (test dataset).

Además, OpenAI ofrece distintas etapas del modelo que permiten comparar rendimiento versus el modelo original mediante la interfaz del Playground, facilitando actualizaciones incrementales para optimizar resultados con iteraciones adicionales sobre el dataset original.

Se anima a quienes estén realizando este procedimiento a compartir sus experiencias analizando dataset, considerando técnicas estadísticas simples para descubrir información adicional o mejoras posibles en los datos utilizados.

Karen Gómez

student•

Encontré el dataset en este link:

Lo pueden descargar y agregar al Colab

Javier Ramos

student•

Excelente aporte Gracias

Moises Bravo

student•

Gracias honorable compañera.

Brayam Ruiz

student•

todos los google colab piden acceso :/ no he podido probar nada

Gabriel Obregón

student•

🧬 Fine-tuning supervisado de GPT-4 con datasets médicos (SCRIPT)

🧪 1. Análisis del dataset

Función: analyze_dataset()

🔍 Entrada: JSON con campos instruction, input, output
📊 Detecta:
- Duplicados
- Respuestas truncadas (... o < 50 caracteres)
- Frases inútiles o lenguaje inapropiado

🧼 2. Corrección del dataset

Función: correct_dataset()

✅ Elimina duplicados
✂️ Filtra respuestas muy cortas o truncadas
🚫 Elimina respuestas con contenido inadecuado
💾 Guarda nuevo JSON como corrected_<original>.json

🔁 3. Formateo para fine-tuning

📄 Filtra respuestas con output < 500 caracteres

🧩 Estructura como conversación tipo ChatGPT: [

{"role": "system", "content": "instrucción"},

{"role": "user", "content": "input"},

{"role": "assistant", "content": "output"}

]

🔀 Divide el dataset:
- train_formatted_dataset.jsonl ← primeros 500
- test_formatted_dataset.jsonl ← siguientes 499

🔑 4. Carga en OpenAI + Entrenamiento

🧪 Usa dotenv o userdata para obtener OPENAI_API_KEY
☁️ Sube los archivos .jsonl con purpose="fine-tune"
🧠 Fine-tuning supervisado sobre gpt-4o-2024-08-06:
- batch_size = 5
- learning_rate_multiplier = 0.001
- n_epochs = auto

📈 5. Monitoreo del entrenamiento

📋 Lista los últimos trabajos: client.fine_tuning.jobs.list()

🔍 Visualiza eventos: client.fine_tuning.jobs.list_events(...)

Moises Bravo

student•

El dataset no esta en los archivos de la clase.

Jose Daniel Barría Reyes

student•

Se ve que estaba mal el orden de las clases o bien agregaron nuevas clases! Por las dudas revisen su historial!

Tetsu Osnaya

student•

Si, tampoco me gusto por eso.

Tetsu Osnaya

student•

La idea de sacar el curso por partes sonaba bien. Sin embargo, no estuvo bien la ejecución. Material desconectado, sin acceso a recursos, sin fechas de liberación de clases.

Emilio Sala

student•

Si la unica diferencia en la respuesta es que una es más concisa que la otra, esto no se podría mejorar con el system prompt?

en este caso, las respuestas han sido muy similares, por lo que sería más difícil justificar ante la empresa la realización de un fine-tuning.

sin embargo, el fine-tuning tiene un gran potencial, especialmente en escenarios donde el modelo base (como chatgpt) no haya sido entrenado con datos específicos. en este ejemplo, parece que el modelo ya ha sido expuesto a una gran cantidad de información médica pública.

Javier Ramos

student•

Tienes un buen punto, supongo que es por el ejemplo el dataset contiene información que el LLM muy seguramente ya manejaba de ahí la poca diferencia, pero como bien apuntas las diferencias deben verse con datos que el LLM no halla tenido antes ahí es donde el fine tuning da resultados notables

Manuel Alejandro Perdomo

student•

Porque nose indico previamente que se debia generar una api-key de GPT-4?. Y ademas como lo hacen los que no sabemos, sumado a que no esta el archivo json de la clase solo el Colab.

Muy interesante la practica pero sin esa informacion solo pude llegar hasta cierta seccion. 😒

Daniel Hernandez

student•

Este archivo no está en los recursos: "bad_medical_meadow_wikidoc.json"

Kevin Fiorentino

student•

Que buena clase! es la primera vez que veo cómo hacer Fine Tunning.

Question: ¿OpenAI cobra por los tokens de entranamiento, o también por hostear el modelo entrenado en nuestra cuenta?

Hubiera estado bueno que el profesor hablara de cuánto costó este proceso, tener una idea de los precios.

Edgar Haro

student•

cuando realizamos un fine-tuning en OpenAI, ¿qué modelo base es el que realmente se entrena o ajusta?

Javier Bornia

student•

En este caso por lo que muestra en los Checkpoints es en base a GPT-4o

Edwin yamid Castillo Riapira

student•

buenas tardes este metodo que usamos para entrenar modelos apartir usando otro modelo paa realizarlo de manera supervisada, tambien podemos hacerlo con gemeni

MARIA TERESA PANIAGUA RIVERA

student•

gracias

Christopher Vilches

student•

El problema de resolver preguntas con las cuales no se han entrenado se puede hacer con RAG. El LLM le dice a la aplicacion que haga una busqueda, y luego el texto resultado se pone en el input del LLM para darle contexto e informacion al LLM. Asi se puede resolver las alucinaciones tambien.

Kevin Fiorentino

student••

Pienso que es algo dificil comparar las respuestas del modelo base de GPT-4o con el modelo entrenado por que lo más probable es que este modelo ya tenga algo de conocimiento sobre el dataset que el profesor utilizó para entrenarlo. Entonces es complicado darse cuenta si relamente las respuestas mejoran.

Creo que el fine tunning se aprecia más cuando entrenas a un modelo con tu propia regla de negocio interna de la empresa. Con información que GPT realmente no conoce. Ahí es donde puedes analizar más fácil la calidad de las respuestas.

Ricardo Terán

student•

Parece que las clases se cargaron al revez, en la anterior hacen referencia a esta 😅

Daniel Alberto Vega Bejarano

student•

Tengo una pregunta, osea que para usar OpenAI toca pagar?

Ricardo Terán

student•

porsupuesto

Fine tuning supervisado de GPT-4 con datasets médicos

Fundamentos de los LLMs

Funcionamiento interno de los grandes modelos de lenguaje

Conceptos fundamentales de LLM: del contexto al despliegue

Historia de la inteligencia artificial desde Turing hasta GPT-4

Tokenización, vectorización y embeddings en LLMs

Funcionamiento básico de redes neuronales multicapa

Arquitectura GPT-2 y mecanismo de atención en transformadores

Fundamentos de PyTorch para modelos de machine learning

Componentes Avanzandos de los LLMs

Construcción de GPT-2 desde cero con Python y PyTorch

RoPE: codificación posicional rotatoria para transformers

Integración de Rope en GPT-2 con PyTorch

Leyes de escalado y modelos multimodales en inteligencia artificial

Cómo se entrena un modelo de lenguaje grande (LLM) paso a paso

Mixture of Experts: arquitectura eficiente para modelos de IA

Requisitos de hardware para ejecutar modelos LLM en tu computadora

Instalación de Olama y configuración de clúster local con ExoLabs

Personalización y Optimización

Fine tuning supervisado de GPT-4 con datasets médicos

LoRa para fine tuning eficiente de modelos gigantes

Despliegue de modelos fine-tuned con Hugging Face Endpoints

Cuantización de números en modelos de Machine Learning

Evaluación de Modelos

Benchmarks para evaluar y comparar modelos LLM