Fine tuning supervisado de GPT-4 con datasets médicos

Clase 16 de 20 • Curso de Fundamentos de LLMs

Contenido del curso

Fundamentos de los LLMs

Componentes Avanzandos de los LLMs

Personalización y Optimización

Evaluación de Modelos

20
Benchmarks para evaluar y comparar modelos LLM
12:53 min

Tomar examen

Resumen

La técnica supervised fine tuning permite ajustar modelos preentrenados como GPT-4 usando conjuntos específicos de datos. Esto es clave cuando modelos generales como ChatGPT carecen de respuestas adecuadas por limitaciones en su entrenamiento inicial.

¿Qué es el fine tuning supervisado en la inteligencia artificial?

El fine tuning supervisado significa entrenar un modelo preexistente suministrando claramente tanto el dato como la respuesta esperada. El modelo ajusta sus pesos mediante procesos llamados forward pass y backward pass, procedimientos explicados previamente y esenciales para adaptar el modelo al nuevo contexto.

¿Para qué sirve aplicar fine tuning con GPT-4 en OpenAI?

Esta técnica permite darle al modelo la habilidad de responder preguntas específicas que inicialmente no podría contestar bien debido a la limitación de su entrenamiento original:

Adaptar respuestas a contextos especializados como medicina.
Incrementar la precisión y calidad de respuestas.
Controlar extensiones de textos generados para eficiencias mayores y costos operacionales menores.

¿Cómo preparar un dataset para fine tuning de GPT-4?

El proceso anterior a la ejecución del fine tuning implica una serie de etapas esenciales para asegurar la calidad del modelo entrenado:

Análisis inicial del conjunto de datos identificando duplicados, respuestas truncadas, o contenido inapropiado.
Eliminación de registros no óptimos como entradas duplicadas, información incompleta o expresiones problemáticas mediante herramientas como expresiones regulares con Pandas.
Transformación y formateo del dataset según la estructura admitida por OpenAI, con campos claramente definidos para roles de asistencia, usuario y sistema.

¿Qué tipo de ajustes se requieren para un entrenamiento exitoso?

Algunos aspectos críticos durante la limpieza y filtrado del dataset pueden incluir:

Comprobación exhaustiva del contenido duplicado o incorrecto.
Asegurar respuestas completas y evitar desviaciones o datos irrelevantes.
Mantener un estándar mínimo definido (p.e., respuestas mayores a cincuenta caracteres).

Usar librerías Python como Pandas facilita enormemente estos procesos.

¿Qué parámetros configurar durante el fine tuning en OpenAI?

El usuario debe establecer hiperparámetros vitales que optimizan cómo el modelo aprende del nuevo dataset:

Batch size: define el número de iteraciones antes de actualizar los pesos (menor número implica procesos más lentos).
Learning rate multiplier: ajusta el nivel del aprendizaje para evitar mínimos locales.
Número de épocas: automatizable por OpenAI o manualmente controlable para diferentes niveles de detalle en el entrenamiento.

¿Qué resultados esperar tras el proceso de fine tuning?

La plataforma OpenAI proporciona múltiples métricas relevantes:

Cantidad de tokens utilizados, directamente vinculados al costo económico.
Gráficas detalladas mostrando comportamento de métricas como pérdida (loss) en entrenamiento y validación.
Precisión (accuracy) del modelo con el conjunto de pruebas (test dataset).

Además, OpenAI ofrece distintas etapas del modelo que permiten comparar rendimiento versus el modelo original mediante la interfaz del Playground, facilitando actualizaciones incrementales para optimizar resultados con iteraciones adicionales sobre el dataset original.

Se anima a quienes estén realizando este procedimiento a compartir sus experiencias analizando dataset, considerando técnicas estadísticas simples para descubrir información adicional o mejoras posibles en los datos utilizados.

Wilmar Carrillo

student•

Le pregunté a Gemini cual era el valor de usar fine tuning:

🛠️ Fine-Tuning: El Mito de la Base de Datos y el Valor Comercial Real

Wil, aquí hay una confusión técnica fundamental: el Fine-Tuning NO conecta el modelo a una base de datos. Entender la diferencia entre alterar el "cerebro" del modelo (Fine-Tuning) y darle un libro para leer (RAG) es lo que separa a un arquitecto de software de un entusiasta de la IA.

🔍 1. Análisis Crítico: El Error del "Buscador"

Tu premisa inicial asume que el modelo entrenado "buscará en la base de datos que le cargué y dará la misma respuesta". Esto es técnicamente incorrecto.

El modelo no guarda tu archivo de Excel o JSONL como si fuera un disco duro. Durante el Supervised Fine-Tuning (SFT), el modelo lee las preguntas y respuestas miles de veces y ajusta sus pesos neuronales (probabilidades matemáticas). Una vez termina el entrenamiento, el archivo de datos se destruye o descarta; el conocimiento queda "horneado" en el modelo.

Analogía:

RAG (Retrieval-Augmented Generation): Es darle a un estudiante generalista un manual médico abierto durante el examen para que busque la respuesta y te la lea.
Fine-Tuning (SFT): Es enviar al estudiante a la facultad de medicina por 5 años. En el examen no tiene libros; responde de memoria basándose en cómo fue entrenado.

Checklist de Arquitectura (SFT vs RAG):

[ ] Si necesitas que el modelo cite fuentes o busque datos exactos de ayer ➡️ Usa RAG.
[ ] Si necesitas que el modelo cambie su forma de hablar, formato o razonamiento ➡️ Usa Fine-Tuning.

🪞 2. El Efecto Espejo: El Caso de la "Fiebre"

Si en tu dataset de entrenamiento pones: Usuario: "¿Cuál es un síntoma de la gripe?"Asistente: "Fiebre."

¿Qué hará el modelo cuando le preguntes eso en producción? Dará exactamente esa respuesta seca: "Fiebre".

El modelo es un espejo estadístico. Si lo entrenas con respuestas de una sola palabra, aprenderá que el comportamiento deseado es ser extremadamente cortante. No te dará una respuesta "mejor o más explicada" porque le acabas de enseñar, mediante la actualización de sus pesos, que las respuestas largas están mal.

Ejemplo Práctico de Condicionamiento: Si quieres que el modelo sea explicativo, tu dataset debe verse así:

// Lo que el modelo aprenderá: Estructura, empatía y completitud.
{"role": "user", "content": "¿Cuál es un síntoma de la gripe?"}
{"role": "assistant", "content": "El síntoma más común es la fiebre. Sin embargo, también suele acompañarse de mialgia (dolor muscular) y fatiga severa. ¿Deseas saber cómo tratar estos síntomas?"}

💰 3. La Verdad Realista: ¿Tiene Valor Comercial?

Tu pregunta final es clave: ¿No sería mejor para las personas simplemente ir a ChatGPT? La respuesta realista y sin suavizar es: Sí, para el usuario común (B2C), tu modelo no tiene ningún valor comercial. No puedes competir con los miles de millones de dólares que OpenAI invierte en modelos generalistas.

El valor comercial masivo del Fine-Tuning está en el sector B2B (Empresas) y Automatización, donde ChatGPT generalista falla miserablemente por ser demasiado verboso, caro o inseguro.

Propuesta de ValorChatGPT / Gemini (General)Modelo con Fine-Tuning (Especializado)

Privacidad de Datos

Envías datos médicos confidenciales a servidores externos (Ilegal en muchos países).

Se puede ejecutar en servidores locales del hospital (Cumplimiento HIPAA/Ley de Datos).

Formato Estricto

Te da la respuesta con introducciones molestas ("¡Claro! Aquí tienes...").

Devuelve exclusivamente un JSON perfecto para ser inyectado en una base de datos automáticamente.

Costos a Escala

Usar GPT-4 para clasificar 100,000 historiales médicos te costará miles de dólares.

Un modelo pequeño de 8B (gratis) con SFT hace la misma tarea 100 veces más rápido y casi a costo cero.

🧠 Cerebro de Arquitecto

💡 Tip Pro: El flujo de trabajo moderno en ingeniería de IA (State of the Art) no elige entre uno u otro; los combina. Se hace Fine-Tuning a un modelo pequeño para que aprenda el tono clínico y entienda el formato de un expediente, y simultáneamente se le conecta un sistema RAG para que busque la dosis exacta de un medicamento en la base de datos del hospital en tiempo real.

⚠️ Anti-patrón: Tratar de inyectarle toda la enciclopedia médica de Wikipedia a un modelo mediante Fine-Tuning. Es el error número uno de los juniors. El SFT es pésimo para memorizar datos duros nuevos; es excelente para aprender estilo, formato y lógica de respuesta.

Daniel Gallego

Javier Ramos

Moises Bravo

Brayam Ruiz

Gabriel Obregón

Jose Daniel Barría Reyes

Tetsu Osnaya

Emilio Sala

Daniel Hernandez

Kevin Fiorentino

Manuel Alejandro Perdomo

Edgar Haro

Javier Bornia

Andy Morraz

Juan Diego

student••

Aura Ximena González Cely

Edwin yamid Castillo Riapira

MARIA TERESA PANIAGUA RIVERA

Christopher Vilches

Ricardo Terán

Fine tuning supervisado de GPT-4 con datasets médicos

Fundamentos de los LLMs

Funcionamiento interno de los grandes modelos de lenguaje

Conceptos fundamentales de LLM: del contexto al despliegue

Historia de la inteligencia artificial desde Turing hasta GPT-4

Tokenización, vectorización y embeddings en LLMs

Funcionamiento básico de redes neuronales multicapa

Arquitectura GPT-2 y mecanismo de atención en transformadores

Fundamentos de PyTorch para modelos de machine learning

Componentes Avanzandos de los LLMs

Construcción de GPT-2 desde cero con Python y PyTorch

RoPE: codificación posicional rotatoria para transformers

Integración de Rope en GPT-2 con PyTorch

Leyes de escalado y modelos multimodales en inteligencia artificial

Cómo se entrena un modelo de lenguaje grande (LLM) paso a paso

Mixture of Experts: arquitectura eficiente para modelos de IA

Requisitos de hardware para ejecutar modelos LLM en tu computadora

Instalación de Olama y configuración de clúster local con ExoLabs

Personalización y Optimización

Fine tuning supervisado de GPT-4 con datasets médicos

LoRa para fine tuning eficiente de modelos gigantes

Despliegue de modelos fine-tuned con Hugging Face Endpoints

Cuantización de números en modelos de Machine Learning

Evaluación de Modelos

Benchmarks para evaluar y comparar modelos LLM