Despliegue de modelos fine-tuned con Hugging Face Endpoints

Clase 18 de 20 • Curso de Fundamentos de LLMs

Contenido del curso

Fundamentos de los LLMs

Componentes Avanzandos de los LLMs

Personalización y Optimización

Evaluación de Modelos

20
Benchmarks para evaluar y comparar modelos LLM
12:53 min

Tomar examen

Resumen

Optimizar y desplegar modelos entrenados manualmente es posible gracias a los Hugging Face Inference Endpoints, facilitando la integración en servicios y aplicaciones sin complicadas configuraciones técnicas. Aprende paso a paso cómo guardar tu modelo entrenado, subirlo eficientemente a Hugging Face y desplegarlo en la nube para producción.

¿Cómo guardar tu modelo fine-tuned?

Tras entrenar tu modelo es esencial guardarlo correctamente. Utiliza el método save_model disponible desde tu objeto trainer, especificando claramente el identificador que desees. Esto generará los siguientes archivos clave:

Configuración sobre adaptadores empleados (Lora).
Archivos binarios (safe tensors) con los pesos entrenados.
Configuración relevante para cargarlo posteriormente.

Mantener estos archivos debidamente almacenados posibilitará su uso posterior para inferencia.

¿Cuáles son los pasos para subir tu modelo a Hugging Face?

Hugging Face ofrece simplicidad al subir modelos, actuando similar a un repositorio Git adaptado especialmente para machine learning:

Creación de un token en Hugging Face con permisos de escritura.
Autenticación desde tu Google Colab usando este token.
Subir tu modelo mediante trainer.push_to_hub().

Es recomendable escoger cuidadosamente los permisos del token según el nivel de acceso que deseas otorgar, contando con la opción de especificar niveles más detallados si es necesario.

¿Qué es y cómo crear un archivo handler.py para inferencia?

Para desplegar efectivamente en Hugging Face Inference Endpoints debes:

Generar un archivo handler.py que contenga:
- Inicialización del modelo base y adaptadores.
- Carga del tokenizer para procesar entradas.
- Definir la función __call__ para manejar solicitudes de inferencia desde la API.

Este archivo permitirá al endpoint gestionar automáticamente solicitudes provenientes del usuario, realizando inferencia y retornando la información requerida de manera rápida y segura.

¿Cómo utilizar Hugging Face Inference Endpoints para despliegue en la nube?

Para desplegar modelos facilmente debes entrar a "Inference Endpoints" de Hugging Face, indicando:

Proveedor (AWS recomendado).
Tipo de máquina adecuada (GPU NVIDIA L4 recomendada para optimización).
Nivel de seguridad (Protected, Hugging Face Restricted o Public según necesidad).
Configuración de auto-escalado para control económico.

Al usar esta herramienta se evita lidiar con infraestructura complicada, reduciendo significativamente tiempos de configuración e incrementando tu productividad.

¿Qué consideraciones de costos debes tener presentes?

Es fundamental seleccionar planos que controlen tus gastos:

Establece un tiempo limitado para desactivar instancias si no reciben solicitudes (se recomienda una ventana de 15 minutos).
Inicializa únicamente una réplica por defecto para mantener bajo tu gasto inicial.
Evalúa cuidadosamente el número de solicitudes que tu endpoint atenderá para elegir correctamente el tamaño y tipo de máquina.

Adicionalmente, mediante el dashboard ofrecido por Hugging Face podrás monitorear y pausar tus endpoints para ajustar fácilmente tus costos operativos.

¿Cómo probar rápidamente tu endpoint?

Es posible validar tu endpoint directamente desde el playground disponible, facilitando pruebas rápidas y ajustes inmediatos. También, Hugging Face proporciona opciones detalladas para integrarlo en Python, JavaScript u otros métodos interactivos mediante APIs.

Comentarios

Gabriel Obregón

student•

🧠 Despliegue de Modelos con Hugging Face Inference Endpoints

📦 1. Guardar el Modelo Fine-Tuned

Usa trainer.save_model("nombre_modelo")
Archivos generados:
- Configuración de adaptadores (LoRA)
- Pesos entrenados (safe tensors)
- Configuración de carga futura

🔑 Importante: Guardar bien estos archivos asegura la inferencia posterior.

☁️ 2. Subir el Modelo a Hugging Face

Pasos:

Crear token con permisos de escritura en Hugging Face.
Autenticarse en Google Colab.
Subir modelo: trainer.push_to_hub()

🔒 Consejo: Ajusta los permisos del token según el nivel de acceso necesario.

🛠️ 3. Crear handler.py para Inferencia

Debe incluir:

Carga del modelo y adaptadores
Inicialización del tokenizer
Función __call__ para manejar peticiones

📌 Función: Permite al endpoint procesar y responder solicitudes automáticamente.

🚀 4. Despliegue en Inference Endpoints

Configura en Hugging Face:

Proveedor: AWS (recomendado)
Máquina: GPU NVIDIA L4
Seguridad: Protected, Restricted o Public
Auto-escalado: Actívalo para ahorrar recursos

⚙️ Beneficio: Sin necesidad de configurar infraestructura compleja.

💰 5. Consideraciones de Costo

Recomendaciones:

Establece apagado automático (15 min de inactividad)
Inicia con una sola réplica
Evalúa tráfico para escoger máquina adecuada

📊 Usa el dashboard para monitorear y pausar endpoints.

🧪 6. Prueba del Endpoint

Métodos:

Usar el Playground de Hugging Face
Integrar vía API (Python, JavaScript, etc.)

⚡ Ventaja: Pruebas y ajustes inmediatos desde la interfaz.

Luis Carlos Ninaquispe López

student•

No se explica la parte de attention, en lo personal, una de las cosas más importantes, acá explica de gran manera y sirve como repaso del curso:

Edgar A. Gonzalez Ambriz

student•

¿ Y los recursos prometidos en el minuto 2:28 ? No los encuentro

Brian Ariel Ogas

student•

che pero el generatedText que le devolvió era lo mismo que él puso o no?

Diego Ortiz

student•

Dos vídeos que suman 50 minutos para ver un modelo fine tuneado que no hace nada 😕

Luis Rebollo

student••

Le faltan varios fixes el archivo, particularmente relacionadas al attention_mask y al decoding the tokens de respuesta. Aqui una version que si me funciono, con mejoras sugeridas por ChatGPT:

Luis Rebollo

student••

Me decepciono un poco que no funcionara el modelo al hacer inferencia. Le faltan varios fixes al endpoint. Particularmente relacionadas al attention_mask y al decoding de tokens de respuesta. Le pedi a ChatGPT que me lo arreglara. Aqui la version que si me funciono:

Andres Felipe Gonzalez Alarcon

student•

y los recursos ?

Andres Martin

student•

falta el archivo handler.py

Julio Saldaña

student•

Está acá:

Daniel Alberto Vega Bejarano

student•

Excelente saber como se puede desplegar nuestra app con ayuda de Hugging Face

Regina Flores

student•

Chequen Hermes

MARIA TERESA PANIAGUA RIVERA

student•

Gracias

Edgar Villatoro Pérez

student•

Ayuda visual by GPT 5.2

Diego Amaya

student•

Muchas gracias Jhenner y Platzi Team, me encanta la forma en que explicas cosas tan complejas, y además muestras con fluides la prueba de concepto en paralelo, magistral.

Kevin Fiorentino

student•

HF se ha ido convirtiendo en toda una plataforma DevOps para hostear LLMs. De algo tenían que vivir.

Ricardo Terán

student•

Creo que esta es la clase que más me gustó

Ricardo Aguilera

student•

Exit code: 3. Reason: e "/app/huggingface_inference_toolkit/handler.py", line 159, in get_inference_handler_either_custom_or_default_handler return HuggingFaceHandler(model_dir=model_dir, task=task)No me dejo deployar

Despliegue de modelos fine-tuned con Hugging Face Endpoints

Fundamentos de los LLMs

Funcionamiento interno de los grandes modelos de lenguaje

Conceptos fundamentales de LLM: del contexto al despliegue

Historia de la inteligencia artificial desde Turing hasta GPT-4

Tokenización, vectorización y embeddings en LLMs

Funcionamiento básico de redes neuronales multicapa

Arquitectura GPT-2 y mecanismo de atención en transformadores

Fundamentos de PyTorch para modelos de machine learning

Componentes Avanzandos de los LLMs

Construcción de GPT-2 desde cero con Python y PyTorch

RoPE: codificación posicional rotatoria para transformers

Integración de Rope en GPT-2 con PyTorch

Leyes de escalado y modelos multimodales en inteligencia artificial

Cómo se entrena un modelo de lenguaje grande (LLM) paso a paso

Mixture of Experts: arquitectura eficiente para modelos de IA

Requisitos de hardware para ejecutar modelos LLM en tu computadora

Instalación de Olama y configuración de clúster local con ExoLabs

Personalización y Optimización

Fine tuning supervisado de GPT-4 con datasets médicos

LoRa para fine tuning eficiente de modelos gigantes

Despliegue de modelos fine-tuned con Hugging Face Endpoints

Cuantización de números en modelos de Machine Learning

Evaluación de Modelos

Benchmarks para evaluar y comparar modelos LLM