Cómo funciona la cuantización de LLMs

Curso de Fundamentos de LLMs

Contenido del curso

Fundamentos de los LLMs

Componentes Avanzandos de los LLMs

Personalización y Optimización

Evaluación de Modelos

20
Benchmarks para evaluar y comparar modelos LLM
12:53 min

Tomar examen

Cómo funciona la cuantización de LLMs

Resumen

La cuantización es la técnica que permite ejecutar modelos de lenguaje grandes en GPUs de consumo al reducir la cantidad de bits necesarios para almacenar sus parámetros. Si entrenas o despliegas un LLM y te preocupa que un modelo como Llama 3.1 de 8 billones de parámetros pese cerca de 16 GB en precisión de 16 bits, esta guía te muestra cómo bajar ese costo sin sacrificar el rendimiento del modelo.

¿Qué es la cuantización en machine learning?

La cuantización convierte números de coma flotante a números enteros para que un modelo ocupe menos memoria y se ejecute más rápido. En lugar de guardar cada peso con 32 o 16 bits, lo representas con 8 bits o menos.

¿Qué es la cuantización? Es el proceso de reducir la precisión numérica de un modelo, pasando sus pesos de coma flotante a enteros para que ocupen menos memoria y la inferencia sea más rápida.

Para entender por qué funciona, necesitas saber cómo las computadoras representan los números. Con n bits puedes representar 2ⁿ valores distintos. Por eso existen tipos como byte (8 bits), short (16), int (32) y long (64), todos múltiplos de ocho porque la unidad mínima de información en una máquina son 8 bits [02:18].

¿Cómo se representan los números de coma flotante?

Las máquinas usan el estándar IEEE 754, que separa cada número en tres partes: un bit de signo, un exponente y la mantisa o fracción [04:32]. En 32 bits tienes 1 bit de signo, 8 de exponente y 23 de mantisa. Cuando una GPU baja a 16 u 8 bits, normalmente recorta la mantisa, lo que reduce precisión pero ahorra memoria.

La decisión depende del problema. Si mandas un cohete a la Luna, querrás 64 o 128 bits. Si corres un LLM en tu laptop, 8 bits puede ser suficiente.

¿Qué se cuantiza dentro de una red neuronal?

Volvamos a la fórmula base del multilayer perceptron: Y = X·W + B. Aquí W es la matriz de pesos, B es el bias y X es la entrada. Los tres son matrices y los tres son candidatos a cuantizar, junto con la salida Y [07:35].

El truco es que al convertir de float a entero y de vuelta a float, introduces un error. Ese error es inevitable, pero existen métodos para minimizarlo.

¿Cuál es la diferencia entre cuantización asimétrica y simétrica?

Las dos familias principales se diferencian en cómo distribuyen el rango de enteros disponibles.

Asimétrica: el rango va de 0 a 2ⁿ−1. Para 8 bits, eso son valores entre 0 y 255.
Simétrica: pone el cero en el centro y el rango va de −127 a 127.
Ambas requieren calcular un factor de escala S y, en el caso asimétrico, un punto cero Z.

En la cuantización asimétrica defines alfa como el número más grande de la lista y beta como el más pequeño. Luego aplicas la fórmula Xq = clamp(round(Xf/S) + Z, 0, 2ⁿ−1), donde clamp trunca el valor si se sale del rango [10:48].

¿Qué hace la función clamp? Recibe tres parámetros: el valor calculado, un límite inferior y uno superior. Si el valor se sale del rango, lo trunca al límite más cercano.

En la cuantización simétrica solo necesitas un alfa, que es el valor absoluto más grande de la lista. La fórmula se simplifica porque ya no sumas Z, y el cero queda implícito en la simetría del rango [13:50].

¿Cómo se elige el alfa y el beta sin perder precisión?

Usar el mínimo y el máximo es la forma más simple, pero es muy sensible a outliers. Un solo dato extremo puede arrastrar todo el rango y hacer que el resto de valores se cuantice con error alto.

Existen alternativas más robustas:

Percentiles: ignoras los extremos y dejas que solo los outliers paguen el costo del error.
MSE (mean square error): pruebas múltiples valores con grid search y eliges el alfa y beta que minimizan el error cuadrático.
Cross entropy con Softmax: especialmente útil para LLM, porque lo que importa no es el valor exacto del token sino que la distribución mantenga el orden correcto.

La cross entropy es el método que más vas a ver referenciado en papers de cuantización para LLM, porque optimiza para que el token ganador siga siendo el ganador después de cuantizar [17:55].

¿Qué hago con valores que cambian en tiempo de inferencia?

Los pesos W y el bias B son estáticos: los conoces antes de desplegar el modelo y los puedes cuantizar una sola vez. Pero la entrada X cambia con cada prompt del usuario. Para eso se usa online quantization, un proceso rápido porque el vector de entrada es mucho más pequeño que la matriz de pesos.

La salida Y es más complicada porque no conoces sus alfa y beta de antemano. Ahí entran las técnicas avanzadas como QAT.

¿Qué es Quantization Aware Training y por qué importa?

Google DeepMind lanzó Gemma 3 QAT, donde QAT significa quantization aware training. La idea es simular la cuantización durante el entrenamiento, de modo que la función de pérdida detecte esos errores mínimos y ajuste los pesos para compensarlos [20:22].

El resultado: cuando cuantizas el modelo entrenado, la precisión casi no se degrada.

¿Por qué QAT mejora la precisión? Porque guía al modelo hacia un punto intermedio de la función de pérdida que la cuantización puede manejar bien, en vez de un mínimo global muy estrecho que se rompe al perder precisión.

Hay un detalle técnico interesante: las funciones de cuantización no son derivables, lo que parece incompatible con el backpropagation. La solución es el Straight Through Estimator (STE), un algoritmo que aproxima la derivada llevando los valores fuera del rango a uno y los demás a cero [21:48]. Así puedes entrenar con cuantización simulada sin romper el descenso del gradiente.

¿Por qué un mínimo intermedio es mejor que un mínimo global?

Imagina dos valles en la curva de pérdida, uno más profundo que el otro. Sin QAT llegarías al valle más profundo, lo que da máxima precisión en float. Pero al cuantizar, el error empuja la pérdida hacia arriba y ese mínimo se vuelve inestable.

QAT te lleva a un valle más ancho y menos profundo, donde la cuantización no te saca del óptimo. La investigación actual se enfoca precisamente en cómo llegar al mínimo global sin pagar este costo.

Ahora te toca. Implementa en Python un script sencillo de cuantización asimétrica o simétrica que reciba una lista de números y la cuantice. Déjalo en los comentarios y te dejaré feedback directo sobre tu código.

Miguel Angel Otero Otero

Estudiante

import time

def pausar_y_continuar(mensaje="Presiona Enter para continuar..."):
    """Función para pausar la ejecución y esperar al usuario."""
    input(f"\n{mensaje}")
    print("-" * 60)

def obtener_numeros_del_usuario():
    """Pide al usuario que ingrese números y los valida."""
    while True:
        entrada = input("➡️ Ingresa tus números separados por espacios (ej: 3.14 -2.5 100): ")
        try:
            # Intenta convertir cada elemento ingresado en un número flotante.
            numeros = [float(n) for n in entrada.split()]
            if not numeros: # Si la lista está vacía
                print("❌ Error: No ingresaste ningún número. Inténtalo de nuevo.")
                continue
            return numeros
        except ValueError:
            # Si la conversión falla, es porque hay un valor no numérico.
            print("❌ Error: Asegúrate de ingresar solo números separados por espacios.")

def cuantizar_paso_a_paso(lista_numeros, tipo):
    """
    Función interactiva que guía al usuario a través de la cuantización
    simétrica o asimétrica, explicando cada cálculo.
    """
    if tipo == 'simetrico':
        print("\n" + "="*60)
        print("🔵 TUTORIAL: CUANTIZACIÓN SIMÉTRICA (a int8)")
        print("="*60)
        print("Este método centra el mapa en el cero. Ideal para datos balanceados.")
        
        pausar_y_continuar("Presiona Enter para encontrar el rango...")
        
        # --- PASO 1: CALCULAR RANGO ---
        max_absoluto = max(abs(n) for n in lista_numeros)
        print(f"PASO 1: Encontrar el valor más lejano del cero (máximo absoluto).")
        print(f"   - El valor más lejano es: {max_absoluto:.4f}")
        print(f"   - Por lo tanto, nuestro 'mapa' irá de {-max_absoluto:.4f} a +{max_absoluto:.4f}")
        
        pausar_y_continuar("Presiona Enter para calcular la Escala...")

        # --- PASO 2: CALCULAR ESCALA ---
        escala = max_absoluto / 127 if max_absoluto > 0 else 1
        print(f"PASO 2: Calcular la Escala (S).")
        print(f"   - Dividimos el rango real ({max_absoluto:.4f}) entre el rango de enteros (127).")
        print(f"   - Fórmula: S = max_absoluto / 127")
        print(f"   - ✅ Escala (S) = {escala:.6f}")
        
        # En la simétrica, el punto cero es siempre 0.
        punto_cero = 0
        print(f"\n   - En la cuantización simétrica, el Punto Cero (Z) siempre es 0.")
        
        pausar_y_continuar("Presiona Enter para ver la tabla de resultados finales...")

    else: # tipo == 'asimetrico'
        print("\n" + "="*60)
        print("🟢 TUTORIAL: CUANTIZACIÓN ASIMÉTRICA (a uint8)")
        print("="*60)
        print("Este método crea un mapa a medida para el rango exacto de tus datos.")
        
        pausar_y_continuar("Presiona Enter para encontrar el rango...")

        # --- PASO 1: CALCULAR RANGO ---
        min_real = min(lista_numeros)
        max_real = max(lista_numeros)
        print(f"PASO 1: Encontrar el valor mínimo y máximo exacto.")
        print(f"   - Mínimo real: {min_real:.4f}")
        print(f"   - Máximo real: {max_real:.4f}")

        pausar_y_continuar("Presiona Enter para calcular la Escala...")

        # --- PASO 2: CALCULAR ESCALA ---
        rango_real = max_real - min_real
        escala = rango_real / 255 if rango_real != 0 else 1
        print(f"PASO 2: Calcular la Escala (S).")
        print(f"   - Dividimos el tamaño del rango real ({rango_real:.4f}) entre el de enteros (255).")
        print(f"   - Fórmula: S = (max_real - min_real) / 255")
        print(f"   - ✅ Escala (S) = {escala:.6f}")

        pausar_y_continuar("Presiona Enter para calcular el Punto Cero...")

        # --- PASO 3: CALCULAR PUNTO CERO ---
        punto_cero = round(0 - min_real / escala) if escala != 0 else 0
        print(f"PASO 3: Calcular el Punto Cero (Z).")
        print(f"   - Este valor nos dice a qué entero corresponde el 0.0 del mundo real.")
        print(f"   - Fórmula: Z = round(0 - min_real / S)")
        print(f"   - ✅ Punto Cero (Z) = {punto_cero}")

        pausar_y_continuar("Presiona Enter para ver la tabla de resultados finales...")

    # --- PASO FINAL: MOSTRAR RESULTADOS ---
    print("PASO FINAL: Aplicar las fórmulas a cada número y mostrar los resultados.")
    _imprimir_tabla_resultados(lista_numeros, escala, punto_cero, tipo)


def _imprimir_tabla_resultados(lista_numeros, escala, punto_cero, tipo):
    """Función auxiliar para no repetir el código de la tabla de resultados."""
    print(f"\n{'Original':>12} → {'Cuantizado':>12} → {'Recuperado':>12} | {'Error':>10}")
    print("-"*60)
    
    errores = []
    q_min, q_max = (-127, 127) if tipo == 'simetrico' else (0, 255)

    for num in lista_numeros:
        q = round(num / escala) + punto_cero
        q = max(q_min, min(q_max, int(q)))
        recuperado = (q - punto_cero) * escala
        error = abs(num - recuperado)
        errores.append(error)
        print(f"{num:>12.4f} → {q:>12} → {recuperado:>12.4f} | {error:>10.6f}")
    
    print("-"*60)
    print(f"{'Error promedio:':>47} | {sum(errores)/len(errores):>10.6f}")
    
    print(f"\n✅ Resumen de ahorro:")
    print(f"   • Memoria original (float32): {len(lista_numeros) * 4} bytes")
    print(f"   • Memoria cuantizada (int8):   {len(lista_numeros)} bytes")
    print(f"   • Ahorro de memoria: 75%")

# ========== BUCLE PRINCIPAL INTERACTIVO ==========
if __name__ == "__main__":
    while True:
        print("\n" + "#"*60)
        print("###   TUTORIAL INTERACTIVO DE CUANTIZACIÓN DE NÚMEROS   ###")
        print("#"*60)
        
        numeros = obtener_numeros_del_usuario()
        
        while True:
            print("\n¿Qué tipo de cuantización quieres ver paso a paso?")
            print("  1. Simétrica (ideal para datos centrados en cero)")
            print("  2. Asimétrica (se adapta a cualquier rango de datos)")
            print("  3. Ambas (para comparar)")
            opcion = input("Elige una opción (1, 2, o 3): ").strip()

            if opcion in ['1', '2', '3']:
                break
            else:
                print("❌ Opción no válida. Por favor, elige 1, 2, o 3.")
        
        if opcion == '1':
            cuantizar_paso_a_paso(numeros, 'simetrico')
        elif opcion == '2':
            cuantizar_paso_a_paso(numeros, 'asimetrico')
        elif opcion == '3':
            cuantizar_paso_a_paso(numeros, 'simetrico')
            cuantizar_paso_a_paso(numeros, 'asimetrico')

        # Preguntar si quiere volver a empezar
        while True:
            repetir = input("\n¿Quieres probar con otros números? (s/n): ").lower().strip()
            if repetir in ['s', 'n']:
                break
            else:
                print("❌ Opción no válida. Por favor, ingresa 's' para sí o 'n' para no.")
        
        if repetir == 'n':
            print("\n¡Hasta la próxima!")
            break

Cómo funciona la cuantización de LLMs

Fundamentos de los LLMs

Funcionamiento interno de los grandes modelos de lenguaje

Qué construirás al terminar el curso de LLMs

Historia de la inteligencia artificial desde Turing hasta GPT-4

Tokenización y embeddings en LLMs

Qué es y cómo aprende un MLP

Cómo funciona la atención en GPT-2

Fundamentos de PyTorch para modelos de machine learning

Componentes Avanzandos de los LLMs

Construye GPT-2 desde cero con PyTorch

Qué es RoPE y cómo mejora GPT

Integración de Rope en GPT-2 con PyTorch

Leyes de escalado y modelos multimodales en inteligencia artificial

Cómo se entrena un LLM paso a paso

Mixture of Experts: cómo funciona MoE

RAM y VRAM para ejecutar LLMs en local

Instalación de Olama y configuración de clúster local con ExoLabs

Personalización y Optimización

Fine tuning de GPT-4o con datos propios

Fine Tuning con LoRA en Colab gratis

Despliegue de modelos fine-tuned con Hugging Face Endpoints