RAM y VRAM para ejecutar LLMs en local

Resumen

Ejecutar un LLM en local depende de cuatro variables que casi nadie explica con calma: CPU, GPU, RAM y VRAM. Si entiendes cómo se relacionan, sabrás si tu laptop aguanta el modelo o si necesitas una versión más liviana.

¿Cuál es la diferencia entre CPU y GPU al correr un LLM?

La GPU es una procesadora especializada en una sola operación matemática: M por X más B, la misma que viste en clases anteriores. Hace esa cuenta millones de veces por segundo, y por eso es ideal para machine learning.

La CPU, en cambio, es generalista. Puede abrir tu navegador, correr Photoshop, gestionar el sistema operativo y mil tareas más, pero no está optimizada para los cálculos masivos que pide un LLM [01:30].

¿Por qué los LLMs prefieren GPU sobre CPU? Porque un LLM es básicamente miles de millones de multiplicaciones de matrices, y la GPU está diseñada físicamente para hacer ese tipo de operación en paralelo.

¿Qué diferencia hay entre RAM y VRAM en modelos locales?

La RAM es la memoria que usa la CPU para guardar lo que tienes abierto ahora mismo: pestañas del navegador, una imagen en Photoshop, los archivos temporales del sistema. Para correr LLMs en local, el mínimo razonable son 16 GB de RAM y lo recomendado son 64 GB.

La VRAM viene de Video Random Access Memory. Se llama así porque las GPUs nacieron para videojuegos, aunque hoy ya existen variantes como la HBM (High Bandwidth Memory). El concepto es el mismo: una memoria integrada físicamente dentro de la GPU [02:45].

¿Por qué la VRAM es más rápida que la RAM?

Porque está pegada al chip. Y aquí viene lo interesante: entre más cerca está la memoria del procesador, menos tiempo tardan los electrones en viajar. En la CPU, los datos tienen que recorrer la motherboard hasta la RAM. En la GPU, todo está compactado en el mismo sitio, así que la latencia cae en picada.

¿Cuánta VRAM necesito para un LLM?

Para modelos pequeños o cuantizados, lo recomendable está entre 12 y 16 GB de VRAM. Ten en cuenta estos límites:

  • Las GPUs de consumidor llegan máximo a 36 GB de VRAM en la gama alta de Nvidia.
  • Las tarjetas para clusters y data centers superan ese número, pero no son para uso doméstico.
  • Si tu GPU tiene menos de 12 GB, vas a necesitar un modelo cuantizado sí o sí.

¿Qué es la cuantización y por qué te deja correr modelos grandes?

La cuantización es la técnica que te salva cuando tu hardware es humilde. Las computadoras manejan números con distintos niveles de precisión: 4 bits, 8 bits, 16 bits, 32 bits. Más bits, más rango numérico, más peso del modelo [05:10].

La clave es que los LLMs no necesitan toda esa precisión para funcionar bien. Puedes perder un 1 % o 2 % de exactitud y seguir teniendo un modelo perfectamente útil. Entonces, en lugar de cargar el modelo en 16 bits (la precisión típica de entrenamiento), lo bajas a 4 bits.

¿Cuánto peso ahorras con la cuantización? Si bajas un modelo de 16 bits a 4 bits, reduces su tamaño a un cuarto. Un modelo de 100 GB pasa a pesar 25 GB, lo que sí cabe en una GPU de consumidor.

¿Es difícil cuantizar un modelo hoy en día?

Ya no. Cuando estas técnicas eran nuevas requerían bastante trabajo manual, pero hoy puedes hacerlo con Hugging Face en un notebook de Python en Google Colab sin demasiada fricción. En las próximas clases vas a ver el paso a paso, y también cómo identificar en Ollama y Hugging Face si un modelo específico cabe en tu memoria disponible.

¿Ya revisaste cuánta VRAM y RAM tiene tu equipo? Cuéntame en los comentarios qué modelos te gustaría correr en local.