Cuánta VRAM tiene tu Mac

Arquitectura de memoria unificada Apple Silicon comparada con VRAM dedicada en Mac Intel

¿Qué es la VRAM y cómo puedes saber cuánta tiene tu ordenador Apple? La respuesta varía drásticamente dependiendo de si usas un Mac con procesador Intel o uno de los modernos modelos con Apple Silicon (chips M1, M2, M3, etc.).

Qué es la VRAM

La VRAM (Video Random Access Memory) es la memoria que utiliza la unidad de procesamiento gráfico (GPU) para almacenar datos de imágenes, texturas y búferes de fotogramas. Básicamente, es todo lo que ves en pantalla cuando juegas o usas aplicaciones pesadas como Blender o Adobe Premiere. A mayor cantidad de VRAM, mayor fluidez en visuales de alta resolución y procesos de renderizado.

La memoria de vídeo no solo sirve para que el escritorio se vea bien; es el motor de tareas profesionales:

  • Edición de Vídeo de Alta Resolución: Los chips como el M1 Pro incluyen motores multimedia que permiten procesar múltiples flujos de vídeo en 4K y 8K (ProRes) sin esfuerzo, gracias al acceso rápido de la GPU a la memoria unificada.
  • Modelado y Animación 3D: Programas como Final Cut Pro o aplicaciones de renderizado se benefician de una memoria que puede alcanzar anchos de banda de hasta 200 GB/s (en M1 Pro) o incluso 800 GB/s en modelos superiores.
  • Inteligencia Artificial y LLMs: Actualmente, la memoria unificada es una gran ventaja para ejecutar modelos de lenguaje (como los de IA) de forma local. Al poder asignar casi toda la RAM a la GPU, se pueden cargar modelos mucho más grandes de lo que permitirían las tarjetas gráficas tradicionales de PC con VRAM limitada.
  • Gaming: Una mayor cantidad de memoria permite texturas más detalladas y menos tirones («stuttering») en resoluciones altas.

VRAM y el uso de LLM locales

La utilización de la memoria de vídeo (VRAM) o de la Memoria Unificada en el caso de los chips de Apple, es crítica para la ejecución de Modelos de Lenguaje Grandes (LLM) locales por tres razones fundamentales:

1. Velocidad de procesamiento

Los LLM basan su funcionamiento en cálculos matemáticos masivos, específicamente multiplicaciones de matrices. La unidad de procesamiento gráfico (GPU) es significativamente más rápida que la CPU para realizar estas tareas en paralelo.

2. Necesidad de residencia total del modelo

Para que la inferencia (generación de respuestas) sea rápida y estable, el modelo completo (sus parámetros y pesos) debe residir dentro de la memoria a la que la GPU tenga acceso directo.

  • Si el modelo excede la capacidad de la VRAM disponible, el sistema realiza un CPU offloading parcial, lo que ralentiza la generación de cada palabra (token).
  • Si el exceso es masivo, el sistema recurre a la memoria virtual (disco SSD), lo que provoca una caída extrema del rendimiento o errores de falta de memoria.

3. Arquitectura de Memoria Unificada (UMA)

En los Mac con Apple Silicon, la CPU y la GPU comparten un mismo pozo de memoria de alta velocidad y baja latencia. Esto ofrece beneficios específicos para los LLM:

  • Eliminación de copias: A diferencia de los PC tradicionales donde los datos deben copiarse entre la RAM (CPU) y la VRAM (GPU dedicada), en el Mac ambos chips acceden a los mismos datos sin necesidad de duplicarlos, reduciendo la sobrecarga de trabajo y mejorando la eficiencia.
  • Capacidad masiva: Mientras que una tarjeta gráfica de PC común puede estar limitada a 8 GB o 24 GB de VRAM, un Mac con memoria unificada puede asignar cantidades mucho mayores (por ejemplo, hasta 96 GB o más en sistemas de 128 GB) para ser usados como VRAM por la GPU. Esto permite ejecutar modelos gigantescos que en un PC requerirían hardware de estación de trabajo extremadamente costoso.

Bonus: Estabilidad y «KV Cache»

Además de cargar el modelo, se necesita memoria estable para el llamado KV Cache, que almacena el contexto de la conversación. A medida que el chat se vuelve más largo (más tokens de contexto), la necesidad de memoria crece linealmente; si no hay suficiente espacio en la memoria de vídeo para este caché, el rendimiento se desploma al tener que recurrir a la CPU.

En resumen, se usa la VRAM (o memoria unificada asignada a la GPU) porque es el único componente capaz de procesar los datos del modelo a la velocidad necesaria para que la inteligencia artificial responda en tiempo real.

Cómo saber cuánta VRAM tiene tu Mac

En Macs con procesador Intel

En estos modelos, la VRAM suele ser dedicada, es decir, hay chips de memoria exclusivos para la tarjeta gráfica. Para consultarla:

  1. Haz clic en el menú Apple ().
  2. Mantén presionada la tecla Option (⌥) y selecciona Información del Sistema.
  3. En la barra lateral, busca la sección Gráficos/Pantallas.
  4. A la derecha, busca el valor que indica VRAM (total).

En Macs con Apple Silicon (M1, M2, M3, M4, M5…)

Aquí la historia cambia por completo. Estos chips utilizan una Arquitectura de Memoria Unificada (UMA). Esto significa que el procesador (CPU) y la gráfica (GPU) comparten el mismo «pozo» de memoria RAM.

Cómo saber cuanta tienes:

  • Haz clic en el menú Apple () en la esquina superior izquierda.
  • Selecciona Acerca de este Mac.
  • Verás un apartado llamado Memoria (por ejemplo, 16 GB, 32 GB, etc.). Esa es la cantidad total que tu Mac repartirá entre el sistema, las apps y los gráficos según sea necesario
  • No existe una VRAM separada: Si tu Mac tiene 32 GB de memoria, esa es la cantidad total disponible que se reparte dinámicamente según la necesidad.
  • El límite del 75%: Por defecto, macOS suele limitar el uso de la GPU a aproximadamente el 75% de la memoria total para asegurar que el sistema siga respondiendo. Por ejemplo, en un Mac de 32 GB, la GPU verá entre 21 y 24 GB como «memoria de vídeo» disponible.

Métodos Avanzados de Verificación (Apple Silicon)

Si necesitas conocer con exactitud cómo se está distribuyendo o limitando esta memoria en chips Apple Silicon, puedes recurrir a herramientas técnicas:

  • Monitor de Actividad: En la pestaña «Memoria», puedes ver la Memoria física total y la Memoria usada, que incluye lo que la GPU está consumiendo en ese momento, aunque no siempre se desglosa de forma independiente.
  • Terminal: Puedes ejecutar el comando sysctl iogpu.wired_limit_mb para verificar el límite máximo de memoria (en megabytes) que el sistema permite asignar a la GPU.
  • IORegistry: Los usuarios más experimentados pueden consultar el IORegistry, específicamente en el apartado de «PerformanceStatistics«, donde se detallan valores como «Alloc system memory» e «In use system memory» para la GPU.

Es fundamental recordar que en los modelos con Apple Silicon, la memoria está integrada en el chip y no puede ampliarse tras la compra, por lo que la cantidad que visualices en el sistema es la máxima que el equipo tendrá permanentemente.

VRAM disponible para un LLM

Para calcular la cantidad de memoria de vídeo (VRAM) disponible y estable para un LLM (Modelo de Lenguaje Grande) en un Mac, es fundamental entender que en los modelos con Apple Silicon la VRAM no es un componente físico separado, sino una porción de la Arquitectura de Memoria Unificada (UMA).

Aquí tienes los pasos y conceptos clave para realizar este cálculo:

1. El cálculo del límite predeterminado (Regla del 75%)

En macOS, el sistema no permite que la GPU utilice la totalidad de la memoria RAM instalada para tareas de computación o gráficos. Por diseño, se reserva una parte para el sistema operativo y la CPU para mantener la estabilidad del equipo.

  • Fórmula estándar: La GPU puede utilizar aproximadamente el 75% de la memoria física total.
  • Ejemplos de capacidad:
    • En un Mac con 128 GB, la VRAM disponible será de unos 96 GB.
    • En un Mac con 64 GB, tendrás unos 48 GB utilizables para el LLM.
    • En un Mac con 32 GB, el límite suele estar entre 21 y 24 GB.

2. Cálculo de la necesidad del LLM

Para que un LLM funcione de manera estable y rápida, el modelo debe residir completamente en la memoria de la GPU (VRAM). El cálculo de espacio requerido se divide en dos partes:

  • Tamaño del modelo cuantizado: El uso de técnicas de cuantización (como 4-bit u 8-bit) reduce drásticamente el peso del modelo. Por ejemplo, un modelo de 70B parámetros en 4-bit ocupa unos 35-40 GB, lo que cabría perfectamente en un Mac de 64 GB (48 GB de VRAM real).
  • Caché de contexto (KV Cache): A medida que aumentas el número de tokens en una conversación (ventana de contexto), el uso de memoria crece linealmente. Si pasas de 2,048 a 8,192 tokens, la memoria necesaria para el caché se multiplica por cuatro, lo que puede hacer que el modelo supere el límite de la GPU y se ralentice.

3. Cómo verificar y ajustar el límite por terminal

Puedes comprobar exactamente cuánto espacio está asignando macOS a la GPU mediante la Terminal:

  • Ver el límite actual: Ejecuta el comando sysctl iogpu.wired_limit_mb. El resultado te dará el límite en megabytes.
  • Forzar un aumento de VRAM: Si necesitas cargar un modelo más grande, puedes intentar subir ese límite manualmente (bajo tu propio riesgo). Se recomienda dejar siempre entre 8 y 16 GB libres para el sistema.
    • Comando: sudo sysctl iogpu.wired_limit_mb = <valor_en_MB>.
    • Por ejemplo, para asignar 120 GB en un Mac de 128 GB, usarías el valor 122880.

4. Consecuencias de un cálculo incorrecto

Si el LLM excede el límite de VRAM calculado (ese 75% o el límite manual establecido), ocurrirá lo siguiente:

  • Carga híbrida (CPU Offload): El sistema moverá las capas del modelo que no caben en la GPU hacia la CPU. Esto permite que el modelo funcione, pero la velocidad de generación de texto caerá significativamente (la GPU es mucho más rápida en multiplicaciones de matrices).
  • Uso de memoria virtual (Swap): Si el exceso es masivo, el Mac usará el disco SSD como RAM, lo que provocará ralentizaciones extremas o errores de «fuera de memoria» (Out-of-Memory).

Para monitorizar esto en tiempo real, puedes usar herramientas como el Monitor de Actividad (pestaña Memoria) o revisar los logs de aplicaciones como Ollama, que muestran el valor recommendedMaxWorkingSetSize al iniciar un modelo.

Preguntas frecuentes sobre la VRAM en Mac

¿Cuánta VRAM tiene un Mac con Apple Silicon?
No tiene VRAM dedicada. Usa memoria unificada. La GPU puede utilizar aproximadamente el 75% de la RAM instalada.
¿Cómo saber cuánta VRAM tiene mi Mac?
En Intel: Información del Sistema > Gráficos. En Apple Silicon: Acerca de este Mac > Memoria total instalada.
¿Se puede ampliar la VRAM en un Mac?
No. En Apple Silicon la memoria está integrada en el chip y no puede ampliarse tras la compra.
¿Cuánta VRAM necesito para un LLM?
Depende del tamaño y cuantización. Un modelo 70B en 4-bit requiere unos 35-40 GB más memoria para el contexto.
¿Qué ocurre si el modelo supera la VRAM disponible?
El sistema usa CPU offload o memoria virtual (swap), reduciendo drásticamente el rendimiento.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

Scroll al inicio