Qué LLM de código abierto elegir según tu hardware y uso

No necesitas “el mejor modelo del mundo”, sino el que tu máquina aguanta y el que encaja con lo que quieres hacer: escribir, programar, analizar PDFs, etc. Vamos a convertir el caos de nombres raros (Qwen, DeepSeek, Kimi, Mistral…) en una guía clara y utilizable.

Punto de partida: ¿qué hardware tienes?

En IA local, la pieza clave es la VRAM (memoria de la GPU). Según esto, cambia todo lo demás. Escenario rápido (febrero 2026):

Tu equipo	Qué puedes esperar (orientativo)
Sin GPU dedicada (solo CPU)	Modelos pequeños/medios cuantizados, más lentos pero usables.
GPU con 4–6 GB VRAM	Modelos ligeros, buen chat general y escritura básica.
GPU con 8–12 GB VRAM	Modelos medianos muy capaces (texto, código, PDFs).
GPU con 16 GB VRAM o más	Modelos grandes, contextos largos y usos exigentes.

La buena noticia: gracias a la cuantización (versiones comprimidas de los modelos), puedes usar cosas muy potentes en hardware relativamente normal.

Si quieres escribir mejor, resumir y chatear

Para uso general (escritura, correos, blogs, ideas, explicaciones) buscas modelos equilibrados, no necesariamente gigantes.

Con 4–6 GB VRAM:
- Mistral-Small-3.2-24B (cuantizado): muy buen seguimiento de instrucciones, rápido y fiable.
Con 8–12 GB VRAM:
- Llama-3.3-Nemotron-Super-49B (cuantizado): muy buen equilibrio entre calidad, razonamiento y velocidad.
Con 16 GB VRAM o más:
- Qwen3-235B (cuantizado MoE) para quien quiere ir fuerte en razonamiento y multilingüe, siempre que la cuantización encaje con tu GPU.

Consejo práctico: si solo quieres “un ChatGPT de confianza” para escribir y pensar, empieza con Mistral-Small cuantizado y súbete a algo tipo Nemotron cuando tengas más soltura.

Si tu foco es programar y trabajar con código

Aquí marcan la diferencia los modelos afinados para desarrollo.

Top para código (si tienes buena GPU):
- Kimi-K2-Instruct-0905: orientado a trabajo “agéntico” con código, entiende proyectos complejos y puede razonar sobre repos completos.
- DeepSeek-R1-0528: brutal en razonamiento matemático y lógico, y eso se traduce en muy buen rendimiento en programación compleja.
Con hardware más modesto:
- Versiones cuantizadas de Mistral-Small o Qwen3 medianos ya dan una experiencia muy decente como “copilotos” de código.

Regla útil:

Si trabajas con proyectos grandes, refactors complejos y debugging pesado, apunta a Kimi-K2 o DeepSeek-R1 con buena VRAM.
Si quieres auto-completado, snippets y ayuda puntual, un Mistral-Small bien cuantizado y conectado a tu editor puede sobrarte.

Si necesitas tragarte muchos PDFs o contextos largos

Si tu caso es “tengo tesis, expedientes, manuales, repos enormes… y quiero que la IA se los lea”, te interesa el contexto largo.[1]

Modelos pensados para eso:

MiniMax-M1-80k: soporta contextos de hasta 1 millón de tokens; ideal para análisis de grandes lotes de documentos.
Qwen3-235B: ventana de contexto masiva (262K tokens ampliables) y muy buen rendimiento general.
DeepSeek-V3.2-Exp: destaca por eficiencia en contexto largo; buena opción si quieres algo más ligero en coste de cómputo.

Cómo usar esta capacidad de forma práctica:

Subir varios PDFs de un caso, informe o proyecto y hacer preguntas muy específicas sobre todo el conjunto.
Analizar repositorios completos de código sin trocear tanto.

Si tu GPU es limitada, combina modelo mediano con RAG (que trocea e indexa documentos) en lugar de intentar mover un monstruo de contexto largo.

Si te interesa lo multimodal (texto + imagen)

Quieres algo que lea texto pero también entienda imágenes (capturas de pantalla, gráficos, fotos de pizarras).

Apriel-1.5-15B-Thinker:

Texto + imagen con muy pocos recursos comparado con los gigantes multimodales.
Diseñado para funcionar en una sola GPU de gama de consumo.
Ideal para: documentación técnica con diagramas, análisis de pantallas, material formativo visual.

Si tu hardware da para poco pero quieres multimodal, Apriel es el candidato natural.

Recetas rápidas: combina tu hardware + uso

Aquí van combinaciones concretas para que no tengas que pensarlo demasiado:

Escenario	Hardware mínimo	Modelo sugerido	Para qué te sirve bien
Portátil sin GPU dedicada	CPU decente, 16 GB RAM	Mistral-Small cuantizado (variante ligera)	Escribir, resumir, chatear, algo de código ligero.
PC con 6–8 GB VRAM	RTX 3060 / similar	Mistral-Small + Qwen3 mediano	Chat general sólido, correos, blogs, código normal.
PC con 12–16 GB VRAM	RTX 4070 / 4070 Ti	Llama-3.3 Nemotron + DeepSeek-R1	Asistente general + copiloto de código potente.
PC orientado a documentos	≥12 GB VRAM	Qwen3 / MiniMax-M1-80k + RAG	Tesis, informes, expedientes, repos grandes.
PC para multimodal ligero	≥8 GB VRAM	Apriel-1.5-15B-Thinker	Texto+imagen para documentación técnica visual.

Tómatelo como punto de partida, no como dogma. Lo importante es empezar con algo que tu máquina aguante y que resuelva un caso de uso real que tengas hoy.

Cómo probar sin volverte loco

Para que esta guía sea realmente usable, el flujo ideal sería:

Detecta tu VRAM (en Windows, el panel de GPU; en Linux, nvidia-smi).
Elige 1 o 2 modelos de esta lista que encajen con tu uso principal.
Usa una herramienta tipo LM Studio o Jan.ai para descargarlos en versión cuantizada compatible con tu GPU.
Haz pruebas reales:

Escríbele como le escribirías a ChatGPT ahora mismo.
Dale tus PDFs, código o materiales reales.

Si notas que va muy lento o se queda sin memoria, baja un paso (modelo más pequeño o cuantización más agresiva).

Con esto conviertes la teoría de “los 10 titanes del código abierto” en 2–3 modelos concretos, instalables y útiles para ti.