No necesitas “el mejor modelo del mundo”, sino el que tu máquina aguanta y el que encaja con lo que quieres hacer: escribir, programar, analizar PDFs, etc. Vamos a convertir el caos de nombres raros (Qwen, DeepSeek, Kimi, Mistral…) en una guía clara y utilizable.
Punto de partida: ¿qué hardware tienes?
En IA local, la pieza clave es la VRAM (memoria de la GPU). Según esto, cambia todo lo demás. Escenario rápido (febrero 2026):
| Tu equipo | Qué puedes esperar (orientativo) |
|---|---|
| Sin GPU dedicada (solo CPU) | Modelos pequeños/medios cuantizados, más lentos pero usables. |
| GPU con 4–6 GB VRAM | Modelos ligeros, buen chat general y escritura básica. |
| GPU con 8–12 GB VRAM | Modelos medianos muy capaces (texto, código, PDFs). |
| GPU con 16 GB VRAM o más | Modelos grandes, contextos largos y usos exigentes. |
La buena noticia: gracias a la cuantización (versiones comprimidas de los modelos), puedes usar cosas muy potentes en hardware relativamente normal.
Si quieres escribir mejor, resumir y chatear
Para uso general (escritura, correos, blogs, ideas, explicaciones) buscas modelos equilibrados, no necesariamente gigantes.
- Con 4–6 GB VRAM:
- Mistral-Small-3.2-24B (cuantizado): muy buen seguimiento de instrucciones, rápido y fiable.
- Con 8–12 GB VRAM:
- Llama-3.3-Nemotron-Super-49B (cuantizado): muy buen equilibrio entre calidad, razonamiento y velocidad.
- Con 16 GB VRAM o más:
- Qwen3-235B (cuantizado MoE) para quien quiere ir fuerte en razonamiento y multilingüe, siempre que la cuantización encaje con tu GPU.
Consejo práctico: si solo quieres “un ChatGPT de confianza” para escribir y pensar, empieza con Mistral-Small cuantizado y súbete a algo tipo Nemotron cuando tengas más soltura.
Si tu foco es programar y trabajar con código
Aquí marcan la diferencia los modelos afinados para desarrollo.
- Top para código (si tienes buena GPU):
- Kimi-K2-Instruct-0905: orientado a trabajo “agéntico” con código, entiende proyectos complejos y puede razonar sobre repos completos.
- DeepSeek-R1-0528: brutal en razonamiento matemático y lógico, y eso se traduce en muy buen rendimiento en programación compleja.
- Con hardware más modesto:
- Versiones cuantizadas de Mistral-Small o Qwen3 medianos ya dan una experiencia muy decente como “copilotos” de código.
Regla útil:
- Si trabajas con proyectos grandes, refactors complejos y debugging pesado, apunta a Kimi-K2 o DeepSeek-R1 con buena VRAM.
- Si quieres auto-completado, snippets y ayuda puntual, un Mistral-Small bien cuantizado y conectado a tu editor puede sobrarte.
Si necesitas tragarte muchos PDFs o contextos largos
Si tu caso es “tengo tesis, expedientes, manuales, repos enormes… y quiero que la IA se los lea”, te interesa el contexto largo.[1]
Modelos pensados para eso:
- MiniMax-M1-80k: soporta contextos de hasta 1 millón de tokens; ideal para análisis de grandes lotes de documentos.
- Qwen3-235B: ventana de contexto masiva (262K tokens ampliables) y muy buen rendimiento general.
- DeepSeek-V3.2-Exp: destaca por eficiencia en contexto largo; buena opción si quieres algo más ligero en coste de cómputo.
Cómo usar esta capacidad de forma práctica:
- Subir varios PDFs de un caso, informe o proyecto y hacer preguntas muy específicas sobre todo el conjunto.
- Analizar repositorios completos de código sin trocear tanto.
Si tu GPU es limitada, combina modelo mediano con RAG (que trocea e indexa documentos) en lugar de intentar mover un monstruo de contexto largo.
Si te interesa lo multimodal (texto + imagen)
Quieres algo que lea texto pero también entienda imágenes (capturas de pantalla, gráficos, fotos de pizarras).
- Texto + imagen con muy pocos recursos comparado con los gigantes multimodales.
- Diseñado para funcionar en una sola GPU de gama de consumo.
- Ideal para: documentación técnica con diagramas, análisis de pantallas, material formativo visual.
Si tu hardware da para poco pero quieres multimodal, Apriel es el candidato natural.
Recetas rápidas: combina tu hardware + uso
Aquí van combinaciones concretas para que no tengas que pensarlo demasiado:
| Escenario | Hardware mínimo | Modelo sugerido | Para qué te sirve bien |
|---|---|---|---|
| Portátil sin GPU dedicada | CPU decente, 16 GB RAM | Mistral-Small cuantizado (variante ligera) | Escribir, resumir, chatear, algo de código ligero. |
| PC con 6–8 GB VRAM | RTX 3060 / similar | Mistral-Small + Qwen3 mediano | Chat general sólido, correos, blogs, código normal. |
| PC con 12–16 GB VRAM | RTX 4070 / 4070 Ti | Llama-3.3 Nemotron + DeepSeek-R1 | Asistente general + copiloto de código potente. |
| PC orientado a documentos | ≥12 GB VRAM | Qwen3 / MiniMax-M1-80k + RAG | Tesis, informes, expedientes, repos grandes. |
| PC para multimodal ligero | ≥8 GB VRAM | Apriel-1.5-15B-Thinker | Texto+imagen para documentación técnica visual. |
Tómatelo como punto de partida, no como dogma. Lo importante es empezar con algo que tu máquina aguante y que resuelva un caso de uso real que tengas hoy.
Cómo probar sin volverte loco
Para que esta guía sea realmente usable, el flujo ideal sería:
- Detecta tu VRAM (en Windows, el panel de GPU; en Linux,
nvidia-smi). - Elige 1 o 2 modelos de esta lista que encajen con tu uso principal.
- Usa una herramienta tipo LM Studio o Jan.ai para descargarlos en versión cuantizada compatible con tu GPU.
- Haz pruebas reales:
- Escríbele como le escribirías a ChatGPT ahora mismo.
- Dale tus PDFs, código o materiales reales.
- Si notas que va muy lento o se queda sin memoria, baja un paso (modelo más pequeño o cuantización más agresiva).
Con esto conviertes la teoría de “los 10 titanes del código abierto” en 2–3 modelos concretos, instalables y útiles para ti.


