Qué LLM de código abierto elegir según tu hardware y uso

llm segun tus necesidades

No necesitas “el mejor modelo del mundo”, sino el que tu máquina aguanta y el que encaja con lo que quieres hacer: escribir, programar, analizar PDFs, etc. Vamos a convertir el caos de nombres raros (Qwen, DeepSeek, Kimi, Mistral…) en una guía clara y utilizable.

Punto de partida: ¿qué hardware tienes?

En IA local, la pieza clave es la VRAM (memoria de la GPU). Según esto, cambia todo lo demás. Escenario rápido (febrero 2026):

Tu equipoQué puedes esperar (orientativo)
Sin GPU dedicada (solo CPU)Modelos pequeños/medios cuantizados, más lentos pero usables.
GPU con 4–6 GB VRAMModelos ligeros, buen chat general y escritura básica.
GPU con 8–12 GB VRAMModelos medianos muy capaces (texto, código, PDFs).
GPU con 16 GB VRAM o másModelos grandes, contextos largos y usos exigentes.

La buena noticia: gracias a la cuantización (versiones comprimidas de los modelos), puedes usar cosas muy potentes en hardware relativamente normal.

Si quieres escribir mejor, resumir y chatear

Para uso general (escritura, correos, blogs, ideas, explicaciones) buscas modelos equilibrados, no necesariamente gigantes.

Consejo práctico: si solo quieres “un ChatGPT de confianza” para escribir y pensar, empieza con Mistral-Small cuantizado y súbete a algo tipo Nemotron cuando tengas más soltura.

Si tu foco es programar y trabajar con código

Aquí marcan la diferencia los modelos afinados para desarrollo.

  • Top para código (si tienes buena GPU):
    • Kimi-K2-Instruct-0905: orientado a trabajo “agéntico” con código, entiende proyectos complejos y puede razonar sobre repos completos.
    • DeepSeek-R1-0528: brutal en razonamiento matemático y lógico, y eso se traduce en muy buen rendimiento en programación compleja.
  • Con hardware más modesto:
    • Versiones cuantizadas de Mistral-Small o Qwen3 medianos ya dan una experiencia muy decente como “copilotos” de código.

Regla útil:

  • Si trabajas con proyectos grandes, refactors complejos y debugging pesado, apunta a Kimi-K2 o DeepSeek-R1 con buena VRAM.
  • Si quieres auto-completado, snippets y ayuda puntual, un Mistral-Small bien cuantizado y conectado a tu editor puede sobrarte.

Si necesitas tragarte muchos PDFs o contextos largos

Si tu caso es “tengo tesis, expedientes, manuales, repos enormes… y quiero que la IA se los lea”, te interesa el contexto largo.[1]

Modelos pensados para eso:

  • MiniMax-M1-80k: soporta contextos de hasta 1 millón de tokens; ideal para análisis de grandes lotes de documentos.
  • Qwen3-235B: ventana de contexto masiva (262K tokens ampliables) y muy buen rendimiento general.
  • DeepSeek-V3.2-Exp: destaca por eficiencia en contexto largo; buena opción si quieres algo más ligero en coste de cómputo.

Cómo usar esta capacidad de forma práctica:

  • Subir varios PDFs de un caso, informe o proyecto y hacer preguntas muy específicas sobre todo el conjunto.
  • Analizar repositorios completos de código sin trocear tanto.

Si tu GPU es limitada, combina modelo mediano con RAG (que trocea e indexa documentos) en lugar de intentar mover un monstruo de contexto largo.

Si te interesa lo multimodal (texto + imagen)

Quieres algo que lea texto pero también entienda imágenes (capturas de pantalla, gráficos, fotos de pizarras).

Apriel-1.5-15B-Thinker:

  • Texto + imagen con muy pocos recursos comparado con los gigantes multimodales.
  • Diseñado para funcionar en una sola GPU de gama de consumo.
  • Ideal para: documentación técnica con diagramas, análisis de pantallas, material formativo visual.

Si tu hardware da para poco pero quieres multimodal, Apriel es el candidato natural.

Recetas rápidas: combina tu hardware + uso

Aquí van combinaciones concretas para que no tengas que pensarlo demasiado:

EscenarioHardware mínimoModelo sugeridoPara qué te sirve bien
Portátil sin GPU dedicadaCPU decente, 16 GB RAMMistral-Small cuantizado (variante ligera)Escribir, resumir, chatear, algo de código ligero.
PC con 6–8 GB VRAMRTX 3060 / similarMistral-Small + Qwen3 medianoChat general sólido, correos, blogs, código normal.
PC con 12–16 GB VRAMRTX 4070 / 4070 TiLlama-3.3 Nemotron + DeepSeek-R1Asistente general + copiloto de código potente.
PC orientado a documentos≥12 GB VRAMQwen3 / MiniMax-M1-80k + RAGTesis, informes, expedientes, repos grandes.
PC para multimodal ligero≥8 GB VRAMApriel-1.5-15B-ThinkerTexto+imagen para documentación técnica visual.

Tómatelo como punto de partida, no como dogma. Lo importante es empezar con algo que tu máquina aguante y que resuelva un caso de uso real que tengas hoy.

Cómo probar sin volverte loco

Para que esta guía sea realmente usable, el flujo ideal sería:

  1. Detecta tu VRAM (en Windows, el panel de GPU; en Linux, nvidia-smi).
  2. Elige 1 o 2 modelos de esta lista que encajen con tu uso principal.
  3. Usa una herramienta tipo LM Studio o Jan.ai para descargarlos en versión cuantizada compatible con tu GPU.
  4. Haz pruebas reales:
  • Escríbele como le escribirías a ChatGPT ahora mismo.
  • Dale tus PDFs, código o materiales reales.
  1. Si notas que va muy lento o se queda sin memoria, baja un paso (modelo más pequeño o cuantización más agresiva).

Con esto conviertes la teoría de “los 10 titanes del código abierto” en 2–3 modelos concretos, instalables y útiles para ti.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

Scroll al inicio