Guía clasificada

IA Local / Privada — Tu Cerebro en tu Hardware

Q: "¿Por qué ejecutar modelos de IA localmente en lugar de en la nube?"

"La IA local ofrece privacidad completa (los datos nunca salen de tu máquina), funciona sin conexión, no tiene costos de suscripción recurrentes y evita las limitaciones de velocidad de las API en la nube."

Q: "¿Qué hardware se requiere para ejecutar modelos de IA localmente?"

"Necesitas una GPU decente con suficiente VRAM (al menos 8GB-12GB para modelos pequeños como Llama 4 8B o Gemma 4, y 16GB-24GB+ para grandes como Qwen 3.6 27B o Gemma 4 31B) o una Mac Apple Silicon con memoria unificada (16GB-48GB+). Ejecutarlo solo con CPU es muy lento."

Q: "¿Cuál es la diferencia entre modelos de código abierto (open-source) y pesos abiertos (open-weight)?"

"El código abierto real incluye el código y los datos de entrenamiento. Los modelos de pesos abiertos (como DeepSeek o Llama) te dan los pesos preentrenados para usarlos en local, pero los datos de entrenamiento exactos son confidenciales."

Q: "¿Cómo empiezo a ejecutar un modelo de IA local paso a paso?"

"La forma más fácil es usar aplicaciones gratuitas para el usuario como Ollama, LM Studio o AnythingLLM. Gestionan la configuración compleja del backend para que puedas descargar y chatear con modelos con un solo clic."

Aquí tienes una idea radical: ¿y si no tuvieras que enviar tus datos privados a un servidor corporativo solo para obtener una respuesta? Estos son los modelos que descargas, instalas y ejecutas localmente. Sin conexión a internet. Sin cuotas de suscripción. Solo inteligencia pura y sin censura ejecutándose en el silicio de tu escritorio.

Primero, la decisión

Nuestro ranking

Empieza por el ganador y compara después las concesiones que podrían cambiar tu elección.

#1 IA Local / Privada

GLM-5.2

Zhipu AI

El modelo de pesos abiertos que reescribe las reglas de la IA local. Design Arena #1, SWE-bench Pro 62,1%, Terminal-Bench 82,7, AkitaOnRails 87/100 — y todo disponible bajo licencia MIT para descargarlo, cuantizarlo y ejecutarlo en tu propio hardware. Una ventana de contexto de 1M tokens propiamente entrenada, dos niveles de intensidad de razonamiento, y el primer modelo abierto que compite genuinamente con los líderes cerrados en tareas de ingeniería a largo plazo.

Por qué gana

El modelo abierto más fuerte jamás lanzado para coding y trabajo agéntico — Design Arena #1 (Elo 1360), AkitaOnRails 87/100 Tier A (+41 desde GLM-5.1), SWE-bench Pro 62,1% (SOTA open-weight), FrontierSWE 74,4% (1% detrás de Opus 4.8). Licencia MIT sin restricciones. 744B MoE (~40B activos) — más compacto que los 1,6T de DeepSeek V4 ofreciendo benchmarks verificados más fuertes. Funciona en vLLM, SGLang, ktransformers. Cabe en Macs con 256GB de memoria unificada con cuantización agresiva (~241GB a 2-bit dinámico).

La Trampa

744B MoE todavía requiere hardware serio — 256GB+ de memoria unificada o clústeres multi-GPU. No es un modelo para laptop. Sin capacidades nativas de visión. Más lento por token que modelos compactos como Qwen 3.6 27B o Gemma 4. El ecosistema de herramientas occidental aún está madurando.

9.0 Nota editorial

Leer reseña

Ideal para

Por qué gana

Ten en cuenta

Kimi K3

Moonshot AI

El primer modelo de pesos abiertos que se parece a un cerebro cerrado de frontera. 2,8 billones de parámetros en una arquitectura mixture-of-experts, visión nativa, un contexto completo de un millón de tokens y una licencia que te permite usarlo comercialmente — todo descargable en una máquina bajo tu control. El problema es la máquina: necesita un centro de datos, no un escritorio.

8.5 Nota editorial

Leer reseña

Qwen3.6 — 27B

Alibaba (Qwen Team)

El último modelo denso de 27B de Alibaba supera a su propio buque insignia de 397B en cada benchmark de coding agéntico mientras corre en una sola GPU de consumidor. SWE-bench Verified 77,2, Terminal-Bench 2.0 59,3, visión y vídeo nativos, Apache 2.0. El punto de inflexión de la inferencia local.

8.3 Nota editorial

Leer reseña

Gemma 4

Google DeepMind

No es un modelo — son cinco. Gemma 4 de Google DeepMind es una familia que abarca todo, desde una astilla de 2 mil millones de parámetros que corre en tu teléfono hasta una bestia de 31 mil millones para servidores. Cada miembro tiene una arquitectura diferente, fortalezas diferentes y requisitos de hardware diferentes. El E2B cabe en 1 GB de RAM. El 12B Unified corre una IA multimodal completa en la GPU de una laptop. El 26B MoE activa solo 3,8B parámetros por token. Todos Apache 2.0, todos con pesos abiertos. Esta guía recorre cada uno para que sepas exactamente cuál Gemma se ajusta a tu hardware y tu flujo de trabajo.

8.2 Nota editorial

Leer reseña

Preguntas respondidas

Preguntas frecuentes

¿Por qué ejecutar modelos de IA localmente en lugar de en la nube?

¿Qué hardware se requiere para ejecutar modelos de IA localmente?

¿Cuál es la diferencia entre modelos de código abierto (open-source) y pesos abiertos (open-weight)?

¿Cómo empiezo a ejecutar un modelo de IA local paso a paso?