Gemma 4

By Google DeepMind · Updated

Lo que realmente es

Lo que hace diferente a Gemma 4 de cualquier otro modelo abierto: no solo escala hacia arriba, escala hacia abajo. Mientras la industria de IA se obsesiona con quién puede construir el modelo más grande, Google DeepMind hizo una pregunta diferente: ¿qué tan inteligente podemos hacer el más pequeño?

La respuesta resulta ser “sorprendentemente inteligente”. El E4B — un modelo diseñado para tu teléfono — obtiene 42,5 % en AIME 2026, un examen de matemáticas competitivo que habría sido ciencia ficción para un modelo de este tamaño hace apenas un año. El E2B cabe en 1,5 GB de RAM y aun así maneja texto, imágenes y audio en vivo. No son chatbots simplificados. Son motores de razonamiento genuinamente multimodales que resulta que funcionan sin conexión a la nube.

Las variantes más grandes (26B MoE, 31B denso) compiten con los hermanos alojados en la nube de Gemma. El 31B ocupa el #3 entre modelos abiertos en Arena AI. El 26B MoE es la jugada de eficiencia — 26 mil millones de parámetros totales, pero solo 3,8 mil millones activos por token, entregando calidad casi de 31B a una fracción del costo computacional.

Los cuatro modelos comparten la misma licencia Apache 2.0, soportan 140+ idiomas y ofrecen modos de pensamiento integrados para tareas de razonamiento complejas. Ya sea que estés construyendo una app de traducción offline, un asistente de salud privacy-first o un analizador de fotos en el dispositivo, hay un modelo Gemma 4 que encaja.

Puntos fuertes

Cuatro modelos, una familia: E2B (~1,5 GB cuantizado) para edge extremo, E4B para smartphones insignia, 26B MoE (3,8B activos) para estaciones de trabajo, 31B denso para servidor. Elige el tamaño que se ajuste a tu hardware.
E2B y E4B — IA real en teléfonos reales: Entrada multimodal nativa — texto, imágenes y audio — ejecutándose completamente en el dispositivo. E4B obtiene 42,5 % en AIME 2026, más del doble que el modelo 27B de Gemma 3 (20,8 %). Eso es razonamiento matemático competitivo en un smartphone.
Apache 2.0 — genuinamente abierto: Sin restricciones de uso, sin regalías, derechos comerciales completos. Descárgalo de Hugging Face, Ollama o Google AI Studio y úsalo como quieras.
140+ idiomas: Toda la familia está entrenada en un corpus multilingüe masivo. Para apps locales que sirven a usuarios globales, esto es significativo.
Modo de razonamiento integrado: Modos de ‘pensamiento’ configurables para planificación multi-paso y descomposición de tareas complejas — incluso en los modelos edge.

Resumen de Benchmarks

AIME 2026 — E4B 42,5 %, E2B 37,5 %Benchmark de matemáticas competitivas. Los modelos edge duplican el 20,8 % de Gemma 3 27B. El modelo denso 31B alcanza 89,2 %.
Arena AI — 31B #3, 26B MoE #6 (modelos abiertos)Leaderboard de comparación colectiva. El 31B está en la cima entre modelos abiertos; el 26B MoE queda a 1–2 % con una fracción del cómputo.
Arquitectura — Dense (E2B, E4B, 31B) + MoE (26B)Per-Layer Embeddings (PLE) maximizan la eficiencia de parámetros en edge; 26B MoE activa solo 3,8B parámetros por token para eficiencia en estación de trabajo.

Limitaciones honestas

Los modelos edge son modelos edge: E2B y E4B no van a igualar a un modelo denso de 31B en tareas de razonamiento complejas. Están optimizados para calidad por byte, no calidad absoluta.
Sin video en edge: La comprensión de video es exclusiva de las variantes 26B y 31B. Los modelos edge manejan solo texto, imágenes y audio.
Herramientas preferidas de Google: Mejor soportado a través de MediaPipe, LiteRT y Google AI Studio. También funciona con Ollama y llama.cpp, pero el stack de Google es el camino más fluido.
Sin enfoque agéntico: A diferencia de las sesiones autónomas prolongadas de GLM-5.1, Gemma 4 está diseñado para inferencia single-turn y multi-turn — no para maratones de programación.

El Veredicto: Gemma 4 es la familia de modelos abiertos más práctica lanzada este año. Los 31B y 26B son modelos de estación de trabajo impresionantes, claro — pero la verdadera historia es E2B y E4B. ¿Ejecutar IA multimodal genuina en un teléfono, entendiendo texto, imágenes y audio hablado, con razonamiento matemático que habría sido nivel frontera hace dos años? Eso no es un truco. Eso es el futuro de las aplicaciones offline-first.