Gemma 4

By Google DeepMind · Updated

Was es wirklich ist

Was Gemma 4 von jedem anderen offenen Modell unterscheidet: Es skaliert nicht nur nach oben, es skaliert nach unten. Während die KI-Branche davon besessen ist, wer das größte Modell bauen kann, stellte Google DeepMind eine andere Frage: Wie schlau können wir das kleinste machen?

Die Antwort lautet „überraschend schlau". Das E4B — ein Modell für Ihr Handy — erreicht 42,5 % bei AIME 2026, einem kompetitiven Matheexamen, das für ein Modell dieser Größe vor einem Jahr noch Science-Fiction gewesen wäre. Das E2B passt in 1,5 GB RAM und verarbeitet trotzdem Text, Bilder und Live-Audio. Das sind keine abgespeckten Chatbots. Das sind echte multimodale Reasoning-Engines, die zufällig ohne Cloud-Verbindung laufen.

Die größeren Varianten (26B MoE, 31B dense) konkurrieren mit Gemmas Cloud-Geschwistern. Der 31B rangiert auf #3 unter offenen Modellen bei Arena AI. Das 26B MoE ist die Effizienz-Variante — 26 Milliarden Parameter insgesamt, aber nur 3,8 Milliarden aktiv pro Token — Fast-31B-Qualität bei einem Bruchteil der Rechenkosten.

Alle vier Modelle teilen dieselbe Apache 2.0-Lizenz, unterstützen 140+ Sprachen und bieten eingebaute Denkmodi für komplexe Reasoning-Aufgaben. Ob Sie eine Offline-Übersetzungsapp, einen Privacy-first-Gesundheitsassistenten oder einen On-Device-Foto-Analysator bauen — es gibt ein Gemma 4 Modell, das passt.

Zentrale Stärken

Vier Modelle, eine Familie: E2B (~1,5 GB quantisiert) für extreme Edge-Szenarien, E4B für Flaggschiff-Smartphones, 26B MoE (3,8B aktiv) für Workstations, 31B dense für Server. Wählen Sie die Größe passend zu Ihrer Hardware.
E2B und E4B — echte KI auf echten Handys: Nativer multimodaler Input — Text, Bilder und Audio — läuft komplett auf dem Gerät. E4B erreicht 42,5 % bei AIME 2026 und übertrifft Gemma 3s 27B-Modell (20,8 %) um mehr als das Doppelte. Das ist kompetitives mathematisches Reasoning auf einem Smartphone.
Apache 2.0 — echte Offenheit: Keine Nutzungsbeschränkungen, keine Lizenzgebühren, volle kommerzielle Rechte. Download von Hugging Face, Ollama oder Google AI Studio und beliebig nutzen.
140+ Sprachen: Die gesamte Familie ist auf einem massiven mehrsprachigen Korpus trainiert. Für lokale Apps mit globaler Nutzerbasis ist das signifikant.
Eingebauter Reasoning-Modus: Konfigurierbarer ‚Denkmodus’ für Mehrschritt-Planung und komplexe Aufgabenzerlegung — selbst bei den Edge-Modellen.

Benchmark-Übersicht

AIME 2026 — E4B 42,5 %, E2B 37,5 %Kompetitiver Mathe-Benchmark. Edge-Modelle verdoppeln Gemma 3 27B (20,8 %). Das 31B-Dense-Modell erreicht 89,2 %.
Arena AI — 31B #3, 26B MoE #6 (offene Modelle)Crowd-sourced Vergleichs-Leaderboard. Das 31B ist Spitze unter offenen Modellen; das 26B MoE kommt auf 1–2 % Abstand bei einem Bruchteil der Rechenkosten.
Architektur — Dense (E2B, E4B, 31B) + MoE (26B)Per-Layer Embeddings (PLE) maximieren die Parametereffizienz auf Edge; 26B MoE aktiviert nur 3,8B Parameter pro Token für Workstation-Effizienz.

Ehrliche Einschränkungen

Edge-Modelle sind Edge-Modelle: E2B und E4B werden bei komplexen Reasoning-Aufgaben nicht mit einem 31B-Dense-Modell mithalten. Sie sind auf Qualität pro Byte optimiert, nicht auf absolute Qualität.
Kein Video auf Edge: Video-Verständnis gibt es exklusiv bei den 26B- und 31B-Varianten. Edge-Modelle verarbeiten nur Text, Bilder und Audio.
Google-bevorzugtes Tooling: Am besten unterstützt über MediaPipe, LiteRT und Google AI Studio. Funktioniert auch mit Ollama und llama.cpp, aber der Google-Stack ist der reibungsloseste Weg.
Kein agentischer Fokus: Anders als GLM-5.1s ausdauernde autonome Sessions ist Gemma 4 für Single-Turn- und Multi-Turn-Inferenz gebaut — nicht für Marathon-Coding.

Das Fazit: Gemma 4 ist die praktischste offene Modellfamilie dieses Jahres. Die 31B und 26B sind beeindruckende Workstation-Modelle, klar — aber die eigentliche Geschichte sind E2B und E4B. Echtes multimodales KI auf einem Handy, das Text, Bilder und gesprochenes Audio versteht, mit mathematischem Reasoning, das vor zwei Jahren Frontier-Niveau gewesen wäre? Das ist kein Gimmick. Das ist die Zukunft von Offline-first-Anwendungen.