Gemma 4
By Google DeepMind · Updated
Ce que c'est réellement
Ce qui distingue Gemma 4 de tout autre modèle ouvert : il ne fait pas que monter en puissance, il descend en taille. Alors que l’industrie de l’IA est obsédée par qui peut construire le plus gros modèle, Google DeepMind a posé une question différente : à quel point peut-on rendre intelligent le plus petit ?
La réponse s’avère être « étonnamment intelligent ». L’E4B — un modèle conçu pour votre téléphone — obtient 42,5 % sur AIME 2026, un examen de mathématiques compétitif qui aurait relevé de la science-fiction pour un modèle de cette taille il y a un an. L’E2B tient dans 1,5 Go de RAM et gère quand même texte, images et audio en direct. Ce ne sont pas des chatbots simplifiés. Ce sont de véritables moteurs de raisonnement multimodaux qui, par hasard, fonctionnent sans connexion cloud.
Les variantes plus grandes (26B MoE, 31B dense) rivalisent avec les modèles cloud de Gemma. Le 31B se classe #3 parmi les modèles ouverts sur Arena AI. Le 26B MoE est le choix efficience — 26 milliards de paramètres au total, mais seulement 3,8 milliards actifs par token, offrant une qualité proche du 31B pour une fraction du coût de calcul.
Les quatre modèles partagent la même licence Apache 2.0, supportent 140+ langues et proposent des modes de réflexion intégrés pour les tâches de raisonnement complexes. Que vous construisiez une app de traduction hors ligne, un assistant santé respectueux de la vie privée ou un analyseur photo embarqué, il y a un modèle Gemma 4 qui convient.
Points Forts
- Quatre modèles, une famille : E2B (~1,5 Go quantifié) pour l’edge extrême, E4B pour les smartphones haut de gamme, 26B MoE (3,8B actifs) pour les stations de travail, 31B dense pour les serveurs. Choisissez la taille adaptée à votre matériel.
- E2B et E4B — de la vraie IA sur de vrais téléphones : Entrée multimodale native — texte, images et audio — tournant entièrement sur l’appareil. L’E4B obtient 42,5 % sur AIME 2026, plus du double du modèle 27B de Gemma 3 (20,8 %). Du raisonnement mathématique compétitif sur un smartphone.
- Apache 2.0 — véritablement ouvert : Aucune restriction d’usage, aucune redevance, droits commerciaux complets. Téléchargez depuis Hugging Face, Ollama ou Google AI Studio et utilisez comme bon vous semble.
- 140+ langues : Toute la famille est entraînée sur un corpus multilingue massif. Pour les apps locales servant des utilisateurs mondiaux, c’est significatif.
- Mode raisonnement intégré : Modes de « réflexion » configurables pour la planification multi-étapes et la décomposition de tâches complexes — même sur les modèles edge.
- AIME 2026 — E4B 42,5 %, E2B 37,5 %Benchmark de mathématiques compétitives. Les modèles edge doublent le 20,8 % de Gemma 3 27B. Le modèle dense 31B atteint 89,2 %.
- Arena AI — 31B #3, 26B MoE #6 (modèles ouverts)Classement communautaire. Le 31B est au sommet parmi les modèles ouverts ; le 26B MoE arrive à 1–2 % d'écart pour une fraction du calcul.
- Architecture — Dense (E2B, E4B, 31B) + MoE (26B)Per-Layer Embeddings (PLE) maximisent l'efficacité paramétrique sur edge ; le 26B MoE n'active que 3,8B paramètres par token pour l'efficacité sur station de travail.
Limites Honnêtes
- Les modèles edge restent des modèles edge : E2B et E4B ne rivaliseront pas avec un modèle dense de 31B sur des tâches de raisonnement complexes. Ils sont optimisés pour la qualité par octet, pas la qualité absolue.
- Pas de vidéo sur edge : La compréhension vidéo est exclusive aux variantes 26B et 31B. Les modèles edge gèrent uniquement texte, images et audio.
- Outillage Google privilégié : Meilleur support via MediaPipe, LiteRT et Google AI Studio. Fonctionne aussi avec Ollama et llama.cpp, mais le stack Google offre le parcours le plus fluide.
- Pas de focus agentique : Contrairement aux sessions autonomes prolongées de GLM-5.1, Gemma 4 est conçu pour l’inférence single-turn et multi-turn — pas pour les marathons de développement.
Le Verdict: Gemma 4 est la famille de modèles ouverts la plus pratique sortie cette année. Les 31B et 26B sont des modèles de station de travail impressionnants, certes — mais la vraie histoire, ce sont E2B et E4B. Faire tourner une IA multimodale authentique sur un téléphone, comprenant texte, images et audio parlé, avec un raisonnement mathématique qui aurait été de niveau frontier il y a deux ans ? Ce n’est pas un gadget. C’est l’avenir des applications offline-first.