GLM-5.1
By Z.ai (Zhipu AI) · Updated
Ce que c'est réellement
Si GLM-5 a prouvé qu’un modèle ouvert pouvait rivaliser avec la frontière cloud, GLM-5.1 prouve qu’il peut la mener — du moins là où cela compte le plus pour les ingénieurs. Publié par Zhipu AI (désormais sous le nom Z.ai) le 7 avril 2026, ce n’est pas une refonte architecturale complète. C’est un raffinement post-entraînement ciblé qui répond à une question très précise : que se passe-t-il quand on optimise un modèle de 754 milliards de paramètres non pas pour le chat ponctuel, mais pour un travail autonome soutenu ? La réponse : il construit une application web de bureau Linux complète depuis zéro en 8 heures avec 655+ itérations. Il optimise une VectorDB à 6,9× de débit sur 600+ itérations. Il exécute des milliers d’appels d’outils sur KernelBench Level 3 et atteint une accélération de moyenne géométrique de 3,6×. Là où GLM-5 plafonnait après un début prometteur, GLM-5.1 continue de raffiner, s’auto-corriger et progresser — transformant essentiellement votre machine locale en un laboratoire d’ingénierie autonome qui travaille pendant que vous dormez.
Points Forts
- Endurance agentique : Là où GLM-5 plafonnait souvent après les gains initiaux, GLM-5.1 continue de s’améliorer sur de très longues sessions — 8+ heures, 655+ itérations, des milliers d’appels d’outils. Il ne commence pas seulement fort ; il reste fort.
- Licence MIT : Poids entièrement ouverts, aucune restriction d’usage, aucune redevance. Téléchargez depuis Hugging Face et déployez commercialement sans demander la permission.
- SWE-Bench Pro SOTA (58,4) : Surpasse Claude Opus 4.6 (57,3) et GPT-5.4 (57,7) en ingénierie logicielle réelle — le premier modèle ouvert à mener ce benchmark.
- 200K de contexte, 128K+ en sortie : Fenêtre de contexte énorme pour alimenter des bases de code entières, avec une sortie suffisamment longue pour des traces d’agent complètes et des réécritures multi-fichiers.
- Mise à niveau sans friction : Même architecture MoE que GLM-5 (40B paramètres actifs). Votre configuration d’inférence, quantification et budget VRAM existants se transfèrent directement.
- SWE-Bench Pro — 58,4 (SOTA)Benchmark d'ingénierie logicielle réelle. GLM-5.1 mène tous les modèles — ouverts et fermés — surpassant Claude Opus 4.6 (57,3) et GPT-5.4 (57,7). Un jalon pour l'IA open-weight.
- CyberGym — 68,7Benchmark de sécurité et tâches agentiques. Un bond massif de 20 points par rapport à GLM-5 (48,3), dépassant à la fois Claude Opus 4.6 (66,6) et GPT-5.4 (66,3).
- Architecture — 754B MoE / 40B actifsMixture-of-Experts avec Activation de Parcimonie Dynamique. Seuls 40B paramètres s'activent par token, rendant l'inférence viable sur du matériel grand public haut de gamme avec quantification.
Limites Honnêtes
- Texte uniquement : L’entrée et la sortie sont strictement textuelles — pas d’images, d’audio ni de vidéo. Pour les tâches de vision, Z.ai propose le modèle séparé GLM-5V-Turbo.
- Exigences matérielles : ~754B paramètres totaux signifie des besoins GPU sérieux même avec quantification. Les configurations multi-GPU (4× cartes haut de gamme) peuvent être justes une fois le contexte et le cache KV pris en compte.
- Latence du mode réflexion : Les optimisations agentiques peuvent ajouter un surcoût de raisonnement inutile sur les requêtes simples. Désactivez le mode réflexion pour les tâches rapides.
- Écart de l’écosystème occidental : La documentation, les outils communautaires et les ressources en anglais s’améliorent mais restent moins matures que l’écosystème sinophone.
Le Verdict: Le modèle qui a prouvé que l’IA open-weight peut mener la frontière en ingénierie réelle. Si vous faisiez déjà tourner GLM-5 localement, la mise à niveau vers 5.1 est une évidence — même matériel, persistance agentique dramatiquement meilleure. Si vous n’avez pas encore essayé les modèles locaux open-weight, celui-ci rend l’argument impossible à ignorer.