GLM-5.1
By Z.ai (Zhipu AI) · Updated
Ce que c'est réellement
Ce qui rend GLM-5.1 remarquable dans la catégorie programmation : c’est le premier modèle open-weight à mener véritablement la frontière sur SWE-Bench Pro — le benchmark qui teste si un modèle peut résoudre de vrais problèmes d’ingénierie logicielle issus de vrais dépôts en production. Pas des puzzles jouets. Pas les complétions de fonctions de HumanEval. De vraies issues GitHub qui ont pris des heures à des ingénieurs humains pour déboguer. Le secret n’est pas l’intelligence brute — c’est l’endurance. GLM-5.1 a été post-entraîné spécifiquement pour l’exécution autonome soutenue. Là où GPT-5.4 et Claude Opus pourraient plafonner après des tentatives initiales prometteuses, GLM-5.1 continue d’itérer. Il a exécuté 655+ cycles d’optimisation en une seule session de 8 heures. Il a optimisé une VectorDB à 6,9× de débit sur 600+ itérations. Ce n’est pas un modèle qui vous donne un bon premier jet — c’est un modèle qui vous donne un bon jet final, même s’il faut des centaines de tentatives pour y arriver.
Points Forts
- SWE-Bench Pro #1 (58,4) : Le benchmark de référence pour la programmation réelle. GLM-5.1 est le premier modèle ouvert à le mener, surpassant Claude Opus 4.6 (57,3) et GPT-5.4 (57,7). Pas un test synthétique — de vraies issues GitHub de dépôts en production.
- Sessions agentiques de 8+ heures : Là où d’autres modèles plafonnent après les gains initiaux, GLM-5.1 maintient l’amélioration sur 655+ itérations et des milliers d’appels d’outils. Il a construit une application web de bureau Linux complète depuis zéro en une seule session.
- Licence MIT — entièrement ouvert : Téléchargez depuis Hugging Face et déployez commercialement sans demander la permission. Aucune restriction d’usage, aucune redevance. Le seul modèle de programmation frontier que vous pouvez héberger vous-même.
- 200K de contexte, 128K+ en sortie : Alimentez des bases de code entières en contexte, récupérez des réécritures multi-fichiers complètes. Suffisamment de sortie pour des traces d’agent complètes.
- CyberGym 68,7 : Benchmark agentique axé sécurité. Un bond de 20 points par rapport à GLM-5, surpassant Claude Opus 4.6 (66,6) et GPT-5.4 (66,3).
- SWE-Bench Pro — 58,4 (SOTA)Benchmark d'ingénierie logicielle réelle. GLM-5.1 mène tous les modèles — ouverts et fermés — surpassant Claude Opus 4.6 (57,3) et GPT-5.4 (57,7).
- CyberGym — 68,7Benchmark de sécurité et tâches agentiques. Surpasse Claude Opus 4.6 (66,6) et GPT-5.4 (66,3) — 20 points au-dessus de GLM-5.
- Architecture — 754B MoE / 40B actifsMixture-of-Experts avec parcimonie dynamique. Seuls 40B paramètres s'activent par token, rendant l'inférence auto-hébergée viable avec quantification.
Limites Honnêtes
- Texte uniquement : L’entrée et la sortie sont strictement textuelles — pas d’images, d’audio ni de vidéo. Pour les tâches de vision, Z.ai propose le modèle séparé GLM-5V-Turbo.
- Exigences matérielles : ~754B paramètres totaux avec 40B actifs par token. Configurations multi-GPU (4× cartes haut de gamme) nécessaires. Même avec quantification, attendez-vous à des besoins VRAM élevés.
- Latence du mode réflexion : Les optimisations agentiques ajoutent un surcoût de raisonnement sur les requêtes simples. Désactivez le mode réflexion pour les tâches rapides.
- Écart de l’écosystème occidental : La documentation et les outils communautaires en anglais s’améliorent mais restent moins matures que l’écosystème sinophone.
Le Verdict: Le modèle qui a brisé le plafond du code propriétaire sur les benchmarks de programmation — et vous pouvez l’exécuter vous-même. Si SWE-Bench Pro est l’examen ultime pour les modèles de programmation, GLM-5.1 vient d’obtenir la meilleure note tout en étant le seul étudiant à partager ses notes avec la classe. Pour les équipes d’ingénierie capables de gérer le matériel, c’est le meilleur modèle de programmation pour lequel vous n’avez pas à payer au token.