GLM-5.2
Zhipu AI · Publié 13 juin 2026
Ce que c'est réellement
Il y a un nombre facile à rejeter jusqu’à ce que vous voyiez d’où il vient : 1360. C’est l’Elo de GLM-5.2 sur Design Arena — pas un benchmark auto-déclaré, mais un classement indépendant et communautaire. C’est la place #1.
Et puis il y a 87. Le score de GLM-5.2 sur le benchmark AkitaOnRails — un saut de +41 points depuis GLM-5.1. De Tier C à Tier A.
Publié le 13 juin 2026, GLM-5.2 est un modèle MoE de 744 milliards de paramètres. SWE-bench Pro 62,1% bat GPT-5.5 (58,6%). Terminal-Bench 82,7 sur Claude Code dépasse Opus 4.8 (78,9). FrontierSWE 74,4% — 1% derrière Opus 4.8. La licence MIT est le multiplicateur de force.
Points Forts
- Design Arena #1 — Elo 1360 : Premier modèle open-weight à dominer les catégories coding de Design Arena. Validation indépendante de la communauté.
- AkitaOnRails 87/100 — Tier A : Amélioration la plus dramatique dans l’histoire du benchmark. De 46/100 (Tier C) à 87/100 (Tier A) — +41 points.
- SWE-bench Pro 62,1% : Bat GPT-5.5 (58,6%) et tous les modèles ouverts. Subsets Verified montrent ~78%+.
- Terminal-Bench 82,7 (Claude Code) : Devant Opus 4.8 (78,9) sur le même harness. Bond massif de +17,5 points depuis GLM-5.1.
- FrontierSWE 74,4% : Seulement 1% derrière Opus 4.8. Licence MIT et contexte 1M.
-
Design Arena — #1 (Elo 1360) Premier modèle ouvert en tête. Validation indépendante de la communauté.
-
SWE-bench Pro — 62,1% Bat GPT-5.5 (58,6%) et tous les modèles ouverts. Seul Opus 4.8 (69,2%) plus haut.
-
Terminal-Bench 2.1 — 81,0 / 82,7 82,7 sur Claude Code (devant Opus 4.8 78,9). +17,5 points depuis GLM-5.1.
-
AkitaOnRails — 87/100 Tier A Éval pratique multi-tour. +41 points depuis GLM-5.1 — plus grand saut intra-famille jamais.
Limites Honnêtes
- Écart sur les benchmarks de profondeur : Opus 4.8 mène sur SWE-bench Pro (69,2 vs 62,1), NL2Repo (69,7 vs 48,9), SWE-Marathon (26,0 vs 13,0).
- Architecture lourde : 744B paramètres. Configurations multi-centaines-Go nécessaires.
- Ne domine pas le chat général : lmarena Code Arena 7e-10e. Fort en coding.
- Pas de vision native : Texte/code uniquement.
Le Verdict: Quelque chose a changé. Quand un modèle open-weight prend le #1 sur Design Arena, saute de 41 points sur un benchmark indépendant pratique, et reste à des pourcentages à un chiffre du meilleur modèle fermé sur FrontierSWE — ce n’est pas un progrès incrémental. GLM-5.2 est le modèle de coding ouvert le plus fort jamais publié.