GLM-5.2

Zhipu AI · Publié 13 juin 2026

9.4 /10 Note globale

Ce que c'est réellement

Il y a un nombre facile à rejeter jusqu’à ce que vous voyiez d’où il vient : 1360. C’est l’Elo de GLM-5.2 sur Design Arena — pas un benchmark auto-déclaré, mais un classement indépendant et communautaire. C’est la place #1.

Et puis il y a 87. Le score de GLM-5.2 sur le benchmark AkitaOnRails — un saut de +41 points depuis GLM-5.1. De Tier C à Tier A.

Publié le 13 juin 2026, GLM-5.2 est un modèle MoE de 744 milliards de paramètres. SWE-bench Pro 62,1% bat GPT-5.5 (58,6%). Terminal-Bench 82,7 sur Claude Code dépasse Opus 4.8 (78,9). FrontierSWE 74,4% — 1% derrière Opus 4.8. La licence MIT est le multiplicateur de force.

Points Forts

Design Arena #1 — Elo 1360 : Premier modèle open-weight à dominer les catégories coding de Design Arena. Validation indépendante de la communauté.
AkitaOnRails 87/100 — Tier A : Amélioration la plus dramatique dans l’histoire du benchmark. De 46/100 (Tier C) à 87/100 (Tier A) — +41 points.
SWE-bench Pro 62,1% : Bat GPT-5.5 (58,6%) et tous les modèles ouverts. Subsets Verified montrent ~78%+.
Terminal-Bench 82,7 (Claude Code) : Devant Opus 4.8 (78,9) sur le même harness. Bond massif de +17,5 points depuis GLM-5.1.
FrontierSWE 74,4% : Seulement 1% derrière Opus 4.8. Licence MIT et contexte 1M.

Aperçu des Benchmarks

Design Arena — #1 (Elo 1360) Premier modèle ouvert en tête. Validation indépendante de la communauté.
SWE-bench Pro — 62,1% Bat GPT-5.5 (58,6%) et tous les modèles ouverts. Seul Opus 4.8 (69,2%) plus haut.
Terminal-Bench 2.1 — 81,0 / 82,7 82,7 sur Claude Code (devant Opus 4.8 78,9). +17,5 points depuis GLM-5.1.
AkitaOnRails — 87/100 Tier A Éval pratique multi-tour. +41 points depuis GLM-5.1 — plus grand saut intra-famille jamais.

Limites Honnêtes

Écart sur les benchmarks de profondeur : Opus 4.8 mène sur SWE-bench Pro (69,2 vs 62,1), NL2Repo (69,7 vs 48,9), SWE-Marathon (26,0 vs 13,0).
Architecture lourde : 744B paramètres. Configurations multi-centaines-Go nécessaires.
Ne domine pas le chat général : lmarena Code Arena 7e-10e. Fort en coding.
Pas de vision native : Texte/code uniquement.

Le Verdict: Quelque chose a changé. Quand un modèle open-weight prend le #1 sur Design Arena, saute de 41 points sur un benchmark indépendant pratique, et reste à des pourcentages à un chiffre du meilleur modèle fermé sur FrontierSWE — ce n’est pas un progrès incrémental. GLM-5.2 est le modèle de coding ouvert le plus fort jamais publié.