GLM-5.2

Zhipu AI · Veröffentlicht 13. Juni 2026

9.4 /10 Gesamtbewertung

Was es wirklich ist

Es gibt eine Zahl, die man leicht abtut, bis man sieht, woher sie kommt: 1360. Das ist GLM-5.2s Elo in der Design Arena — nicht ein selbstberichteter Benchmark, sondern eine unabhängige, Community-getriebene Rangliste. Es ist Platz 1. Das erste Mal, dass ein Open-Weight-Modell die Spitze erreicht hat.

Und dann gibt es 87. Das ist GLM-5.2s Score im AkitaOnRails Coding-Benchmark — eine praktische Multi-Turn-Bewertung, bei der GLM-5.1 46 erzielte. +41 Punkte. Tier C zu Tier A.

Veröffentlicht von Zhipu AI am 13. Juni 2026 ist GLM-5.2 ein 744-Milliarden-Parameter Mixture-of-Experts-Modell, das pro Durchlauf ~40 Milliarden Parameter aktiviert. Die IndexShare-Architektur reduziert FLOPs pro Token um das 2,9-Fache bei 1M Kontextlänge.

Die offizielle Benchmark-Tabelle füllt die Details. SWE-bench Pro 62,1% schlägt GPT-5.5 (58,6%), Qwen 3.7 Max (60,6%). Terminal-Bench 82,7 auf dem Claude-Code-Harness übertrifft Opus 4.8s 78,9. FrontierSWE 74,4% — 1% hinter Opus 4.8. Die MIT-Lizenz ist der Kraftmultiplikator.

Zentrale Stärken

Design Arena #1 — Elo 1360: Das erste Open-Weight-Modell an der Spitze der Design-Arena-Coding-Kategorien. +27 Elo und +4 Positionen. Unabhängige, Community-getriebene Validierung.
AkitaOnRails 87/100 — Tier A: Dramatischster Versionssprung in der Benchmark-Geschichte. GLM-5.1 erzielte 46/100 (Tier C, #21). GLM-5.2 sprang auf 87/100 (Tier A, gleichauf #6) — +41 Punkte.
SWE-bench Pro 62,1%: Schlägt GPT-5.5 (58,6%), Qwen 3.7 Max (60,6%) und jedes offene Modell. SWE-bench-Verified-Subsets zeigen ~78%+.
Terminal-Bench 82,7 (Claude Code Harness): Übertrifft Opus 4.8s 78,9 auf dem gleichen Harness. Massiver 17,5+-Punkte-Sprung von GLM-5.1.
FrontierSWE 74,4%: Offene Technikprojekte über Stunden bis Dutzende Stunden. Nur 1% hinter Opus 4.8. MIT-Lizenz und 1M Kontext.

Benchmark-Übersicht

Design Arena — #1 (Elo 1360) Erstes Open-Weight-Modell an der Spitze. Unabhängige Community-Validierung. Übertraf Claude Fable 5 mit +27 Elo.
SWE-bench Pro — 62,1% Schlägt GPT-5.5 (58,6%) und alle offenen Modelle. Nur Opus 4.8 (69,2%) höher. Verified-Subsets ~78%+.
Terminal-Bench 2.1 — 81,0 / 82,7 81,0 auf Terminus-2. 82,7 auf Claude Code Harness (vor Opus 4.8s 78,9). +17,5 Punkte von GLM-5.1.
AkitaOnRails — 87/100 Tier A Praktischer Multi-Turn-Coding-Test. +41 Punkte von GLM-5.1s 46/100 — größter Intra-Familien-Sprung in der Benchmark-Geschichte.

Ehrliche Einschränkungen

Abstand zu geschlossenen Führern bei Tiefenbenchmarks: Opus 4.8 führt noch bei SWE-bench Pro (69,2 vs 62,1), NL2Repo (69,7 vs 48,9), SWE-Marathon (26,0 vs 13,0).
Schwere Architektur: 744B Gesamtparameter (~40B aktiv). Multi-Hundert-GB-Setups nötig. Coding Plan verbraucht 3× in Spitzenzeiten.
Kein Allround-Dominanz: lmarena Code Arena 7.-10. Platz. Stark im Coding, nicht führend bei allgemeinem Chat.
Keine native Vision: Nur Text/Code.

Das Fazit: Etwas hat sich verschoben. Wenn ein Open-Weight-Modell Platz 1 in der Design Arena erreicht, 41 Punkte auf einem unabhängigen Benchmark springt und dem besten geschlossenen Modell auf FrontierSWE nur einstellig hinterher liegt — das ist kein inkrementeller Fortschritt. GLM-5.2 schlägt nicht Opus 4.8 bei jeder Metrik. Aber für Teams, die Frontier-Coding ohne API-Lock-in brauchen und MIT-lizenzierte Gewichte, ist dies das Modell, das es tragfähig macht.