GLM-5.2

Zhipu AI · Выпущено 13 июня 2026 г.

9.4 /10 Общий рейтинг

Что это на самом деле

Есть число, от которого легко отмахнуться, пока вы не увидите, откуда оно взялось: 1360. Это рейтинг Elo GLM-5.2 на Design Arena — не самоотчетный бенчмарк, а независимая таблица лидеров, управляемая сообществом, где реальные пользователи голосуют за реальные задачи по кодированию и дизайну. Это 1-е место. Впервые его заняла модель с открытыми весами.

А еще есть 87. Это результат GLM-5.2 в пользовательском тесте кодирования AkitaOnRails — практической многоэтапной оценке, в которой GLM-5.1 набрал 46. Скачок на +41 балл. От уровня C до уровня A. Самый большой рывок внутри семейства, когда-либо зафиксированный бенчмарком.

Это не цифры Zhipu AI. Это независимые оценщики, измеряющие то, что модель фактически делает на практике. И они рассказывают ту же историю, что и официальные бенчмарки, и это именно то, что имеет значение.

Выпущенная Zhipu AI 13 июня 2026 года, GLM-5.2 представляет собой модель Mixture-of-Experts на 744 миллиарда параметров, которая активирует примерно 40 миллиардов параметров за один прямой проход. Архитектура использует IndexShare для сокращения FLOPs на токен в 2,9 раза при длине контекста 1M, с улучшениями MTP, увеличивающими принятие спекулятивного декодирования на 20%. Два уровня рассуждений — High для сбалансированной эффективности, Max для глубины — позволяют вам обменивать вычислительные мощности на возможности.

Таблица официальных бенчмарков дополняет детали. В SWE-bench Pro показатель 62,1% с большим отрывом превосходит GPT-5.5 (58,6%), Qwen 3.7 Max (60,6%) и любую другую открытую модель. Terminal-Bench 82,7 на стенде Claude Code фактически опережает показатель 78,9 у Opus 4.8 — хотя Opus 4.8 лидирует на стенде Terminus-2 (85,0 против 81,0). В FrontierSWE, эталонном тесте для многочасовых инженерных проектов, GLM-5.2 набирает 74,4%, отставая от 75,1% у Opus 4.8 ровно на 1%.

Лицензия MIT — это множитель силы. Никаких региональных ограничений, никаких требований по атрибуции, никакой привязки к API. Скачивайте с Hugging Face, квантуйте, развертывайте на vLLM, SGLang или ktransformers. Работает с Claude Code, ZCode, OpenCode и любой OpenAI-совместимой конечной точкой. Самая сильная открытая модель для кодирования, когда-либо выпущенная, поддерживаемая как тестами создателей, так и независимой оценкой сообщества.

Ключевые преимущества

Design Arena #1 — Elo 1360: Первая модель с открытыми весами, возглавившая категории кодирования Design Arena, обогнав ранее лидировавшую (ныне ограниченную) Claude Fable 5. Набрала +27 Elo и +4 позиции за короткое время — один из самых высоких показателей Elo в кодировании, когда-либо зафиксированных на арене. Это независимая проверка, проводимая сообществом, а не самоотчетные бенчмарки.
AkitaOnRails 87/100 — Tier A: Самое резкое улучшение от версии к версии в истории бенчмарка. GLM-5.1 набрал 46/100 (Tier C, #21). GLM-5.2 прыгнул до 87/100 (Tier A, делит 6-е место) — скачок на +41 балл. Сравнялся с вариантами Kimi K2.6/K2.7; позади топовых закрытых моделей (Opus 4.7/4.8 и GPT-5.5 с 94-97 баллами). Это практическая многоэтапная оценка кодирования, показывающая реальный прирост надежности.
SWE-bench Pro 62,1%: Превосходит GPT-5.5 (58,6%), Qwen 3.7 Max (60,6%), DeepSeek-V4-Pro (55,4%) и Gemini 3.1 Pro (54,2%). Только Opus 4.8 (69,2%) набирает больше. Проверенные подмножества SWE-bench показывают ~78%+ в недавних снимках. Самый высокий балл SWE-bench Pro, которого когда-либо достигала модель с открытыми весами.
Terminal-Bench 82,7 (Claude Code harness): Фактически опережает 78,9 у Opus 4.8 на том же стенде. На Terminus-2 — 81,0 против 85,0 у Opus 4.8. Обе конфигурации показывают огромный скачок на 17,5+ баллов по сравнению с 63,5 у GLM-5.1.
FrontierSWE 74,4% — Почти наравне с Opus 4.8: Открытые технические проекты продолжительностью от нескольких до десятков часов. GLM-5.2 отстает от Opus 4.8 всего на 1% и опережает GPT-5.5 на 1%. Модель с наивысшим рейтингом среди открытых в задачах продолжительной инженерии. Лицензия MIT и контекст 1М делают её единственной открытой моделью, конкурирующей на этом уровне.

Результаты тестов

Design Arena — #1 (Elo 1360) Первая открытая модель, возглавившая категории кодирования Design Arena. Независимая проверка сообществом. Обошла Claude Fable 5 с приростом +27 Elo.
SWE-bench Pro — 62,1% Побеждает GPT-5.5 (58,6%), Qwen 3.7 Max (60,6%) и каждую открытую модель. Только Opus 4.8 (69,2%) находится выше. Проверенные подмножества SWE-bench показывают ~78%+.
Terminal-Bench 2.1 — 81,0 / 82,7 81,0 на Terminus-2 (против 85,0 у Opus 4.8). 82,7 на Claude Code harness (опережает 78,9 у Opus 4.8). Огромный прирост в +17,5 баллов по сравнению с GLM-5.1.
AkitaOnRails — 87/100 Tier A Практическая многоэтапная оценка кодирования. +41 балл с 46/100 у GLM-5.1 — самый большой скачок внутри семейства в истории бенчмарка. Делит 6-е место.

Честные ограничения

Отставание от закрытых лидеров на глубоких бенчмарках: Opus 4.8 все еще лидирует на SWE-bench Pro (69,2 против 62,1), NL2Repo (69,7 против 48,9), SWE-Marathon (26,0 против 13,0) и DeepSWE (58,0 против 46,2). GPT-5.5 лидирует на DeepSWE (70,0 против 46,2). Разрыв сокращается, но не исчез на самых сложных задачах.
Тяжелая архитектура: 744B параметров в целом (~40B активных на токен) означает, что даже квантованные развертывания требуют сотен гигабайт памяти. Большинство пользователей будут получать доступ через API. Тариф Coding Plan потребляет квоту как 3× в пиковые часы / 2× в непиковые.
Не доминирует в общих чатах: lmarena Code Arena ставит GLM-5.2 в диапазон 7-10 мест (Elo ~1447-1455). Сильна в специфичных для кодинга сегментах, но не лидирует в общих текстовых аренах. Ориентирована на код, а не на общие задачи.
Нет нативного зрения: Только текст/код. Не может обрабатывать скриншоты или диаграммы. Для визуальных рабочих процессов кодирования нужна отдельная модель зрения.

Вердикт: Что-то изменилось. Когда модель с открытыми весами занимает первое место на Design Arena, прыгает на 41 балл в независимом практическом бенчмарке кодинга и отстает от лучшей закрытой модели всего на однозначные проценты в FrontierSWE — это не постепенный прогресс. GLM-5.2 не превосходит Opus 4.8 по каждому показателю, и разрыв на самых сложных глубоких бенчмарках реален. Но для команд, которым нужно кодирование передового уровня без привязки к API, или которые хотят получить веса по лицензии MIT, чтобы развернуть их на собственной инфраструктуре, эта модель делает это возможным. Сочетание независимой валидации (Design Arena #1, AkitaOnRails Tier A) и официальных бенчмарков (SWE-bench Pro 62,1%, FrontierSWE 74,4%) говорит об одном: это самая сильная открытая модель кодирования из когда-либо выпущенных, и она даже близко не стоит с предыдущими открытыми лидерами.