GLM-5.2

Zhipu AI · Выпущено 13 июня 2026 г.

9.0 /10 Общий рейтинг

Что это на самом деле

В течение многих лет локальный запуск передового ИИ означал компромисс: вы могли иметь конфиденциальность и контроль или возможности, но не то и другое вместе. Лучшие открытые модели всегда были на ступень ниже закрытых лидеров — достаточно хороши для некоторых задач, заметно хуже для сложных.

GLM-5.2 — это первая открытая модель, где этот компромисс начинает казаться необязательным.

Доказательства приходят с двух направлений одновременно, что и делает их убедительными. Официальные тесты Zhipu AI показывают SWE-bench Pro 62,1%, Terminal-Bench 82,7 (Claude Code harness), FrontierSWE 74,4%. Это сильные цифры, которые ставят её в пределах однозначных процентов от Opus 4.8 по большинству показателей кодирования. Но официальные тесты можно курировать.

Независимая валидация — вот что ставит точку. Design Arena — управляемая сообществом таблица лидеров, где реальные пользователи оценивают реальные задачи по кодированию и дизайну — поместила GLM-5.2 на 1-е место с Elo 1360, превзойдя ранее лидировавшего Claude Fable 5. Специализированный тест кодинга AkitaOnRails дал ему 87/100 (Tier A), по сравнению с 46/100 у GLM-5.1 — это самое крупное улучшение от версии к версии, которое когда-либо регистрировал этот тест. Это не синтетические оценки. Это практики, измеряющие, что модель делает в их реальных рабочих процессах.

Имея 744 миллиарда параметров в сумме и около 40 миллиардов активных параметров при прямом проходе, GLM-5.2 значительно компактнее, чем DeepSeek V4 (1,6T/49B), при этом показывая более сильные проверенные бенчмарки по всем направлениям. При динамическом 2-битном квантовании модель занимает примерно 241 ГБ — что по силам Mac Studio с 256 ГБ унифицированной памяти или рабочей станции с двумя GPU. Это не тривиальное оборудование, но это настоящая территория для самостоятельного хостинга команд и опытных пользователей.

Архитектура IndexShare снижает FLOPs на токен в 2,9 раза при полной длине контекста 1М, а улучшения MTP увеличивают принятие спекулятивного декодирования на 20%. Два уровня рассуждений (High и Max) позволяют вам обменивать вычислительные мощности на возможности — используйте High для рутинных задач, берегите Max для сложных многофайловых рефакторингов и сессий отладки.

Лицензия MIT делает экономику работоспособной. Никаких региональных ограничений, ограничений использования или требований по атрибуции. Скачивайте с Hugging Face, развертывайте на vLLM, SGLang или ktransformers и запускайте за своим брандмауэром. Ваш код, ваша инфраструктура, ваши правила. Впервые это не означает согласия на модель второго сорта.

Ключевые преимущества

Передовой интеллект для кодинга, которым вы владеете: Design Arena #1 (Elo 1360), SWE-bench Pro 62,1%, Terminal-Bench 82,7 (Claude Code harness). Это не просто самоотчеты — Design Arena и AkitaOnRails являются независимыми проверками. Ни одна другая открытая модель даже близко не подходит в практических тестах кодинга. Запускайте её на собственной инфраструктуре и никогда не отправляйте ни строчки кода в чьё-либо облако.
Компактнее, чем вы думаете: При общих 744B / ~40B активных, GLM-5.2 значительно меньше DeepSeek V4 (1,6T/49B), демонстрируя при этом более сильные результаты в проверенных тестах кодинга. С динамическим 2-битным квантованием (~241 ГБ) он помещается на топовых Mac Studio с 256 ГБ унифицированной памяти или рабочих станциях с двумя GPU. Это настоящая территория самостоятельного хостинга для серьезных команд.
Контекст 1М, обученный для реальной инженерии: Не синтетическое расширение — Zhipu увеличил обучение 1М контексту специально для сценариев кодирующих агентов: крупномасштабные реализации, автоматизированные исследования, оптимизация производительности, сложное тестирование и отладка. IndexShare снижает FLOPs на токен в 2,9 раза при контексте 1М. Загружайте целые кодовые базы и поддерживайте связные многочасовые агентные сессии.
Лицензия MIT — Это по-настоящему: Никаких региональных ограничений, никаких порогов использования, никаких требований к указанию авторства, никакой привязки к API. Скачивайте полные веса с Hugging Face или ModelScope. Коммерчески разворачивайте где угодно. Самая чистая лицензия среди всех моделей передового класса.
Два режима рассуждений для контроля затрат: Режим High для рутинных задач со сбалансированной эффективностью токенов. Режим Max для сложной отладки и многофайловой генерации. Когда вы платите за собственные вычисления, эта гибкость имеет значение — используйте High для 80% задач, берегите Max для сложных проблем.

Результаты тестов

Design Arena — #1 (Elo 1360) Первая открытая модель, возглавившая категории кодирования. Независимая проверка сообществом — не самоотчет. Обошла Claude Fable 5.
SWE-bench Pro — 62,1% Самый высокий балл, которого когда-либо достигала открытая модель. Обходит GPT-5.5 (58,6%) и Qwen 3.7 Max (60,6%). Проверенные подмножества SWE-bench показывают ~78%+.
Архитектура — 744B MoE / ~40B Активных Компактнее, чем DeepSeek V4 (1,6T), с более сильными проверенными бенчмарками. IndexShare снижает FLOPs в 2,9 раза при 1М контексте. ~241 ГБ при динамическом 2-битном квантовании — помещается на железо с 256 ГБ унифицированной памяти.
AkitaOnRails — 87/100 Tier A Многоэтапная практическая оценка кодинга. +41 балл от 46/100 (Tier C) у GLM-5.1 — самый большой рывок внутри семейства за всю историю. Реальный прирост надежности.

Честные ограничения

Не для ноутбука: ~241 ГБ при динамическом 2-битном квантовании. Вам понадобится Mac с 256 ГБ+ унифицированной памяти, многопроцессорная станция с GPU или корпоративные кластеры. Большинство индивидуальных разработчиков будут получать доступ через API, а не хостить самостоятельно. Для по-настоящему портативного локального ИИ обратите внимание на Qwen 3.6 27B или Gemma 4.
Нет нативного зрения: Только текст и код. Не может обрабатывать скриншоты, диаграммы или выполнять визуальную отладку UI. Для мультимодальных локальных рабочих процессов объединяйте с выделенной визуальной моделью.
Медленнее легких моделей: Архитектура 744B, даже с ~40B активными параметрами, медленнее на токен, чем компактные модели вроде Qwen 3.6 27B или Gemma 4. При быстрых интерактивных запросах задержка заметна. Проявляет себя в задачах с длинным горизонтом, где интеллект важнее скорости.
Западная экосистема развивается: Документация на английском языке и инструменты сообщества растут быстро, но менее отполированы, чем китайскоязычная экосистема. Настройка может потребоваться больше терпения по сравнению с более устоявшимися открытыми моделями.

Вердикт: Это модель локального ИИ, которая меняет разговор. Не потому, что она бьет все закрытые модели — Opus 4.8 по-прежнему лидирует на самых сложных глубоких тестах — а потому, что GLM-5.2 — первая открытая модель, где разрыв измеряется однозначными числами, а независимое сообщество соглашается с официальными тестами. Design Arena #1. AkitaOnRails Tier A. Лидерство по открытым весам в SWE-bench Pro. Все под лицензией MIT, все доступно для загрузки с Hugging Face, все работает на оборудовании, которое вы контролируете. Загвоздка честная: вам нужно серьезное оборудование (256 ГБ+ унифицированной памяти или несколько GPU). Но для команд и опытных пользователей с инфраструктурой это передовой интеллект кодинга, который никогда не покидает вашу сеть. Никаких счетов за API, никаких лимитов, никаких данных, покидающих ваш периметр. Экономика наконец-то работает.