GLM-5.2

Zhipu AI · Chiqarilgan 2026 yil 13 iyun

9.4 /10 Umumiy baho

Aslida bu nima

U qayerdan kelganini ko’rmaguningizcha e’tibor bermaslik oson bo’lgan bitta raqam bor: 1360. Bu GLM-5.2 ning Design Arena dagi Elo reytingi — kompaniyaning o’zi e’lon qilgan benchmark emas, balki haqiqiy foydalanuvchilar haqiqiy kodlash va dizayn vazifalarida ovoz beradigan hamjamiyat boshqaradigan mustaqil peshqadamlar taxtasi. Bu 1-o’rin. Birinchi marta ochiq vaznli model uni egalladi.

Shuningdek, yana 87 bor. Bu GLM-5.2 ning AkitaOnRails maxsus kodlash benchmarkidagi natijasi — amaliy, ko’p qadamli baholash bo’lib, avvalgi GLM-5.1 unda 46 ball to’plagan edi. +41 balllik sakrash. C darajadan A darajagacha. Benchmark tomonidan qayd etilgan oila ichidagi eng katta burilish.

Bular Zhipu AI ning raqamlari emas. Bular modelning amalda nima qilishini o’lchaydigan mustaqil baholovchilar. Va ular muhim bo’lgan rasmiy benchmarklar bilan bir xil hikoyani tasdiqlaydi.

2026-yil 13-iyunda Zhipu AI tomonidan chiqarilgan GLM-5.2 - bu har bir oldinga o’tishda taxminan 40 milliard parametrni faollashtiradigan 744 milliard parametrli Ekspertlar Aralashmasi (Mixture-of-Experts) modelidir. Arxitektura 1M kontekst uzunligida har bir tokendagi FLOPlarni 2.9 baravar kamaytirish uchun IndexShare’dan foydalanadi va MTP yaxshilanishlari spekulyativ dekodlash (speculative decoding) qabulini 20% ga oshiradi. Ikki xil fikrlash kuchi darajasi mavjud — balanslangan samaradorlik uchun High va chuqurlik uchun Max — hisoblash quvvatini imkoniyatlarga almashtirish imkonini beradi.

Rasmiy benchmark jadvali tafsilotlarni to’ldiradi. SWE-bench Pro 62.1% natijasi bilan GPT-5.5 (58.6%), Qwen 3.7 Max (60.6%) va boshqa barcha ochiq modellarni katta farq bilan ortda qoldiradi. Claude Code harness-dagi Terminal-Bench 82.7 Opus 4.8 ning 78.9 natijasidan biroz ustun bo’lsa-da — Opus 4.8 Terminus-2 da yetakchilik qiladi (85.0 ga qarshi 81.0). Ko’p soatlik muhandislik loyihalari bo’yicha benchmark bo’lgan FrontierSWE da GLM-5.2 74.4% ball to’playdi — Opus 4.8 ning 75.1% ko’rsatkichidan roppa-rosa 1% orqada qolmoqda.

MIT litsenziyasi bu modelni kuchaytiruvchi (force multiplier) hisoblanadi. Mintaqaviy cheklovlar yo’q, atributsiya (mualliflik huquqini ko’rsatish) talablari yo’q, API qaramligi yo’q. Hugging Face-dan yuklab oling, kvantlang, vLLM, SGLang yoki ktransformers-da joylashtiring. U Claude Code, ZCode, OpenCode va istalgan OpenAI bilan mos keladigan endpoint (oxirgi nuqta) bilan ishlaydi. Bu ham ishlab chiquvchining benchmarklari, ham hamjamiyatning mustaqil tekshiruvi bilan qo’llab-quvvatlangan eng kuchli ochiq kodlash modelidir.

Asosiy afzalliklari

Design Arena #1 — Elo 1360: Design Arena kodlash toifalarida birinchi bo’lib yetakchilik qilgan ochiq vaznli model, bungacha yetakchi bo’lgan (hozir cheklangan) Claude Fable 5 dan o’zib ketdi. Qisqa vaqt ichida +27 Elo va +4 pozitsiyaga ko’tarildi — bu arenada qayd etilgan eng yuqori kodlash Elo ballaridan biri. Bu o’zi xabar qilgan (self-reported) benchmarklar emas, balki hamjamiyatga asoslangan mustaqil tekshiruvdir.
AkitaOnRails 87/100 — A darajasi (Tier A): Benchmark tarixidagi bir versiyadan ikkinchisiga eng keskin yaxshilanish. GLM-5.1 46/100 (Tier C, #21) ball to’plagan edi. GLM-5.2 87/100 (Tier A, 6-o’rinni bo’lishgan) gacha sakradi — bu +41 ballik o’sish. Kimi K2.6/K2.7 variantlari bilan teng; yuqori yopiq modellar (94-97 da Opus 4.7/4.8 va GPT-5.5) dan orqada. Bu haqiqiy ishonchlilik o’sishini ko’rsatadigan amaliy ko’p bosqichli kodlashni baholash testidir.
SWE-bench Pro 62.1%: GPT-5.5 (58.6%), Qwen 3.7 Max (60.6%), DeepSeek-V4-Pro (55.4%) va Gemini 3.1 Pro (54.2%) ni ortda qoldirdi. Faqat Opus 4.8 (69.2%) yuqoriroq ball olgan. SWE-bench Verified kichik guruhlari so’nggi suratlarda ~78%+ ni ko’rsatmoqda. Bu har qanday ochiq vaznli model erishgan eng yuqori SWE-bench Pro ballidir.
Terminal-Bench 82.7 (Claude Code harness): Aslida u xuddi shu jabduqda (harness) Opus 4.8 ning 78.9 ko’rsatkichidan ustun. Terminus-2 jabdug’ida 81.0 (Opus 4.8 ning 85.0 ko’rsatkichiga qarshi). Ikkala konfiguratsiya ham GLM-5.1 ning 63.5 ko’rsatkichidan 17.5+ ballga ulkan sakrashni ko’rsatadi.
FrontierSWE 74.4% — Opus 4.8 bilan deyarli teng: Bir necha soatdan o’nlab soatgacha davom etadigan ochiq texnik loyihalar. GLM-5.2 Opus 4.8 dan atigi 1% ga orqada va GPT-5.5 dan 1% ga oldinda. Uzoq muddatli muhandislik vazifalari bo’yicha eng yuqori o’rindagi ochiq model. MIT litsenziyasi va 1M kontekst uni ushbu darajada raqobatlashadigan yagona ochiq modelga aylantiradi.

Benchmark natijalari

Design Arena — #1 (Elo 1360) Design Arena kodlash toifalarida birinchi bo'lib yetakchilik qilgan ochiq vaznli model. Hamjamiyat tomonidan mustaqil tekshiruv. Claude Fable 5 ni +27 Elo o'sishi bilan ortda qoldirdi.
SWE-bench Pro — 62.1% GPT-5.5 (58.6%), Qwen 3.7 Max (60.6%) va har bir ochiq modelni mag'lub etadi. Faqat Opus 4.8 (69.2%) yuqori o'rinda. SWE-bench Verified qismlari ~78%+ ni ko'rsatadi.
Terminal-Bench 2.1 — 81.0 / 82.7 Terminus-2 da 81.0 (Opus 4.8 da 85.0 ga qarshi). Claude Code harness da 82.7 (Opus 4.8 ning 78.9 natijasidan ustun). GLM-5.1 dan massiv +17.5 ball.
AkitaOnRails — 87/100 A darajasi (Tier A) Amaliy ko'p bosqichli kodlash sinovi. GLM-5.1 ning 46/100 natijasidan +41 ball o'sish — bu benchmark tarixidagi eng katta ichki sakrash. Umumiy hisobda 6-o'rin.

Haqiqiy cheklovlar

Chuqur benchmarklarda yopiq yetakchilardan orqada: Opus 4.8 hamon SWE-bench Pro (69.2 vs 62.1), NL2Repo (69.7 vs 48.9), SWE-Marathon (26.0 vs 13.0) va DeepSWE (58.0 vs 46.2) bo’yicha yetakchilik qilmoqda. GPT-5.5 DeepSWE da yetakchi (70.0 vs 46.2). Farq qisqarmoqda, ammo eng qiyin vazifalarda hali to’liq yopilgani yo’q.
Og’ir arxitektura: Jami 744B parametrlar (har bir token uchun ~40B faol) hattoki kvantlangan (quantized) joylashtirishlar uchun yuzlab GB uskunalarni talab qilishini anglatadi. Ko’pchilik foydalanuvchilar API orqali kirishadi. Kodlash rejasi kvotani tig’iz vaqtda 3 baravar / odatiy vaqtda 2 baravar yeydi.
Umumiy chatda hukmron emas: lmarena Code Arena GLM-5.2 ni 7-10-o’rinlar oralig’iga qo’yadi (Elo ~1447-1455). Kodlashga xos bo’limlarda kuchli, ammo umumiy matn arenalarida yetakchi emas. Umumiy maqsadlar uchun emas, kodlashga qaratilgan.
Mahalliy ko’rish qobiliyati yo’q: Faqat matn/kod. Skrinshot yoki diagrammalarni qayta ishlay olmaydi. Vizual kodlash ishlari uchun alohida ko’rish (vision) modeli kerak bo’ladi.

Xulosa: Nimadir o’zgardi. Ochiq vaznli model Design Arena-da 1-o’rinni egallab, mustaqil amaliy kodlash benchmarkida 41 ballga sakrasa va FrontierSWE bo’yicha eng yaxshi yopiq modeldan faqat bir xonali foizga orqada qolsa — bu shunchaki qadam-baqadam o’sish emas. GLM-5.2 har bir ko’rsatkich bo’yicha Opus 4.8 ni mag’lub etmaydi va eng qiyin chuqur benchmarklardagi farq haqiqatdir. Ammo API qaramligisiz yuqori darajadagi kodlashni talab qiladigan yoki o’z infratuzilmasida joylashtirib, tekshirishi mumkin bo’lgan MIT litsenziyali vaznlarni xohlaydigan jamoalar uchun, aynan shu model buni amalga oshirishga imkon beradi. Mustaqil validatsiya (Design Arena #1, AkitaOnRails Tier A) va rasmiy benchmarklarning (SWE-bench Pro 62.1%, FrontierSWE 74.4%) kombinatsiyasi barqaror hikoyani aytadi: hozirgacha chiqarilgan eng kuchli ochiq kodli model va u avvalgi ochiq yetakchilarga yaqin ham kelmaydi.