GLM-5.1

By Z.ai (Zhipu AI) · Updated

ما هو في الواقع

ما يجعل GLM-5.1 استثنائيًا في فئة البرمجة: إنه أول نموذج مفتوح الأوزان يتصدّر فعليًا الحدود الأمامية على SWE-Bench Pro — المعيار الذي يختبر ما إذا كان النموذج قادرًا على حلّ مشكلات هندسة برمجيات حقيقية من مستودعات إنتاجية حقيقية. ليست ألغازًا بسيطة. ليست إكمالات وظائف HumanEval. مشكلات GitHub حقيقية استغرق مهندسون بشريون ساعات لتصحيحها. السرّ ليس الذكاء الخام — إنه التحمّل. تمّ تدريب GLM-5.1 تحديدًا من أجل التنفيذ المستقل المستدام. حيث قد يتوقف GPT-5.4 وClaude Opus عن التحسّن بعد محاولات أولية واعدة، يواصل GLM-5.1 التكرار. نفّذ 655+ دورة تحسين في جلسة واحدة مدتها 8 ساعات. حسّن قاعدة بيانات متجهية إلى 6.9× في الإنتاجية عبر 600+ تكرار. هذا ليس نموذجًا يمنحك مسوّدة أولى جيدة — إنه نموذج يمنحك مسوّدة نهائية جيدة، حتى لو احتاج مئات المحاولات للوصول إليها.

نقاط القوة الرئيسية

SWE-Bench Pro المركز الأول (58.4): المعيار المرجعي الحاسم للبرمجة الحقيقية. GLM-5.1 أول نموذج مفتوح يتصدّره، متفوقًا على Claude Opus 4.6 ‏(57.3) وGPT-5.4 ‏(57.7). ليس اختبارًا تصنيعيًا — مشكلات GitHub حقيقية من مستودعات إنتاجية.
جلسات وكيلية 8+ ساعات: حيث تتوقف النماذج الأخرى عن التحسّن بعد المكاسب الأولى، يواصل GLM-5.1 التحسّن عبر 655+ تكرارًا وآلاف استدعاءات الأدوات. بنى تطبيق ويب مكتبي لينكس كاملاً من الصفر في جلسة واحدة.
ترخيص MIT — مفتوح بالكامل: حمّله من Hugging Face وانشره تجاريًا دون طلب إذن. لا قيود استخدام ولا رسوم ملكية. نموذج البرمجة المتقدّم الوحيد الذي يمكنك استضافته بنفسك.
200 ألف سياق، 128 ألف+ مخرجات: أدخل قواعد أكواد كاملة كسياق، واحصل على إعادة كتابة متعددة الملفات. مخرجات كافية لتتبّعات الوكلاء الكاملة.
CyberGym 68.7: معيار وكيلي مُركّز على الأمن. قفزة 20 نقطة عن GLM-5، متفوقًا على Claude Opus 4.6 ‏(66.6) وGPT-5.4 ‏(66.3).

لمحة عن المعايير

SWE-Bench Pro — 58.4 (رقم قياسي)معيار هندسة البرمجيات الحقيقية. GLM-5.1 يتصدّر جميع النماذج — المفتوحة والمغلقة — متفوقًا على Claude Opus 4.6 ‏(57.3) وGPT-5.4 ‏(57.7).
CyberGym — 68.7معيار الأمن والمهام الوكيلية. يتفوق على Claude Opus 4.6 ‏(66.6) وGPT-5.4 ‏(66.3) — 20 نقطة فوق GLM-5.
البنية المعمارية — 754B MoE / 40B نشطخليط الخبراء مع التخلخل الديناميكي. 40 مليار معامل فقط تنشط لكل رمز، مما يجعل الاستدلال المستضاف ذاتيًا ممكنًا مع التكميم.

قيود صادقة

نصّي فقط: المدخلات والمخرجات نصّية حصرًا — لا صور ولا صوت ولا فيديو. لمهام الرؤية، تُقدّم Z.ai النموذج المنفصل GLM-5V-Turbo.
متطلبات الأجهزة: حوالي 754 مليار معامل إجمالي مع 40 مليار نشط لكل رمز. إعدادات متعددة البطاقات (4× بطاقات عالية المستوى) مطلوبة. حتى مع التكميم، توقّع متطلبات VRAM عالية.
تأخير وضع التفكير: التحسينات الوكيلية تضيف عبء استدلال على الاستفسارات البسيطة. عطّل وضع التفكير للمهام السريعة.
فجوة المنظومة الغربية: التوثيق وأدوات المجتمع بالإنجليزية تتحسّن لكنها أقل نضجًا من المنظومة الناطقة بالصينية.

الحكم: النموذج الذي كسر سقف الشيفرة المغلقة في معايير البرمجة — ويمكنك تشغيله بنفسك. إذا كان SWE-Bench Pro هو الامتحان النهائي لنماذج البرمجة، فإن GLM-5.1 حصل للتوّ على أعلى درجة بينما كان الطالب الوحيد الذي شارك ملاحظاته مع الصف. للفرق الهندسية القادرة على تحمّل متطلبات العتاد، إنه أفضل نموذج برمجة لا تحتاج أن تدفع مقابل كل رمز فيه.