Qwen 3.7 Max
Alibaba Cloud · تم الإصدار 19 مايو 2026
ما هو في الواقع
إليكم ما هو مثير بشأن 19 مايو 2026: أطلقت Alibaba نموذجاً لا يحاول أن يكون الأفضل في كل شيء — وربما هذا بالتحديد ما يجعله بارعاً جداً في الشيء الوحيد الذي يفعله.
Qwen 3.7 Max هو ما يحدث عندما تُصمم نموذجاً خصيصاً للمشكلة التي تتعامل معها معظم نماذج البرمجة كأمر ثانوي: ماذا يحدث بعد الساعة السادسة؟ بعد استدعاء الأداة رقم 500؟ بعد أن يكون النموذج قد أمضى وقتاً في تصحيح الأخطاء والتجميع والاختبار والتكرار بشكل ذاتي لفترة أطول من يوم عمل معظم المطورين؟
الإجابة، على ما يبدو، هي أنه يستمر. العرض التوضيحي الرئيسي — جلسة تحسين نواة استمرت 35 ساعة على عتاد لم يسبق للنموذج رؤيته — ليس مجرد استعراض معياري. إنه بيان حول ما تعنيه “البرمجة الوكيلية” فعلاً عندما تتوقف عن استخدامها ككلمة تسويقية رنانة. 1,158 استدعاء أدوات. 432 دورة تجميع-اختبار-تكرار. تشخيص ذاتي للأخطاء. وفي النهاية: تسريع بمعدل 10 أضعاف مقارنة بتطبيق Triton المرجعي، دون أن يلمس إنسان واحد لوحة المفاتيح.
المعايير تروي قصة متسقة. SWE-Bench Pro 60.6% يضعه في نفس المحادثة مع Claude Opus 4.6 وDeepSeek V4 Pro Max — ليس في الصدارة، لكنه يجلس على نفس الطاولة. Terminal-Bench 2.0 بنتيجة 69.7 يتفوق فعلياً على DeepSeek بنتيجة 67.9. والنتائج الأولية لـ Code Arena WebDev تُظهر ~1541 Elo، متفوقاً بفارق ضئيل على Claude Opus 4.6 بنتيجة 1538 في مواجهات تطوير الويب المباشرة.
لكن العامل المميز الحقيقي ليس أي رقم بعينه — إنه القرار المعماري بتحسين التماسك المستدام عبر جلسات الماراثون. معظم النماذج الرائدة تبدأ بقوة ثم يتراجع أداؤها بعد بضع مئات من استدعاءات الأدوات. صُمم Qwen 3.7 Max للعكس تماماً: أداء ثابت عبر جلسات من شأنها أن تجعل النماذج الأخرى تنسى ما كانت تفعله قبل ثلاث ساعات.
العيب؟ إنه متاح عبر API فقط، وتلك الجلسات الممتدة ليست رخيصة. أفاد أحد المتبنين الأوائل بإنفاقه $43 في 15 دقيقة من البرمجة الذاتية المكثفة. والتقييمات المستقلة تُظهر تبايناً أكبر من المعايير الرسمية — سجّل Vals AI نتيجة 68.8% على مجموعة فرعية من SWE-Bench Verified مقابل 80.4% التي أعلنتها Alibaba. الفجوة بين “أفضل نتيجة معيارية” و"بعد ظهر يوم ثلاثاء عادي" حقيقية.
ومع ذلك، بالنسبة للفرق التي تُشغّل أنابيب ذاتية طويلة — تحسين CI/CD، أو إعادة هيكلة مستودعات متعددة، أو أي مهمة تتطلب من النموذج الحفاظ على تماسكه عبر آلاف الخطوات — فهذا أول نموذج صُمم فعلاً لهذا النوع من سير العمل بدلاً من إضافته كميزة لاحقة.
نقاط القوة الرئيسية
- جلسات ذاتية لمدة 35 ساعة: العرض التوضيحي الرئيسي: تحسين نواة ذاتي بالكامل على عتاد لم يسبق للنموذج رؤيته. 1,158 استدعاء أدوات، 432 دورة تكرار، تشخيص ذاتي لأخطاء التجميع، وتحقيق تسريع هندسي بمعدل 10 أضعاف مقارنة بمرجع Triton. لم يتدخل أي إنسان لمدة 35 ساعة متواصلة.
- SWE-Bench Pro 60.6%: معيار هندسة البرمجيات الواقعي — مشكلات حقيقية من GitHub في مستودعات إنتاجية. يضع Qwen 3.7 Max في نفس فئة Claude Opus 4.6 وDeepSeek V4 Pro Max، أعلى بكثير مما تحققه معظم النماذج المملوكة.
- نافذة سياق بمليون Token: حمِّل مستودعات أكواد كاملة، أو بُنى متعددة الملفات، أو مجموعات توثيق ضخمة. بالاقتران مع سرعة الاستدلال (أكثر من 210 Token/ثانية)، يتعامل مع قواعد أكواد ضخمة دون فقدان السياق الذي يعاني منه النماذج ذات السياق الأقصر.
- توافق مع أُطر العمل المتعددة: يعمل فوراً مع Claude Code وOpenClaw وQwen Code وأي نقطة نهاية متوافقة مع OpenAI/Anthropic. لا حاجة لتكامل مخصص — أدخله مكان نموذجك الحالي، وستعمل بنية الوكيل الخاصة بك كما هي.
- قدرات رياضية واستدلالية من الطراز الأول: GPQA Diamond 92.4%، Humanity’s Last Exam 41.4، HMMT 2026 97.1%. الاستدلال الرياضي الذي يدعم توليد الأكواد هو بحق من مستوى النماذج الرائدة — لا يكتب الأكواد فحسب، بل يستدل حول الخوارزميات.
-
SWE-Bench Pro — 60.6% هندسة برمجيات واقعية. منافس لـ Claude Opus 4.6 وDeepSeek V4 Pro Max في مشكلات GitHub الإنتاجية. أداء قوي لنموذج متخصص في البرمجة الوكيلية من الجيل الأول.
-
Terminal-Bench 2.0 Terminus — 69.7 مهام هندسة سطر الأوامر. يتفوق على DeepSeek V4 Pro Max (67.9) ومعظم النماذج الغربية الرائدة. يُظهر كفاءة حقيقية في البرمجة على مستوى الأنظمة.
-
Code Arena WebDev — ~1541 Elo تصنيفات المواجهة المباشرة في تطوير الويب. ضمن أفضل 4 عالمياً — يتفوق على Claude Opus 4.6 (1538) في النتائج الأولية. يُثبت قدرات واقعية في تطوير الويب تتجاوز المعايير الاصطناعية.
قيود صادقة
- API فقط، بدون أوزان مفتوحة: على عكس Kimi K2.6 أو نماذج Qwen مفتوحة المصدر، فإن 3.7 Max نموذج مملوك. لا يمكنك استضافته ذاتياً أو فحص الأوزان أو تشغيله بدون اتصال. Alibaba Cloud Model Studio أو OpenRouter هما خياراك الوحيدان.
- التكلفة تتراكم بسرعة: ~$1.25–2.50/مليون Token مدخل، $7.50/مليون Token مخرج. جلسات الوكيل الممتدة بآلاف استدعاءات الأدوات تستنزف الميزانية بسرعة. التخزين المؤقت يساعد، لكن خطط ميزانيات Token بعناية للاستخدام الوكيلي المكثف.
- تباين في الأداء الواقعي: المعايير الرسمية تُظهر أرقاماً قريبة من الأفضل، لكن التقييمات المستقلة (Vals AI: 68.8% على مجموعة فرعية من SWE-Bench Verified مقابل 80.4% المُعلَنة) وتقارير المستخدمين تُظهر تبايناً أكبر مما يوحي به جدول التصنيف.
- فجوات في واجهات المستخدم/التصميم: نتيجة Code Arena WebDev Elo ممتازة (~1541)، لكن نتائج Design Arena (~1310 Elo) تكشف أن هذا نموذج هندسي بالدرجة الأولى. لأعمال الواجهات الأمامية المثالية بكسلياً، لا يزال Claude Opus 4.7 في الصدارة.
الحكم: النموذج الذي أثبت أن البرمجة الوكيلية ليست مجرد ميزة — بل فئة بحد ذاتها. بينما يُضيف Claude وGPT-5.5 قدرات وكيلية إلى نماذج عامة الأغراض، بُني Qwen 3.7 Max من الأساس لجلسات الـ 35 ساعة وآلاف استدعاءات الأدوات التي قد تفقد فيها النماذج الأخرى تماسكها. إذا كان سير عملك يتضمن إعادة هيكلة ملفات متعددة، أو أنابيب CI/CD طويلة، أو تحسين أكواد ذاتي، فهذا هو المتخصص الذي تحتاجه. فقط راقب فاتورة API.