Qwen3.6 — 27B

By Alibaba (Qwen Team) · Updated

الموقع الرسمي

ما هو في الواقع

أطلق فريق Qwen للتو النموذج الذي كان مجتمع الذكاء الاصطناعي المحلي ينتظره. Qwen3.6-27B هو نموذج كثيف بـ 27 مليار معامل يقدم ما يبدو مستحيلاً: يتفوق على نموذج Alibaba الرائد بـ 397 مليار (Qwen3.5-397B-A17B) في كل معيار مهم للبرمجة الوكيلية — SWE-bench Verified، SWE-bench Pro، Terminal-Bench 2.0، SkillsBench — بينما يعمل على معالج رسومي واحد من فئة RTX 3090.

ليس تحديثاً تدريجياً. قفزة Terminal-Bench 2.0 وحدها (41.6 → 59.3) تمثل تحسناً بنسبة 43% في سير عمل الطرفية العملية — نوع مهام البرمجة الواقعية التي تحدد ما إذا كان النموذج المحلي مفيداً حقاً. أضف فهماً أصلياً للصور والفيديو، وميزة «حفظ التفكير» الجديدة التي تحافظ على تماسك الاستدلال عبر المحادثات متعددة الجولات، ونفس نافذة السياق الأصلية البالغة 262 ألف رمز (قابلة للتوسيع لأكثر من مليون).

مشاعر المجتمع تروي القصة: r/LocalLLaMA يصفه بـ «نقطة تحول للاستدلال المحلي» و«أكبر إصدار في العام حتى الآن». ترخيص Apache 2.0، تكميمات GGUF متاحة بالفعل عبر Unsloth، نفس بصمة معالج الرسومي. عصر التنازلات مع الذكاء الاصطناعي المحلي انتهى — مرة أخرى.

نقاط القوة الرئيسية

  • يتغلب على نموذج 397 مليار بـ 27 مليار: SWE-bench Verified 77.2، SWE-bench Pro 53.5، Terminal-Bench 2.0 59.3، SkillsBench Avg5 48.2 — Qwen3.6-27B يتفوق على Qwen3.5-397B-A17B الخاص بـ Alibaba (نموذج أكبر بـ 15 مرة) في كل معيار مهم للبرمجة الوكيلية.
  • قفزة هائلة في سير عمل الطرفية والعمل الوكيلي: Terminal-Bench 2.0 قفز من 41.6 (في Qwen3.5-27B) إلى 59.3 — تحسن بنسبة 43%. SWE-bench Verified ارتفع من 75.0 إلى 77.2. هذه تعكس وكيل برمجة أكثر قدرة جوهرياً.
  • متعدد الوسائط أصلي مع حفظ التفكير: صور وفيديو وOCR ونص في نموذج واحد، بالإضافة إلى ميزة جديدة تحتفظ بسياق الاستدلال عبر تاريخ المحادثة.
  • 262 ألف رمز سياق أصلي (قابل للتوسيع لأكثر من مليون): نفس نافذة السياق السخية مثل سلفه، مع تحسين في الحفاظ على الجودة عبر المدخلات الطويلة.
  • ترخيص Apache 2.0 + دعم GGUF من اليوم الأول: مفتوح بالكامل وبدون قيود تجارية. تكميمات GGUF من Unsloth أصبحت متاحة خلال ساعات من الإصدار.
لمحة عن المعايير
  • البرمجة الوكيلية — SWE-bench Verified 77.2المعيار الذهبي لهندسة البرمجيات في العالم الحقيقي. Qwen3.6-27B يسجل أعلى من نموذج Alibaba الرائد بـ 397 مليار معامل.
  • سير عمل الطرفية — Terminal-Bench 2.0: 59.3قفزة بنسبة 43% من 41.6 في Qwen3.5-27B. يقيس مهام التطوير العملية المبنية على الطرفية.
  • الاستدلال — GPQA Diamond 87.8استدلال على مستوى الدراسات العليا ينافس نماذج أكبر بـ 10 مرات. ارتفع من 85.5 في Qwen3.5-27B.

قيود صادقة

  • ~17-20 جيجابايت VRAM في 4-بت: نفس النطاق مثل Qwen3.5-27B. ممتاز على بطاقات 24 جيجابايت (RTX 4090، 5090)، لكن على أجهزة محدودة جداً بـ 16 جيجابايت بدون معالج رسومي مخصص، النماذج الأصغر ستظل أكثر استجابة.
  • إصدار حديث جداً — نظام التكميم لا يزال يستقر: تكميمات Unsloth GGUF وصلت بسرعة، لكن النظام الكامل للتنسيقات المُحسّنة (AWQ، GPTQ، ExLlamaV2) لا يزال يتوالى.
  • وضع التفكير قد يكون مُسهباً: آثار الاستدلال قوية لكنها أحياناً مفرطة في المهام البسيطة. قابل للتبديل — استخدم وضع عدم التفكير للاستعلامات السريعة.
  • ليس تماماً على مستوى النماذج المغلقة المتقدمة في أصعب المهام: في معايير الوكلاء ذات الأفق الطويل الأكثر تطرفاً، Claude Opus وGPT-5.2 لا يزالان يتقدمان بفارق طفيف. لكن لأكثر من 95% من العمل الحقيقي، لن تلاحظ الفرق.

الحكم: تاج الذكاء الاصطناعي المحلي ينتقل — داخل نفس العائلة. Qwen3.6-27B يأخذ كل ما جعل Qwen3.5-27B قائد الفئة ويدفع كل مؤشر للأمام: برمجة وكيلية أفضل بشكل جذري (Terminal-Bench +43%)، استدلال أقوى (GPQA 87.8)، متعدد وسائط محسّن مع حفظ التفكير، ويعمل على نفس معالج الرسومي للمستهلك. إذا كنت تستخدم Qwen3.5-27B بالفعل، هذه ترقية واضحة. وإن لم تكن، فهذه إشارتك للبدء.