تصفية الكل النظام البيئي اليومي توليد الصور البرمجة منشئو التطبيقات البحث المهندسون الرقميون الموجهون الأكاديميون فيديو موسيقى وصوت ذكاء اصطناعي محلي / خاص توليد الصور المحلي توليد الفيديو المحلي وكلاء ذكاء اصطناعي

Qwen-Image-2512

Alibaba (Qwen Team) · تم الإصدار December 2025

8.6 /10 التقييم العام
الموقع الرسمي

ما هو في الواقع

هناك ثورة هادئة تحدث في توليد الصور بالذكاء الاصطناعي، ولا علاقة لها بالخدمات السحابية أو الاشتراكات الشهرية. Qwen-Image-2512 — نموذج Alibaba مفتوح الأوزان بـ 27 مليار معامل — يمثل شيئاً جديداً حقاً: مولّد صور محلي لا يطلب منك التنازل عن الجودة لمجرد أنك تشغّله بنفسك.

الحيلة المعمارية هي دمج ثلاثة مكونات عادةً ما تعيش في نماذج منفصلة. محول انتشاري متعدد الوسائط بـ 20 مليار معامل يتولى التوليد الفعلي للصور — اعتبره الرسّام. نموذج لغوي بصري Qwen2.5-VL بـ 7 مليار معامل يعمل كمدير فني، يفهم بعمق أوامرك النصية والصور المرجعية والعلاقات الدلالية بينها. وVAE بـ 127 مليون معامل يتولى أعمال الترميز. معاً، يُنتجون صوراً بتماسك وقصدية تصعب مطابقتها على نماذج الانتشار البحتة.

النتائج تتحدث بالأرقام: تقييم Elo حوالي 1,130 على Arena.ai، الأعلى بين جميع النماذج مفتوحة الأوزان بترخيص Apache 2.0. هذا التصنيف يأتي من مقارنات تفضيل بشرية عمياء — أشخاص حقيقيون يختارون Qwen-Image على البدائل دون معرفة أي نموذج صنع أي صورة. حين يختار البشر مخرجاتك باستمرار، هذه ليست لعبة معايير؛ إنها جودة حقيقية.

المشكلة الصريحة هي الثقل — حسابياً ومعلوماتياً. سبعة وعشرون مليار معامل تحتاج عتاداً حقيقياً. ستريد بطاقة RTX 4090 مع تكميم INT4 كحد أدنى، وحتى ذلك ستعمل قرب الحد. وبينما ينمو المجتمع الناطق بالإنجليزية بسرعة، فهذا مشروع بالصينية أولاً جوهرياً. التوثيق والأوراق البحثية وأعمق النقاشات المجتمعية تحدث بالماندرين. لكن النماذج الجيدة تجذب مجتمعات عالمية، وQwen-Image متاح بالفعل على Hugging Face وModelScope وReplicate وComfyUI — الأدوات التي تعرفها بالفعل.

نقاط القوة الرئيسية

  • النموذج رقم 1 بترخيص Apache 2.0 على Arena.ai: بتقييم Elo حوالي 1,130، يتربع Qwen-Image-2512 على قمة كل لوحة تصنيف مفتوحة الأوزان ذات أهمية. إنه ليس جيداً فقط ‘لنموذج مفتوح’ — بل ينافس فعلاً الخدمات السحابية المملوكة.
  • بشر واقعيون فوتوغرافياً: الوجوه، الأيدي، ملمس البشرة، الشعر — نقاط الفشل الكلاسيكية في توليد الصور بالذكاء الاصطناعي — تُعالَج باتساق ملحوظ. العمود الفقري VLM يمنح النموذج فهماً لتشريح الجسم البشري تفتقر إليه نماذج الانتشار البحتة.
  • عرض نصوص ثنائي اللغة: يعرض نصوصاً مقروءة بالإنجليزية والصينية مباشرة في الصور. ملصقات المنتجات، اللافتات، نماذج واجهات المستخدم بأحرف CJK — النوع من المهام الذي يجعل معظم النماذج المفتوحة تُنتج طلاسم.
  • تكامل الرؤية واللغة: مكون Qwen2.5-VL بـ 7 مليار معامل لا يُولّد فحسب — بل يفهم. أعطه صورة مرجعية مع أمر نصي وسيستوعب العلاقات المكانية وإشارات الأسلوب والسياق الدلالي بطرق تعجز عنها نماذج الانتشار البحتة.
  • Apache 2.0 — مفتوح فعلاً: لا قيود استخدام، لا رسوم رخصة تجارية، لا متطلبات اتصال بالخادم. ضبطه، انشره، بِع المخرجات، ابنِ منتجاً فوقه — الرخصة تقول نعم لكل شيء.
لمحة عن المعايير
  • Arena.ai Elo — ~1,130 أعلى تقييم Elo بين جميع نماذج الصور مفتوحة الأوزان بترخيص Apache 2.0. مُصنَّف حسب تفضيل البشر في مقارنات عمياء، لا معايير اصطناعية — هذا يقيس ما يعتقد الناس فعلاً أنه يبدو أفضل.
  • Architecture — 27.1B (MMDiT 20B + VLM 7B + VAE 127M) بنية من ثلاث مراحل تجمع محول انتشاري متعدد الوسائط للتوليد، وQwen2.5-VL لفهم الأوامر النصية واستيعاب الصور، وVAE للترميز. تكامل VLM هو ما يفصله عن نماذج الانتشار البحتة.
  • Text rendering — Bilingual (EN/ZH) توليد نصوص مقروءة بالإنجليزية والصينية، بما في ذلك الملصقات متعددة الأسطر وتغليف المنتجات. الأداء يتراجع بأناقة مع التخطيطات المعقدة بدلاً من الانهيار الكامل.

قيود صادقة

  • متطلبات عتاد ثقيلة: 27 مليار معامل تعني حوالي 14GB من VRAM مع تكميم INT4 عنيف. واقعياً، تريد بطاقة RTX 4090 (24GB) أو أفضل. بطاقات الحواسيب المحمولة والبطاقات القديمة لا تصلح.
  • منظومة أصغر: FLUX وStable Diffusion لديهما سنوات من أدوات المجتمع وLoRAs وتكاملات سير العمل. Qwen-Image أحدث — توجد عُقد ComfyUI، لكن مكتبة LoRA والأدوات الخارجية لا تزال تلحق.
  • توثيق بالصينية أولاً: التوثيق الرسمي والأوراق البحثية والنقاشات المجتمعية بالصينية في الغالب. يوجد توثيق بالإنجليزية لكنه أقل كثافة. توقع بعض جلسات Google Translate.
  • سرعة التوليد: المحول الانتشاري بـ 20 مليار معامل ليس سريعاً. توقع 15-30 ثانية وأكثر لكل صورة على عتاد المستهلك، مقارنة بأقل من ثانية للنماذج الأخف مثل Z-Image.

الحكم: إذا أردت أفضل جودة صورة يمكنك تشغيلها على عتادك الخاص، فإن Qwen-Image-2512 هو الجواب — طالما أن عتادك يستطيع تحمّله. رخصة Apache 2.0 تعني حرية كاملة، وتصنيف Arena.ai يُثبت أن الجودة ليست نظرية، وتكامل VLM يمنحه ميزة معمارية حقيقية على منافسي الانتشار البحت. المقايضة واضحة: تحتاج قوة GPU جدية. إذا كانت لديك بطاقة RTX 4090 أو أفضل، فهذا نموذج الصور مفتوح الأوزان الذي يجب التغلب عليه. إذا لم تكن كذلك، انظر إلى FLUX.2 Klein أو Z-Image أولاً، ثم طوّر بطاقتك وعُد.