Claude Opus 4.8

Anthropic · تم الإصدار May 28, 2026

9.7 /10 التقييم العام

ما هو في الواقع

هناك رقم يجعل كتابة هذه المراجعة سهلة: 69.2%. هذا هو Opus 4.8 على SWE-Bench Pro — المعيار الذي لا يهتم بالمشاكل البسيطة، فقط ما إذا كان الذكاء الاصطناعي يستطيع إصلاح أخطاء حقيقية في قواعد كود إنتاجية حقيقية. GPT-5.5 يحقق 58.6%. Opus 4.7 حقق 64.3%. Gemini 3.1 Pro يدير 54.2%.

الفارق ليس واسعاً فحسب — إنه محرج للمنافسة.

صدر اليوم (28 مايو 2026)، Claude Opus 4.8 يبني على كل ما جعل 4.7 ملك البرمجة ويصلح كل ما أعاقه. محرك الاستدلال الهجين أكثر حدة. حلقات التحقق الذاتي أكثر موثوقية بـ 4 مرات في اكتشاف الأخطاء قبل تسليمها. ونظام التحكم بالجهد الجديد يعني أنك أخيراً تختار: فكّر سريعاً أو فكّر بعمق.

لكن الميزة الرئيسية هي Dynamic Workflows. Claude Code يمكنه الآن إطلاق مئات الوكلاء الفرعيين المتوازيين — كل منهم يتعامل مع جزء من هجرة ضخمة لقاعدة أكواد، أو مسح أخطاء، أو نقل لغة. إنه أقرب ما يملكه الذكاء الاصطناعي لفريق هندسة حقيقي. وعلى معيار Super-Agent، Opus 4.8 هو النموذج الوحيد الذي يكمل كل حالة اختبار end-to-end.

التحفظ الصادق؟ GPT-5.5 لا يزال يفوز على Terminal-Bench (78.2% مقابل 74.6%) — إذا كان سير عملك هو تكرار سريع في shell، فإن OpenAI لديها الأفضلية. ومسارات التفكير الأعمق تعني استهلاك رموز أعلى في المهام المعقدة. لكن للعمل الهندسي العميق، متعدد الملفات، من نوع “سلّم وظيفة حقيقية” — النوع الذي يهم فعلاً — Opus 4.8 في دوري خاص به.

نقاط القوة الرئيسية

SWE-Bench Pro 69.2% (SOTA): المعيار الذي يقيس ما إذا كان الذكاء الاصطناعي يستطيع إصلاح أخطاء حقيقية في قواعد كود حقيقية. Opus 4.8 يتصدر بـ 10.6 نقاط أمام GPT-5.5 (58.6%)، و4.9 نقاط أمام Opus 4.7 (64.3%)، و15.0 نقطة أمام Gemini 3.1 Pro (54.2%). أكبر تقدم حققه أي نموذج على هذا المعيار.
تحقق ذاتي يعمل فعلاً: أقل احتمالاً بـ 4 مرات لتمرير عيوب الكود دون الإشارة إليها. Opus 4.8 يكتشف أخطاءه، ويعترض عندما لا تكون الخطة منطقية، ويبلّغ عن التقدم بصدق بدلاً من ادّعاء الإنجاز. كذبة ‘انتهيت’ التي ابتليت بها النماذج السابقة اختفت إلى حد كبير.
Dynamic Workflows: Claude Code يمكنه الآن إطلاق وإدارة مئات الوكلاء الفرعيين المتوازيين للمهام واسعة النطاق — هجرات قواعد الأكواد، مسح الأخطاء، نقل اللغات. فكّر في إدارة مشاريع بالذكاء الاصطناعي، وليس مجرد توليد أكواد.
100% إنجاز Super-Agent: النموذج الوحيد الذي يُكمل كل حالة end-to-end على معيار Super-Agent، متفوقاً على جميع نماذج Opus السابقة وGPT-5.5. الموثوقية الوكيلية لم تعد مجرد شعار — إنها قابلة للقياس.
التحكم بالجهد: أنت الآن تختار مدى عمق تفكيره — Default أو Extra أو Max. لا مزيد من محاربة مشكلة ‘الكسل’ التي ابتلي بها Opus 4.7 في المهام البسيطة. اطلب سريعاً، تحصل على سريع. اطلب عميقاً، تحصل على عميق.

لمحة عن المعايير

SWE-Bench Pro — 69.2% (SOTA) هندسة برمجيات واقعية. أعلى نتيجة سجّلها أي نموذج — يتفوق على GPT-5.5 (58.6%) وOpus 4.7 (64.3%) وGemini 3.1 Pro (54.2%). تقدّم بـ 10.6 نقاط عن أقرب منافس.
Terminal-Bench — 74.6% برمجة سريعة قائمة على الطرفية. قوي، لكن GPT-5.5 يحتفظ بالصدارة عند 78.2%. Opus يتفوق في مهام الاستدلال العميق؛ GPT-5.5 في التكرار السريع.
Super-Agent — 100% إنجاز وكيلي end-to-end عبر الترجمة والبحث المعمّق وإنشاء العروض والتحليل. النموذج الوحيد الذي يُكمل كل حالة.

قيود صادقة

تكلفة الرموز حقيقية: نفس الأسعار الاسمية مثل 4.7 ($5/$25 لكل مليون رمز)، لكن التفكير الأعمق في المهام المعقدة يستهلك رموزاً أكثر. المرمّز لا يزال يضخّم التكاليف 15–35% على الاستعلامات الثقيلة بالكود.
فجوة Terminal-Bench: GPT-5.5 يتصدر بـ 78.2% مقابل 74.6% لـ Opus 4.8 في مهام التكرار السريع في الطرفية. إذا كان سير عملك يعتمد بشكل رئيسي على shell، فـ GPT-5.5 لديه الأفضلية.
زمن استجابة أطول في المشاكل الصعبة: مسارات التفكير الأعمق تعني انتظاراً أطول في المهام المعقدة. الوضع السريع (2.5× السرعة، 3× أرخص) يساعد في العمل الأخف، لكن المشاكل الأصعب تتطلب صبراً.
حواجز أمان صارمة: حماية أمن سيبراني معززة تحجب أنماط كود عالية الخطورة. الباحثون الأمنيون الشرعيون قد يواجهون نتائج إيجابية كاذبة.

الحكم: تاج البرمجة — بلا نجمة. Opus 4.7 كان الملك بلا منازع لمشاكل الهندسة الصعبة لكنه تعثّر في البسيطة. Opus 4.8 يصلح الجانبين — تقدم SWE-Bench Pro يتحول إلى هوّة (69.2% مقابل 58.6% لـ GPT-5.5)، بينما التحكم بالجهد يلغي شكاوى ‘الكسل’. تحسين التحقق الذاتي هو القصة الحقيقية: نموذج يجد أخطاءه قبل أن تجدها أنت. GPT-5.5 لا يزال يفوز في سرعة الطرفية، لكن للعمل الهندسي العميق متعدد الملفات الذي يُنتج وظائف حقيقية — هذا هو.