Claude Opus 4.7

Anthropic · تم الإصدار April 16, 2026

9.6 /10 التقييم العام

ما هو في الواقع

هناك رقم يجعل كتابة هذه المراجعة سهلة: 64.3%. هذا هو Opus 4.7 على SWE-Bench Pro — المعيار الذي لا يهتم بالمشاكل البسيطة، فقط ما إذا كان الذكاء الاصطناعي يستطيع إصلاح أخطاء حقيقية في قواعد كود إنتاجية حقيقية. GPT-5.4 يحقق 57.7%. Kimi K2.6 يحقق 58.6%. Opus 4.6 حقق 53.4%.

الفارق ليس قريباً. ليس حتى تنافسياً. إنه كسر فئة.

صدر في 16 أبريل 2026، Claude Opus 4.7 هو ما تسميه Anthropic “نموذج استدلال هجين” — نظام يعدّل ديناميكياً مدى عمق تفكيره بناءً على صعوبة المشكلة. مستوى الجهد الجديد “xhigh” يتيح للمطورين إخبار النموذج صراحةً بالتفكير أعمق. وعلى CursorBench — جلسات برمجة حقيقية مع مطورين حقيقيين في IDE حقيقي — يحقق 70%، ارتفاعاً من 58% لـ Opus 4.6.

لكن المراجعة الصادقة تتطلب التحفظات الصادقة. هذا النموذج مُحسّن للعمل الهندسي المعقد متعدد الخطوات. الاستعلامات البسيطة تحصل أحياناً على جهد أقل مما كانت تحصل عليه في 4.6. المرمّز الجديد يزيد التكاليف 15–35%. هذا ليس ترقية شاملة — إنه متخصص يصادف أنه أفضل متخصص رأيناه على الإطلاق.

نقاط القوة الرئيسية

SWE-Bench Pro 64.3% (SOTA): المعيار الذي يقيس ما إذا كان الذكاء الاصطناعي يستطيع إصلاح أخطاء حقيقية في قواعد كود حقيقية. Opus 4.7 لا يتصدر فحسب — يتصدر بـ 5.7 نقاط أمام GPT-5.4 (57.7%) و10.9 نقاط أمام Opus 4.6 (53.4%).
CursorBench 70%: ليس معياراً صناعياً — جلسات Cursor IDE حقيقية مع مطورين حقيقيين. Opus 4.7 حقق 70% مقابل 58% لـ Opus 4.6.
استدلال هجين مع جهد ‘xhigh’: مستوى جهد جديد يتبادل زمن الاستجابة مقابل تفكير أعمق في المشاكل الصعبة حقاً.
رؤية عالية الدقة (3.75 ميغابكسل): لقطات شاشة كثيفة، مخططات معمارية، حوارات أخطاء أو لوحات تحكم كاملة بدقة تصل إلى 2576 بكسل.
استقلالية وكيلية: تعديلات متعددة الملفات، سلاسل أدوات، حلقات تحقق ذاتي — Opus 4.7 يتعامل مع سير العمل المستقل المعقد بإشراف أقل بكثير من 4.6.

لمحة عن المعايير

SWE-Bench Pro — 64.3% (SOTA) هندسة برمجيات واقعية. أعلى نتيجة سجّلها أي نموذج — يتفوق على GPT-5.4 (57.7%) وKimi K2.6 (58.6%) وOpus 4.6 (53.4%). الفارق هائل.
CursorBench — 70% جلسات برمجة IDE حقيقية مع مطورين حقيقيين. Opus 4.7 قفز 12 نقطة فوق Opus 4.6 (58%).
SWE-Bench Verified — 87.6% مجموعة فرعية منتقاة من SWE-Bench مع حلول مُتحقق منها. Opus 4.7 يتصدر جميع النماذج.

قيود صادقة

تضخم الرموز: المرمّز الجديد يزيد التكاليف الفعلية 15–35% على الاستعلامات الثقيلة بالكود مقارنة بـ Opus 4.6 بنفس الأسعار الاسمية.
‘كسول’ على الاستعلامات السهلة: الاستدلال التكيّفي يعني أحياناً جهداً أقل على الطلبات البسيطة. المستخدمون المتقدمون يحتاجون لتعيين مستويات جهد أعلى صراحةً.
تراجعات في السياق الطويل: بعض المستخدمين يبلّغون عن استدعاء أضعف في نطاق 100 ألف–مليون رمز مقارنة بـ 4.6.
حواجز أمان أقوى: حماية أمن سيبراني معززة تحجب أنماط كود عالية الخطورة.

الحكم: ملك البرمجة بلا منازع — مع نجمة. في مشاكل الهندسة الصعبة، Opus 4.7 في دوري خاص به. فارق SWE-Bench Pro عن GPT-5.4 هو الأكبر بين نموذجين حدوديين هذا العام. لكن Anthropic حسّنت هذا النموذج لشيء واحد — على الاستعلامات البسيطة قد يبدو ‘أكسل’ من 4.6. استخدمه للمهام الصعبة.