GPT-5.4 — Thinking

By OpenAI · Updated

ما هو في الواقع

GPT-5.4 Thinking هو نموذج حدودي عام من OpenAI فاز بمعايير البرمجة دون أن يكون مصمماً خصيصاً لها — تخيّل عشاريّاً أولمبياً يحمل أيضاً الرقم القياسي العالمي في سباق 100 متر. ليس متخصصاً في البرمجة كـ Codex، لكنه يتفوق عليه في المعايير الأهم. الفكرة بسيطة: نموذج واحد يفكّر فعلاً قبل أن يكتب. يقرأ المستودع بالكامل، يفهم البنية المعمارية، ويكتب شيفرة تنسجم مع الأنماط الموجودة — كل ذلك بنافذة سياق تتسع لمليون رمز. والنتيجة؟ SWE-Bench Pro 57.7% — متجاوزاً GPT-5.3-Codex (56.8%) الذي صُمّم أصلاً للبرمجة فقط.

نقاط القوة الرئيسية

SWE-Bench Pro 57.7%: نموذج عام يتفوق على المتخصص — مشاكل هندسية حقيقية من مستودعات GitHub إنتاجية.
نافذة سياق بمليون رمز: يمكنك تحميل مشروع كامل في جلسة واحدة. لا حاجة لتجزئة الملفات أو اختصار السياق.
توفير 47% من الرموز: استخدام الأدوات الأصلية يخفض تكلفة API بنحو النصف — فارق ضخم في الجلسات الوكيلية الطويلة.
أسرع 1.5 مرة في Codex: ينفّذ المهام البرمجية أسرع من GPT-5.3-Codex في بيئة Codex ذاتها.
ARC-AGI-2 — 73.3% (Pro 83.3%): استدلال حقيقي وليس مطابقة أنماط — يحل مشاكل لم يرها من قبل.

لمحة عن المعايير

SWE-Bench Pro — 57.7%نموذج عام يتجاوز المتخصص (Codex 56.8%). مشاكل هندسية واقعية من GitHub.
GPQA Diamond — 92.8%أعلى نتيجة مسجلة في اختبار علمي بمستوى الدكتوراه — يتفوق على كل المنافسين.
OSWorld — 75.0%أتمتة واجهة المستخدم عبر تطبيقات سطح المكتب — يتعامل مع أدوات التطوير كما يفعل المهندس.

قيود صادقة

تكاليف API أعلى: 2.50$/مليون رمز إدخال و15$/مليون رمز إخراج. سياق المليون يُحسب بالضعف في Codex.
Opus لا يزال ملك البنية: في عمليات إعادة الهيكلة الكبرى، ينتج Claude Opus 4.6 شيفرة أكثر اتساقاً معمارياً.
الجدة: نموذج جديد لم يُختبر في الإنتاج بقدر Opus أو Codex بعد. توقّع مفاجآت.

الحكم: عشاريّ يفوز بسباق السرعة. GPT-5.4 Thinking يثبت أن الذكاء العام يتفوق أحياناً على التخصص الضيق. إن كنت تبحث عن نموذج واحد يفهم الشيفرة والسياق والمنطق معاً — فهذا هو الخيار الأقوى الآن. لكن احسب التكلفة قبل أن تُطلقه على مستودعك.