GPT-5.4 — Thinking

By OpenAI · Updated

الموقع الرسمي

ما هو في الواقع

GPT-5.4 Thinking هو نموذج حدودي عام من OpenAI فاز بمعايير البرمجة دون أن يكون مصمماً خصيصاً لها — تخيّل عشاريّاً أولمبياً يحمل أيضاً الرقم القياسي العالمي في سباق 100 متر. ليس متخصصاً في البرمجة كـ Codex، لكنه يتفوق عليه في المعايير الأهم. الفكرة بسيطة: نموذج واحد يفكّر فعلاً قبل أن يكتب. يقرأ المستودع بالكامل، يفهم البنية المعمارية، ويكتب شيفرة تنسجم مع الأنماط الموجودة — كل ذلك بنافذة سياق تتسع لمليون رمز. والنتيجة؟ SWE-Bench Pro 57.7% — متجاوزاً GPT-5.3-Codex (56.8%) الذي صُمّم أصلاً للبرمجة فقط.

نقاط القوة الرئيسية

  • SWE-Bench Pro 57.7%: نموذج عام يتفوق على المتخصص — مشاكل هندسية حقيقية من مستودعات GitHub إنتاجية.
  • نافذة سياق بمليون رمز: يمكنك تحميل مشروع كامل في جلسة واحدة. لا حاجة لتجزئة الملفات أو اختصار السياق.
  • توفير 47% من الرموز: استخدام الأدوات الأصلية يخفض تكلفة API بنحو النصف — فارق ضخم في الجلسات الوكيلية الطويلة.
  • أسرع 1.5 مرة في Codex: ينفّذ المهام البرمجية أسرع من GPT-5.3-Codex في بيئة Codex ذاتها.
  • ARC-AGI-2 — 73.3% (Pro 83.3%): استدلال حقيقي وليس مطابقة أنماط — يحل مشاكل لم يرها من قبل.
لمحة عن المعايير
  • SWE-Bench Pro — 57.7%نموذج عام يتجاوز المتخصص (Codex 56.8%). مشاكل هندسية واقعية من GitHub.
  • GPQA Diamond — 92.8%أعلى نتيجة مسجلة في اختبار علمي بمستوى الدكتوراه — يتفوق على كل المنافسين.
  • OSWorld — 75.0%أتمتة واجهة المستخدم عبر تطبيقات سطح المكتب — يتعامل مع أدوات التطوير كما يفعل المهندس.

قيود صادقة

  • تكاليف API أعلى: 2.50$/مليون رمز إدخال و15$/مليون رمز إخراج. سياق المليون يُحسب بالضعف في Codex.
  • Opus لا يزال ملك البنية: في عمليات إعادة الهيكلة الكبرى، ينتج Claude Opus 4.6 شيفرة أكثر اتساقاً معمارياً.
  • الجدة: نموذج جديد لم يُختبر في الإنتاج بقدر Opus أو Codex بعد. توقّع مفاجآت.

الحكم: عشاريّ يفوز بسباق السرعة. GPT-5.4 Thinking يثبت أن الذكاء العام يتفوق أحياناً على التخصص الضيق. إن كنت تبحث عن نموذج واحد يفهم الشيفرة والسياق والمنطق معاً — فهذا هو الخيار الأقوى الآن. لكن احسب التكلفة قبل أن تُطلقه على مستودعك.