GPT-5.5
البرمجةنموذج البرمجة الوكيلي الذي لا يكتفي بالإكمال التلقائي — بل يخطط ويستخدم أدوات ويصحح الأخطاء عبر الملفات ويُنهي مهمة المستودع الفوضوي بينما تتمشى. Terminal-Bench 82.7% ليس خطأ مطبعياً.
Terminal-Bench 2.0 82.7% (يسحق 69.4% لـ Opus 4.7)؛ Expert-SWE 73.1% في مهام 20 ساعة؛ FrontierMath Tier 4 35.4%؛ ~40% رموز إخراج أقل؛ سياق بمليون رمز مع استخدام أصلي للأدوات وتكامل Codex.
سعر API مضاعف (5$/30$ لكل مليون رمز)؛ متأخر عن Claude Opus 4.7 في SWE-Bench Pro (58.6% مقابل 64.3%)؛ API غير متاحة عند الإطلاق؛ تقارير هلوسة مبكرة تحتاج تحققاً.