GPT-5.5
ProgrammationLe modèle de programmation agentique qui ne se contente pas d'autocompléter — il planifie, utilise des outils, débogue entre les fichiers et termine la tâche du dépôt chaotique pendant que vous promenez le chien. Terminal-Bench 82,7 % n'est pas une faute de frappe.
Terminal-Bench 2.0 82,7 % (écrase les 69,4 % d'Opus 4.7) ; Expert-SWE 73,1 % sur des tâches de 20 heures ; FrontierMath Tier 4 35,4 % ; ~40 % de tokens de sortie en moins ; contexte de 1M avec utilisation native d'outils et intégration Codex.
Prix API multiplié par 2 (5 $/30 $ par 1M de tokens) ; derrière Claude Opus 4.7 sur SWE-Bench Pro (58,6 % vs 64,3 %) ; API non disponible au lancement ; rapports précoces d'hallucination nécessitent vérification.