GPT-5.5

OpenAI · Publié April 23, 2026

9.8 /10 Note globale

Ce que c'est réellement

Voici la réalité de l’IA de programmation en 2026 : les benchmarks qui comptaient avant ne sont plus ceux qui comptent maintenant. SWE-Bench Pro teste si un modèle peut corriger proprement un seul issue GitHub. C’est important — mais ce n’est pas ce dont la plupart des développeurs ont réellement besoin. La plupart ont besoin d’un modèle capable de prendre un ticket vague, d’explorer un dépôt chaotique, de planifier une approche, d’utiliser des outils, d’écrire du code dans plusieurs fichiers, de le tester et d’itérer jusqu’à ce que ça marche. C’est Terminal-Bench. Et GPT-5.5 le domine.

Terminal-Bench 2.0 à 82,7 % n’est pas qu’un chiffre — c’est un écart de 13 points sur Claude Opus 4.7 (69,4 %). Expert-SWE à 73,1 % signifie que GPT-5.5 résout des tâches qui prennent aux ingénieurs seniors une journée complète ou plus. Et il le fait en utilisant 40 % de tokens de sortie en moins que GPT-5.4 — vos sessions Codex sont plus rapides et moins chères par tâche malgré le prix par token doublé.

Points Forts

Terminal-Bench 2.0 — 82,7 % : Le benchmark pour la programmation agentique et les workflows en terminal. GPT-5.5 écrase Opus 4.7 (69,4 %) et Gemini 3.1 Pro (68,5 %) par des marges à deux chiffres. Cela teste ce qui compte vraiment : donnez au modèle une tâche chaotique dans un vrai terminal et voyez s’il la termine.
Expert-SWE — 73,1 % : Des tâches qui prennent aux ingénieurs seniors une médiane de 20 heures. GPT-5.5 en résout 73,1 %, contre 68,5 % pour GPT-5.4. Le benchmark qui sépare la « bonne autocomplétion » du « véritable partenaire d’ingénierie ».
FrontierMath Tier 4 — 35,4 % : Le niveau le plus difficile de raisonnement mathématique. Opus 4.7 atteint 22,9 %, Gemini 16,7 %. GPT-5.5 mène par une marge massive — crucial pour déboguer des problèmes algorithmiques inédits.
40 % de tokens de sortie en moins : Même latence que GPT-5.4, mais il communique plus efficacement. Sur les tâches Codex, cela se traduit par de réelles améliorations de vitesse et de coût malgré le prix par token doublé.
Contexte de 1M + intégration Codex : Chargez des monorepos entiers. Le modèle lit votre architecture, comprend vos patterns et écrit du code qui s’intègre — pas du boilerplate générique. Codex obtient 400K de contexte avec lecture d’écran native et utilisation d’outils.

Aperçu des Benchmarks

Terminal-Bench 2.0 — 82,7 % Programmation agentique et workflows en terminal. 13+ points devant Opus 4.7 (69,4 %) — le plus grand écart sur tout benchmark de programmation majeur.
Expert-SWE — 73,1 % Tâches d'ingénierie à long terme (médiane de 20 heures). En hausse par rapport aux 68,5 % de GPT-5.4. Prouve que le modèle maintient la qualité sur un travail complexe.
SWE-Bench Pro — 58,6 % Issues GitHub de niveau production. Amélioré de 57,7 %, mais Claude Opus 4.7 mène toujours à 64,3 %. L'écart honnête.
FrontierMath Tier 4 — 35,4 % Niveau le plus difficile de raisonnement mathématique. 12,5 points devant Opus 4.7 (22,9 %). Crucial pour la conception d'algorithmes inédits.

Limites Honnêtes

SWE-Bench Pro — 58,6 % : Claude Opus 4.7 mène toujours à 64,3 %. Pour le débogage étroit et à hauts enjeux et les refactorisations architecturalement complexes, Opus reste le roi de la profondeur. GPT-5.5 gagne le workflow ; Opus gagne le scalpel.
Prix API doublé : 5 $/M en entrée, 30 $/M en sortie. Pro à 30 $/180 $. L’efficacité des tokens aide, mais les longues sessions agentiques s’accumulent. Budgétisez avant de construire.
API pas encore disponible : Au lancement, GPT-5.5 n’est que dans ChatGPT et Codex. L’accès API arrive « très bientôt » — si vous construisez des pipelines automatisés, vous attendez.
Prudence sur les hallucinations : Un rapport indépendant précoce a signalé des taux d’hallucination élevés. Pour du code de production touchant des systèmes critiques, coupler avec une revue approfondie.

Le Verdict: Le roi agentique de la programmation. GPT-5.5 ne gagne pas chaque benchmark étroit — Opus 4.7 possède toujours la profondeur SWE-Bench Pro — mais il domine la catégorie qui compte pour 90 % des développeurs en 2026 : mener un travail complexe, ambigu et multi-fichiers à terme avec un minimum de supervision. Terminal-Bench 82,7 % est le titre, mais la vraie histoire c’est Expert-SWE 73,1 % sur des tâches qui prennent 20 heures aux humains. Donnez-lui un dépôt chaotique et allez vous promener.