GPT-5.4 — Thinking

By OpenAI · Updated

Ce que c'est réellement

Il y a une règle non écrite en IA : les modèles généralistes ne sont pas censés battre les spécialistes. GPT-5.4 Thinking brise cette règle. Le modèle frontière unifié d’OpenAI n’a pas été conçu comme outil de programmation — il a été conçu comme outil pour tout — et pourtant il égale ou surpasse les modèles dédiés au code sur les benchmarks qui comptent le plus. C’est comme un décathlonien qui détient aussi le record du monde du 100 mètres. GPT-5.4 ne complète pas votre fonction ; il réfléchit à l’architecture, planifie des modifications multi-fichiers, utilise des outils pour la recherche documentaire et exécute des tâches de programmation agentiques qui durent des heures — pas des minutes. Avec une fenêtre de contexte de 1M de tokens et une utilisation native d’outils qui réduit la consommation de tokens de 47 %, il peut garder votre monorepo entier en mémoire tout en coûtant moins par tâche que prévu.

Points Forts

SWE-Bench Pro 57,7 % : Le benchmark d’ingénierie logicielle le plus exigeant, testant des problèmes complexes issus de dépôts de production. Dépasse les 56,8 % de GPT-5.3-Codex — un généraliste qui bat un spécialiste.
Fenêtre de 1M de tokens : Environ 750 000 mots de code et de documentation dans une seule session. Chargez des codebases entières et raisonnez dessus sans fragmentation.
47 % d’économie de tokens : La recherche native d’outils réduit le contexte redondant, faisant consommer moins de tokens aux workflows agentiques. Le coût réel par tâche baisse malgré des prix par token plus élevés.
1,5x plus rapide dans Codex : Les améliorations de vitesse de génération accélèrent sensiblement les tâches de programmation. Les testeurs rapportent résoudre des bugs complexes en heures au lieu de jours.
Modélisation tableur 87,3 % : Contre 68,4 % pour GPT-5.2. Modélisation financière, transformation de données et génération de formules améliorées drastiquement.

Limites Honnêtes

Coûts d’API plus élevés : 2,50 $/M en entrée, 15 $/M en sortie. Niveau Pro à 30 $/M en entrée, 180 $/M en sortie. Les sessions agentiques longues s’accumulent vite.
Friction de cyberprotection : Le code lié à la sécurité (pentesting, analyse d’exploits) peut déclencher des faux positifs dans le système de sécurité.
1M de contexte au tarif double dans Codex : La fenêtre de contexte complète compte les tokens au double dans l’environnement Codex. Votre fenêtre de 1M coûte effectivement comme 2M.
Étendue vs. profondeur : Malgré des scores de benchmark leaders, des modèles spécialisés comme Opus 4.6 produisent encore du code plus cohérent architecturalement dans les refactorisations massives. GPT-5.4 gagne en étendue ; Opus en profondeur.

Le Verdict: Le nouveau numéro 1, surprenant. GPT-5.4 Thinking n’a pas été conçu comme modèle de programmation, mais son score SWE-Bench Pro, sa fenêtre de 1M de tokens et son utilisation native d’outils en font l’assistant de programmation le plus complet disponible. Il n’égalera pas la profondeur architecturale d’Opus 4.6 dans les refactorisations massives, mais pour le spectre complet des tâches professionnelles de programmation, c’est le nouveau standard.