Claude Opus 4.8
Anthropic · Publié May 28, 2026
Ce que c'est réellement
Il y a un chiffre qui rend cette critique facile à écrire : 69,2%. C’est Opus 4.8 sur SWE-Bench Pro — le benchmark qui ne s’intéresse pas aux problèmes jouets, seulement à la capacité d’une IA à corriger de vrais bugs dans de vraies bases de code de production. GPT-5.5 obtient 58,6%. Opus 4.7 obtenait 64,3%. Gemini 3.1 Pro gère 54,2%.
L’écart n’est pas juste large — il est embarrassant pour la concurrence.
Publié aujourd’hui (28 mai 2026), Claude Opus 4.8 s’appuie sur tout ce qui a fait de 4.7 le roi du codage et corrige tout ce qui le retenait. Le moteur de raisonnement hybride est plus affûté. Les boucles d’auto-vérification sont 4× plus fiables pour détecter les bugs avant leur livraison. Et le nouveau système de contrôle de l’effort signifie que vous choisissez enfin : penser vite ou penser profond.
Mais la fonctionnalité phare, ce sont les Dynamic Workflows. Claude Code peut désormais déployer des centaines de sous-agents parallèles — chacun s’attaquant à une portion d’une migration massive de base de code, d’un ratissage de bugs ou d’un portage de langage. C’est ce qui se rapproche le plus d’une vraie équipe d’ingénierie IA. Et sur le benchmark Super-Agent, Opus 4.8 est le seul modèle à compléter chaque cas de test end-to-end.
La mise en garde honnête ? GPT-5.5 gagne toujours sur Terminal-Bench (78,2% vs 74,6%) — si votre workflow est de l’itération rapide en shell, OpenAI a l’avantage. Et les traces de raisonnement plus profondes signifient une consommation de tokens plus élevée sur les tâches complexes. Mais pour le travail d’ingénierie profond, multi-fichiers, celui qui « livre une vraie fonctionnalité » — le genre qui compte vraiment — Opus 4.8 est dans une ligue à part.
Points Forts
- SWE-Bench Pro 69,2% (SOTA) : Le benchmark qui mesure si l’IA peut corriger de vrais bugs dans de vraies bases de code. Opus 4.8 mène avec 10,6 points d’avance sur GPT-5.5 (58,6%), 4,9 points sur Opus 4.7 (64,3%) et 15,0 points sur Gemini 3.1 Pro (54,2%). La plus grande avance jamais détenue sur ce benchmark.
- Auto-vérification qui fonctionne vraiment : 4× moins susceptible de laisser passer des défauts de code sans les signaler. Opus 4.8 détecte ses propres erreurs, conteste quand un plan n’est pas solide et rapporte sa progression honnêtement au lieu d’halluciner l’achèvement. Le mensonge du « J’ai fini » qui affligeait les modèles précédents a largement disparu.
- Dynamic Workflows : Claude Code peut désormais déployer et gérer des centaines de sous-agents parallèles pour des tâches à grande échelle — migrations de bases de code, ratissages de bugs, portages de langages. Pensez gestion de projet IA, pas seulement génération de code.
- 100% completion Super-Agent : Le seul modèle à compléter chaque cas end-to-end sur le benchmark Super-Agent, battant tous les modèles Opus précédents et GPT-5.5. La fiabilité agentique n’est plus un argument commercial — elle est mesurable.
- Contrôle de l’effort : Vous choisissez maintenant l’intensité de la réflexion — Default, Extra ou Max. Fini le combat contre le problème de « paresse » qui affligeait Opus 4.7 sur les tâches simples. Demandez rapide, obtenez rapide. Demandez profond, obtenez profond.
-
SWE-Bench Pro — 69,2% (SOTA) Génie logiciel réel. Le score le plus élevé jamais enregistré — bat GPT-5.5 (58,6%), Opus 4.7 (64,3%) et Gemini 3.1 Pro (54,2%). 10,6 points d'avance sur le concurrent le plus proche.
-
Terminal-Bench — 74,6% Codage rapide basé sur le terminal. Fort, mais GPT-5.5 conserve l'avance à 78,2%. Opus excelle dans le raisonnement profond ; GPT-5.5 dans l'itération rapide.
-
Super-Agent — 100% Complétion agentique end-to-end incluant traduction, recherche approfondie, création de présentations et analyse. Le seul modèle à compléter chaque cas.
Limites Honnêtes
- Le coût en tokens est réel : Même tarification nominale que 4.7 ($5/$25 par million de tokens), mais la réflexion plus profonde sur les tâches complexes brûle plus de tokens. Le tokenizer gonfle encore les coûts de 15–35% sur les prompts lourds en code.
- Écart Terminal-Bench : GPT-5.5 mène à 78,2% contre 74,6% pour Opus 4.8 sur les tâches d’itération rapide en terminal. Si votre workflow est principalement shell, GPT-5.5 a l’avantage.
- Latence sur les problèmes difficiles : Les traces de raisonnement plus profondes signifient des attentes plus longues sur les tâches complexes. Le mode rapide (2,5× la vitesse, 3× moins cher) aide pour le travail léger, mais les problèmes les plus difficiles exigent de la patience.
- Garde-fous de sécurité stricts : Les protections de cybersécurité renforcées bloquent certains modèles de code à haut risque. Les chercheurs en sécurité légitimes peuvent rencontrer des faux positifs.
Le Verdict: La couronne du codage — sans astérisque. Opus 4.7 était le roi incontesté des problèmes d’ingénierie difficiles mais trébuchait sur les simples. Opus 4.8 corrige les deux côtés — l’avance sur SWE-Bench Pro devient un gouffre (69,2% vs 58,6% pour GPT-5.5), tandis que le contrôle de l’effort élimine les plaintes de « paresse ». L’amélioration de l’auto-vérification est la vraie histoire : un modèle qui trouve ses propres bugs avant vous. GPT-5.5 gagne encore en vitesse terminal, mais pour le travail d’ingénierie profond, multi-fichiers, celui qui livre vraiment des fonctionnalités — c’est lui.