Claude Opus 4.7
Anthropic · Publié April 16, 2026
Ce que c'est réellement
Il y a un chiffre qui rend cette critique facile à écrire : 64,3%. C’est Opus 4.7 sur SWE-Bench Pro — le benchmark qui ne s’intéresse pas aux problèmes jouets, seulement à la capacité d’une IA à corriger de vrais bugs dans de vraies bases de code de production. GPT-5.4 obtient 57,7%. Kimi K2.6 obtient 58,6%. Opus 4.6 obtenait 53,4%.
L’écart n’est pas serré. Il n’est même pas compétitif. C’est une rupture de catégorie.
Publié le 16 avril 2026, Claude Opus 4.7 est ce qu’Anthropic appelle un « modèle de raisonnement hybride » — un système qui ajuste dynamiquement la profondeur de sa réflexion selon la difficulté du problème. Le nouveau niveau d’effort « xhigh » permet aux développeurs de dire explicitement au modèle de raisonner plus profondément. Et sur CursorBench — de vraies sessions de codage avec de vrais développeurs dans un vrai IDE — il obtient 70%, en hausse de 58% pour Opus 4.6.
Mais la critique honnête nécessite les mises en garde honnêtes. Ce modèle a été optimisé pour un travail d’ingénierie complexe et multi-étapes. Les prompts simples reçoivent parfois moins d’effort qu’avec 4.6. Le nouveau tokenizer gonfle les coûts de 15–35%. Ce n’est pas une mise à niveau universelle — c’est un spécialiste qui se trouve être le meilleur spécialiste que nous ayons jamais vu.
Points Forts
- SWE-Bench Pro 64,3% (SOTA) : Le benchmark qui mesure si l’IA peut corriger de vrais bugs dans de vraies bases de code. Opus 4.7 ne mène pas seulement — il mène avec 5,7 points d’avance sur GPT-5.4 (57,7%) et 10,9 points sur Opus 4.6 (53,4%).
- CursorBench 70% : Pas un benchmark synthétique — de vraies sessions IDE Cursor avec de vrais développeurs. Opus 4.7 a obtenu 70% vs. 58% pour Opus 4.6.
- Raisonnement hybride avec effort ‘xhigh’ : Un nouveau niveau d’effort qui échange la latence contre une réflexion plus profonde sur les problèmes vraiment difficiles.
- Vision haute résolution (3,75 MP) : Captures d’écran denses, diagrammes d’architecture, dialogues d’erreur ou tableaux de bord complets à résolution de 2576px.
- Autonomie agentique : Éditions multi-fichiers, chaînes d’outils, auto-vérification — Opus 4.7 gère des workflows autonomes complexes avec nettement moins de supervision que 4.6.
-
SWE-Bench Pro — 64,3% (SOTA) Génie logiciel réel. Le score le plus élevé jamais enregistré — bat GPT-5.4 (57,7%), Kimi K2.6 (58,6%) et Opus 4.6 (53,4%). L'écart est énorme.
-
CursorBench — 70% Vraies sessions de codage IDE avec de vrais développeurs. Opus 4.7 a bondi de 12 points au-dessus d'Opus 4.6 (58%).
-
SWE-Bench Verified — 87,6% Sous-ensemble curé de SWE-Bench avec solutions vérifiées. Opus 4.7 mène tous les modèles.
Limites Honnêtes
- Inflation de tokens : Le nouveau tokenizer augmente les coûts réels de 15–35% sur les prompts lourds en code par rapport à Opus 4.6 au même prix nominal.
- ‘Paresseux’ sur les prompts faciles : Le raisonnement adaptatif investit parfois moins d’effort sur les requêtes simples. Les utilisateurs avancés doivent définir explicitement des niveaux d’effort plus élevés.
- Régressions en contexte long : Certains utilisateurs signalent un rappel plus faible dans la plage 100K–1M tokens comparé à 4.6.
- Garde-fous de sécurité renforcés : Des protections de cybersécurité améliorées bloquent certains modèles de code à haut risque.
Le Verdict: Le roi incontesté du codage — avec un astérisque. Sur les problèmes d’ingénierie difficiles, Opus 4.7 est dans une ligue à part. L’écart en SWE-Bench Pro sur GPT-5.4 est le plus grand entre deux modèles frontière cette année. Mais Anthropic a optimisé ce modèle pour une chose — sur les prompts simples, il peut sembler ‘plus paresseux’ que 4.6. Utilisez-le pour les tâches difficiles.