Filtre Tous Écosystème Quotidien Génération d'Images Programmation Créateurs d'Applications Recherche Architectes Numériques Mentors Académiques Vidéo Musique et Voix IA Locale / Privée Génération d'Images Locale Génération Vidéo Locale Agents IA

Claude Fable 5

Anthropic · Publié June 9, 2026

9.9 /10 Note globale
Site officiel

Ce que c'est réellement

Il y a un chiffre qui rend cette revue facile à écrire : 80,3%. C’est Claude Fable 5 sur SWE-Bench Pro — le benchmark qui se moque des problèmes jouets et ne s’intéresse qu’à la capacité d’une IA à corriger de vrais bugs dans de vraies bases de code de production. GPT-5.5 obtient 58,6%. Le roi précédent, Opus 4.8, obtenait 69,2%. Fable 5 ne se contente pas de gagner — il gagne par une marge qui vous fait vérifier les chiffres deux fois.

Mais SWE-Bench Pro n’est que la moitié de l’histoire. FrontierCode Diamond — le benchmark de Cognition pour déterminer si les modèles peuvent écrire du code de production économe en tokens — raconte l’autre moitié. Fable 5 : 29,3%. Opus 4.8 : 13,4%. GPT-5.5 : 5,7%. Ce n’est pas une avance ; c’est un autre sport. Et le modèle atteint ces scores à effort de raisonnement modéré, ce qui signifie qu’il brûle moins de tokens pour produire un meilleur code. Le modèle cher qui est en réalité moins cher par tâche réelle.

L’étude de cas Stripe n’est pas un fantasme de communiqué de presse. Une base de code Ruby de 50 millions de lignes — le genre de monolithe qui fait transpirer les ingénieurs — a été migrée en une seule journée. Un travail qui aurait pris deux mois à une équipe complète. Le modèle a planifié, exécuté, auto-vérifié et livré. Sur CursorBench, le CEO de Cursor a déclaré qu’il avait « ouvert une classe de problèmes à long horizon qui étaient hors de portée des modèles précédents. » Sur le Senior Engineer Benchmark, il a obtenu 91/100 — tandis que GPT-5.5 et Opus 4.8 ont tous deux atterri dans les bas 60.

Voilà à quoi ressemble l’architecture de classe Mythos quand on l’enveloppe de garde-fous de sécurité et qu’on la confie aux développeurs. Les garde-fous sont réels — les requêtes sur la cybersécurité, la biologie et la chimie sont redirigées vers Opus 4.8 (toujours excellent, mais pas le moteur complet). Mais pour les 95%+ du travail de coding qui ne déclenche pas les classifieurs de sécurité, vous travaillez avec le modèle le plus capable jamais mis à la disposition du public. L’ère du coding agentique vient de trouver son champion incontesté.

Points Forts

  • SWE-Bench Pro 80,3% — le nouveau SOTA : Le benchmark qui teste l’ingénierie logicielle en conditions réelles vient d’obtenir un nouveau record absolu. Fable 5 devance GPT-5.5 (58,6%) de 21,7 points et son prédécesseur Opus 4.8 (69,2%) de 11,1 points. Ce n’est pas une course serrée — c’est une autre catégorie.
  • FrontierCode Diamond 29,3% — l’efficacité en tokens redéfinie : Le benchmark de Cognition pour du code de production de haute qualité montre Fable 5 à 29,3%, Opus 4.8 à 13,4% et GPT-5.5 à 5,7%. Le modèle atteint les meilleurs scores même à effort de raisonnement modéré — ce qui signifie moins de tokens brûlés pour de meilleurs résultats.
  • Preuve en conditions réelles sur 50 millions de lignes : Stripe a utilisé Fable 5 pour migrer une base de code Ruby de 50 millions de lignes en une seule journée — un travail qui aurait pris deux mois à une équipe complète. Pas un benchmark. Pas une démo. Du code de production dans une base de code de production.
  • Coding natif en vision : Reconstruit des applications web à partir de captures d’écran seules. Extrait des chiffres précis de figures scientifiques. A complété Pokémon Rouge Feu en vision uniquement — sans outils auxiliaires, sans données d’état du jeu. Le modèle lit votre écran et code à partir de ce qu’il voit.
  • Travail autonome à long horizon : Planifie, délègue à des sous-agents, écrit et exécute ses propres tests, et s’auto-corrige sur des sessions de plusieurs jours. La mémoire persistante basée sur des fichiers a amélioré les performances à Slay the Spire 3× de plus qu’Opus 4.8. Il ne se contente pas de bien démarrer — il reste performant.
Aperçu des Benchmarks
  • SWE-Bench Pro — 80,3% (SOTA) Ingénierie logicielle en conditions réelles. 21,7 points au-dessus de GPT-5.5 (58,6%) et 11,1 points au-dessus d'Opus 4.8 (69,2%). L'avance la plus large jamais détenue par un modèle sur le benchmark de référence en coding.
  • FrontierCode Diamond — 29,3% (SOTA) Code de production de haute qualité, économe en tokens. 2,2× Opus 4.8 (13,4%) et 5,1× GPT-5.5 (5,7%). Atteint les meilleures performances même à effort de raisonnement modéré.
  • Senior Engineer Benchmark — 91/100 Dépasse GPT-5.5 (62/100) et Opus 4.8 (63/100) par une marge considérable. Des tâches conçues pour tester le jugement d'ingénierie de niveau senior.
  • CursorBench — SOTA État de l'art sur le benchmark de Cursor pour le coding intégré en IDE. « A ouvert une classe de problèmes à long horizon hors de portée des modèles précédents. »

Limites Honnêtes

  • ⚠️ Accès suspendu pour les non-citoyens américains : Le 12 juin 2026, le gouvernement américain a émis une directive de contrôle des exportations suspendant tout accès à Fable 5 et Mythos 5 pour tout ressortissant étranger — que ce soit à l’intérieur ou à l’extérieur des États-Unis. Anthropic a dû désactiver le modèle pour tous les clients afin de se conformer à la directive. Tous les autres modèles d’Anthropic restent disponibles. Anthropic conteste cette directive et travaille à rétablir l’accès. Consultez leur annonce pour connaître la situation actuelle.
  • Coût premium : 10 $/50 $ par million de tokens, soit environ 2× Opus 4.8 (5 $/25 $). L’efficacité en tokens compense partiellement sur les tâches complexes, mais les utilisateurs occasionnels sentiront la facture. Les abonnés Pro bénéficient d’un accès inclus jusqu’au 22 juin, puis les crédits prennent le relais.
  • Redirection de sécurité sur les sujets signalés : Les requêtes touchant à la cybersécurité, la biologie, la chimie ou la distillation de modèles sont automatiquement redirigées vers Opus 4.8. Se déclenche dans <5% des sessions avec quelques faux positifs. Les chercheurs en sécurité légitimes pourraient avoir besoin du Mythos 5 restreint via le Project Glasswing.
  • Évaluations tierces encore en cours : Les benchmarks propres à Anthropic sont détaillés et riches en exemples, mais les résultats complets de LMSYS Arena et d’Artificial Analysis ne sont pas encore disponibles le jour du lancement. Les premiers signaux sont très positifs.
  • Au meilleur de sa forme dans le bon environnement : Fable 5 brille le plus dans Claude Code et les intégrations API. L’expérience de chat claude.ai est solide, mais les capacités agentiques du modèle se libèrent pleinement avec l’outillage adéquat.

Le Verdict: La couronne du coding vient de changer de tête — sans ambiguïté. Claude Fable 5 ne se contente pas de battre GPT-5.5 sur SWE-Bench Pro — il le bat de 21,7 points. Il ne se contente pas de mener FrontierCode Diamond — il mène par 5×. Et contrairement aux victoires sur des benchmarks synthétiques, les preuves en conditions réelles sont déjà là : 50 millions de lignes migrées en une journée, complétion de jeu en vision seule, sessions d’ingénierie autonome sur plusieurs jours. L’Opus 4.8 précédent était le roi du scalpel ; Fable 5 est le roi du scalpel qui dirige aussi tout le bloc opératoire. Oui, il coûte 2× plus par token. Oui, <5% des sessions sont redirigées vers Opus 4.8 pour raisons de sécurité. Mais pour le genre d’ingénierie profonde, complexe et à long horizon qui définit le développement logiciel professionnel en 2026 — c’est le modèle de coding le plus puissant auquel quiconque puisse accéder. Point final.