Claude Fable 5

Anthropic · Veröffentlicht June 9, 2026

9.9 /10 Gesamtbewertung

Was es wirklich ist

Es gibt eine Zahl, die dieses Review einfach zu schreiben macht: 80,3%. Das ist Claude Fable 5 auf SWE-Bench Pro — dem Benchmark, dem Spielzeugprobleme egal sind und der nur misst, ob KI echte Bugs in echten Produktions-Codebasen beheben kann. GPT-5.5 erreicht 58,6%. Der bisherige König, Opus 4.8, kam auf 69,2%. Fable 5 gewinnt nicht einfach — es gewinnt mit einem Vorsprung, bei dem man die Zahlen nochmal überprüft.

Aber SWE-Bench Pro ist nur die halbe Geschichte. FrontierCode Diamond — Cognitions Benchmark dafür, ob Modelle token-effizienten, produktionsreifen Code schreiben können — erzählt die andere Hälfte. Fable 5: 29,3%. Opus 4.8: 13,4%. GPT-5.5: 5,7%. Das ist kein Vorsprung; das ist eine andere Sportart. Und das Modell erreicht diese Werte bei mittlerem Reasoning-Aufwand, was bedeutet, dass es weniger Token verbrennt, um besseren Code zu produzieren. Das teure Modell, das pro realer Aufgabe tatsächlich günstiger ist.

Die Stripe-Fallstudie ist keine Pressemitteilungs-Fantasie. Eine 50-Millionen-Zeilen-Ruby- Codebasis — die Art von Monolith, bei der Entwickler ins Schwitzen kommen — wurde an einem einzigen Tag migriert. Arbeit, für die ein ganzes Team zwei Monate gebraucht hätte. Das Modell plante, führte aus, verifizierte sich selbst und lieferte ab. Auf CursorBench sagte Cursors CEO, es habe „eine Klasse von Langzeit-Problemen eröffnet, die für frühere Modelle unerreichbar waren." Auf dem Senior Engineer Benchmark erzielte es 91/100 — während GPT-5.5 und Opus 4.8 beide in den niedrigen 60ern landeten.

So sieht Mythos-Klasse-Architektur aus, wenn man sie in Sicherheitsleitplanken verpackt und Entwicklern in die Hand gibt. Die Leitplanken sind real — Anfragen zu Cybersicherheit, Biologie und Chemie werden an Opus 4.8 weitergeleitet (immer noch exzellent, aber nicht der volle Motor). Aber für die mehr als 95% der Programmierarbeit, die keine Sicherheitsklassifikatoren auslösen, arbeiten Sie mit dem leistungsfähigsten Modell, das je der Öffentlichkeit zugänglich gemacht wurde. Die Ära des agentischen Programmierens hat gerade ihren klarsten Champion bekommen.

Zentrale Stärken

SWE-Bench Pro 80,3% — der neue SOTA: Der Benchmark, der reale Software-Entwicklung testet, hat gerade einen neuen Allzeitrekord. Fable 5 führt vor GPT-5.5 (58,6%) mit 21,7 Punkten und vor seinem Vorgänger Opus 4.8 (69,2%) mit 11,1 Punkten. Das ist kein knappes Rennen — das ist eine andere Liga.
FrontierCode Diamond 29,3% — Token-Effizienz neu definiert: Cognitions Benchmark für produktionsreifen Code zeigt Fable 5 bei 29,3%, Opus 4.8 bei 13,4% und GPT-5.5 bei 5,7%. Das Modell erreicht Spitzenwerte sogar bei mittlerem Reasoning-Aufwand — weniger Token-Verbrauch für bessere Ergebnisse.
Praxisbeweis mit 50 Millionen Zeilen: Stripe nutzte Fable 5, um eine 50-Millionen-Zeilen-Ruby-Codebasis an einem Tag zu migrieren — Arbeit, für die ein ganzes Team zwei Monate gebraucht hätte. Kein Benchmark. Keine Demo. Produktionscode in einer Produktions-Codebasis.
Vision-natives Programmieren: Baut Web-Apps allein aus Screenshots nach. Extrahiert präzise Zahlen aus wissenschaftlichen Abbildungen. Spielte Pokémon FireRed nur mit Vision durch — keine Hilfs-Harnesses, keine Spielstanddaten. Das Modell liest Ihren Bildschirm und programmiert anhand dessen, was es sieht.
Langfristige autonome Arbeit: Plant, delegiert an Sub-Agenten, schreibt und führt eigene Tests aus und korrigiert sich selbst über mehrtägige Sitzungen hinweg. Persistenter dateibasierter Speicher verbesserte die Slay the Spire-Leistung um 3× mehr als bei Opus 4.8. Es startet nicht nur stark — es bleibt stark.

Benchmark-Übersicht

SWE-Bench Pro — 80.3% (SOTA) Reale Software-Entwicklung. 21,7 Punkte über GPT-5.5 (58,6%) und 11,1 Punkte über Opus 4.8 (69,2%). Der größte Vorsprung, den je ein Modell auf dem maßgeblichen Coding-Benchmark gehalten hat.
FrontierCode Diamond — 29.3% (SOTA) Token-effizienter, produktionsreifer Code. 2,2× Opus 4.8 (13,4%) und 5,1× GPT-5.5 (5,7%). Erreicht Spitzenleistung schon bei mittlerem Reasoning-Aufwand.
Senior Engineer Benchmark — 91/100 Übertrifft GPT-5.5 (62/100) und Opus 4.8 (63/100) mit massivem Abstand. Aufgaben, die Senior-Level-Ingenieursurteil testen.
CursorBench — SOTA State-of-the-Art auf Cursors Benchmark für IDE-integriertes Programmieren. 'Hat eine Klasse von Langzeit-Problemen eröffnet, die für frühere Modelle unerreichbar waren.'

Ehrliche Einschränkungen

⚠️ Zugang für Nicht-US-Bürger ausgesetzt: Am 12. Juni 2026 hat die US-Regierung eine Exportkontroll-Anordnung erlassen, die den gesamten Zugang zu Fable 5 und Mythos 5 für alle ausländischen Staatsangehörigen aussetzt — ob innerhalb oder außerhalb der USA. Anthropic musste das Modell für alle Kunden deaktivieren, um die Vorschriften einzuhalten. Alle anderen Anthropic-Modelle bleiben verfügbar. Anthropic widerspricht der Anordnung und arbeitet an der Wiederherstellung des Zugangs. Aktuelle Informationen finden Sie in der verlinkten Ankündigung.
Premium-Kosten: $10/$50 pro Million Token ist ungefähr 2× Opus 4.8 ($5/$25). Token-Effizienz gleicht dies bei komplexen Aufgaben teilweise aus, aber Gelegenheitsnutzer werden die Rechnung spüren. Pro-Abonnenten erhalten inkludierten Zugang bis 22. Juni, danach Guthaben.
Sicherheits-Routing bei markierten Themen: Anfragen zu Cybersicherheit, Biologie, Chemie oder Modelldestillation werden automatisch an Opus 4.8 weitergeleitet. Greift bei <5% der Sitzungen mit einigen Fehlalarmen. Legitime Sicherheitsforscher benötigen möglicherweise das eingeschränkte Mythos 5 über Project Glasswing.
Drittanbieter-Evals kommen noch: Anthropics eigene Benchmarks sind detailliert und reich an Beispielen, aber vollständige LMSYS Arena- und Artificial Analysis-Zahlen sind am Launchtag noch nicht verfügbar. Erste Anzeichen sind sehr positiv.
Am besten in der richtigen Umgebung: Fable 5 glänzt am hellsten in Claude Code und API-Integrationen. Das claude.ai-Chat-Erlebnis ist stark, aber die agentischen Fähigkeiten des Modells entfalten sich erst mit der richtigen Tooling-Umgebung.

Das Fazit: Die Coding-Krone hat den Besitzer gewechselt — eindeutig. Claude Fable 5 schlägt GPT-5.5 auf SWE-Bench Pro nicht einfach — es schlägt es um 21,7 Punkte. Es führt FrontierCode Diamond nicht einfach an — es führt um das 5-Fache. Und anders als synthetische Benchmark-Siege sind die Praxis-Belege bereits da: 50 Millionen migrierte Zeilen an einem Tag, Vision-only Spielabschluss, autonome mehrtägige Engineering-Sitzungen. Das vorherige Opus 4.8 war der Skalpell-König; Fable 5 ist der Skalpell-König, der auch den gesamten Operationssaal leitet. Ja, es kostet 2× mehr pro Token. Ja, <5% der Sitzungen werden aus Sicherheitsgründen an Opus 4.8 weitergeleitet. Aber für die Art von tiefer, komplexer, langfristiger Ingenieursarbeit, die professionelle Softwareentwicklung im Jahr 2026 definiert — dies ist das stärkste Coding-Modell, auf das jeder zugreifen kann. Punkt.