Claude Opus 4.8

Anthropic · Veröffentlicht May 28, 2026

9.7 /10 Gesamtbewertung

Was es wirklich ist

Es gibt eine Zahl, die diese Bewertung einfach macht: 69,2%. Das ist Opus 4.8 auf SWE-Bench Pro — dem Benchmark, der sich nicht für Spielzeugprobleme interessiert, nur dafür, ob eine KI echte Bugs in echten Produktionscodebasen beheben kann. GPT-5.5 erreicht 58,6%. Opus 4.7 erreichte 64,3%. Gemini 3.1 Pro schafft 54,2%.

Der Abstand ist nicht nur groß — er ist peinlich für die Konkurrenz.

Heute (28. Mai 2026) veröffentlicht, baut Claude Opus 4.8 auf allem auf, was 4.7 zum Coding-König machte, und behebt alles, was es zurückhielt. Die Hybrid-Reasoning-Engine ist schärfer. Die Selbstverifikationsschleifen sind 4× zuverlässiger beim Erkennen von Bugs, bevor sie ausgeliefert werden. Und das neue Effort-Control-System bedeutet, dass Sie endlich wählen: schnell denken oder tief denken.

Das Highlight-Feature sind aber Dynamic Workflows. Claude Code kann jetzt Hunderte paralleler Sub-Agenten starten — jeder bearbeitet einen Teil einer massiven Codebase-Migration, Bug-Suche oder Sprachportierung. Es ist das Nächste, was KI an einem echten Engineering-Team hat. Und auf dem Super-Agent-Benchmark ist Opus 4.8 das einzige Modell, das jeden einzelnen Testfall end-to-end abschließt.

Der ehrliche Vorbehalt? GPT-5.5 gewinnt weiterhin bei Terminal-Bench (78,2% vs 74,6%) — wenn Ihr Workflow schnelle Shell-Iteration ist, hat OpenAI die Nase vorn. Und die tieferen Denkprozesse bedeuten höheren Token-Verbrauch bei komplexen Aufgaben. Aber für die tiefe, Multi-Datei-, “liefer ein echtes Feature”-Engineering-Arbeit — die Art, die wirklich zählt — ist Opus 4.8 in einer eigenen Liga.

Zentrale Stärken

SWE-Bench Pro 69,2% (SOTA): Der Benchmark, der misst, ob KI echte Bugs in echten Codebasen beheben kann. Opus 4.8 führt mit 10,6 Punkten vor GPT-5.5 (58,6%), 4,9 Punkten vor Opus 4.7 (64,3%) und 15,0 Punkten vor Gemini 3.1 Pro (54,2%). Der größte Vorsprung, den je ein Modell auf diesem Benchmark hatte.
Selbstverifikation, die funktioniert: 4× seltener lässt es Code-Fehler unkommentiert durch. Opus 4.8 erkennt eigene Fehler, widerspricht wenn ein Plan nicht stimmig ist, und berichtet Fortschritt ehrlich statt Fertigstellung zu halluzinieren. Die ‘Ich bin fertig’-Lüge früherer Modelle ist weitgehend verschwunden.
Dynamic Workflows: Claude Code kann jetzt Hunderte paralleler Sub-Agenten für große Aufgaben starten und verwalten — Codebase-Migrationen, Bug-Sweeps, Sprachportierungen. Denken Sie an KI-Projektmanagement, nicht nur Codegenerierung.
100% Super-Agent-Completion: Das einzige Modell, das jeden Fall end-to-end auf dem Super-Agent-Benchmark abschließt — alle früheren Opus-Modelle und GPT-5.5 schlagend. Agentische Zuverlässigkeit ist nicht mehr nur ein Schlagwort — sie ist messbar.
Effort Control: Sie wählen jetzt, wie intensiv es denkt — Default, Extra oder Max. Kein Kampf mehr mit dem ‘Faulheitsproblem’, das Opus 4.7 bei einfachen Aufgaben plagte. Schnell angefragt, schnell geliefert. Tief angefragt, tief geliefert.

Benchmark-Übersicht

SWE-Bench Pro — 69,2% (SOTA) Real-World-Softwareentwicklung. Der höchste Score aller Zeiten — schlägt GPT-5.5 (58,6%), Opus 4.7 (64,3%) und Gemini 3.1 Pro (54,2%). Ein Vorsprung von 10,6 Punkten vor dem nächsten Wettbewerber.
Terminal-Bench — 74,6% Schnelles Terminal-basiertes Coding. Stark, aber GPT-5.5 behält die Führung mit 78,2%. Opus glänzt bei tiefem Reasoning, GPT-5.5 bei schneller Iteration.
Super-Agent — 100% End-to-End agentische Aufgabenerledigung über Übersetzung, Deep Research, Präsentationserstellung und Analyse. Das einzige Modell, das jeden Fall abschließt.

Ehrliche Einschränkungen

Token-Kosten sind real: Gleiche Nominalpreise wie 4.7 ($5/$25 pro Million Token), aber tieferes Denken bei komplexen Aufgaben verbraucht mehr Token. Der Tokenizer bläht Kosten bei Code-lastigen Prompts weiterhin um 15–35% auf.
Terminal-Bench-Lücke: GPT-5.5 führt mit 78,2% vs Opus 4.8s 74,6% bei schnellen Terminal-Iterationsaufgaben. Wenn Ihr Workflow hauptsächlich Shell-getrieben ist, hat GPT-5.5 die Nase vorn.
Latenz bei schweren Problemen: Tiefere Denkprozesse bedeuten längere Wartezeiten bei komplexen Aufgaben. Fast Mode (2,5× Geschwindigkeit, 3× günstiger) hilft bei leichteren Arbeiten, aber die härtesten Probleme erfordern Geduld.
Strikte Sicherheitsmaßnahmen: Erweiterte Cybersecurity-Schutzmaßnahmen blockieren bestimmte riskante Code-Muster. Legitime Sicherheitsforscher können auf falsch-positive Ergebnisse stoßen.

Das Fazit: Die Coding-Krone — ohne Sternchen. Opus 4.7 war der unbestrittene König schwieriger Engineering-Probleme, stolperte aber bei einfachen. Opus 4.8 behebt beides — der SWE-Bench-Pro-Vorsprung wächst zum Abgrund (69,2% vs GPT-5.5s 58,6%), während Effort Control die ‘Faulheits’-Beschwerden eliminiert. Die Selbstverifikation ist die eigentliche Geschichte: ein Modell, das seine eigenen Bugs findet, bevor Sie es tun. GPT-5.5 gewinnt weiterhin bei Terminal-Speed, aber für die Art tiefer Multi-Datei-Engineering-Arbeit, die tatsächlich Features ausliefert — das ist es.