Claude Opus 4.7
Anthropic · Veröffentlicht April 16, 2026
Was es wirklich ist
Es gibt eine Zahl, die diese Bewertung einfach macht: 64,3%. Das ist Opus 4.7 auf SWE-Bench Pro — dem Benchmark, der sich nicht für Spielzeugprobleme interessiert, sondern nur dafür, ob eine KI echte Bugs in echten Produktionscodebasen fixen kann. GPT-5.4 erreicht 57,7%. Kimi K2.6 erreicht 58,6%. Opus 4.6 erreichte 53,4%.
Der Abstand ist nicht knapp. Er ist nicht einmal wettbewerbsfähig. Es ist ein Kategoriebruch.
Am 16. April 2026 veröffentlicht, ist Claude Opus 4.7 das, was Anthropic ein „Hybrid-Reasoning-Modell" nennt — ein System, das dynamisch anpasst, wie intensiv es denkt. Der neue „xhigh"-Anstrengungsmodus lässt Entwickler dem Modell explizit sagen, bei schwierigen Problemen tiefer zu denken. Und auf CursorBench — echte Coding-Sitzungen mit echten Entwicklern in einer echten IDE — erreicht es 70%, gestiegen von 58% bei Opus 4.6.
Aber die ehrliche Bewertung erfordert ehrliche Vorbehalte. Dieses Modell wurde für schwere, mehrstufige Engineering-Arbeit optimiert, und man spürt es überall sonst. Einfache Prompts bekommen manchmal weniger Aufwand als bei 4.6. Der neue Tokenizer erhöht die Kosten um 15–35%. Dies ist kein universelles Upgrade — es ist ein Spezialist, der zufällig der beste Spezialist ist, den wir je gesehen haben.
Zentrale Stärken
- SWE-Bench Pro 64,3% (SOTA): Der Benchmark, der misst, ob KI echte Bugs in echten Codebasen fixen kann. Opus 4.7 führt nicht nur — es führt mit 5,7 Punkten Vorsprung vor GPT-5.4 (57,7%) und 10,9 Punkten vor Opus 4.6 (53,4%).
- CursorBench 70%: Kein synthetischer Benchmark — echte Cursor-IDE-Sitzungen mit echten Entwicklern. Opus 4.7 erzielte 70% vs. Opus 4.6s 58%.
- Hybrid Reasoning mit ‘xhigh’-Anstrengung: Ein neuer Anstrengungsmodus, der Latenz gegen tieferes Nachdenken bei wirklich schwierigen Problemen tauscht.
- Hochauflösende Vision (3,75 MP): Dichte Screenshots, Architekturdiagramme, Fehlerdialoge oder ganze Dashboards bis 2576px Auflösung eingeben.
- Agentische Autonomie: Multi-Datei-Edits, Tool-Use-Ketten, Selbstverifikation — Opus 4.7 bewältigt komplexe autonome Workflows mit merklich weniger Handführung als 4.6.
-
SWE-Bench Pro — 64,3% (SOTA) Real-World-Softwareentwicklung. Der höchste Score aller Zeiten — schlägt GPT-5.4 (57,7%), Kimi K2.6 (58,6%) und Opus 4.6 (53,4%). Der Abstand ist enorm.
-
CursorBench — 70% Echte IDE-Coding-Sitzungen mit echten Entwicklern. Opus 4.7 sprang 12 Punkte über Opus 4.6 (58%).
-
SWE-Bench Verified — 87,6% Kuratierte Teilmenge von SWE-Bench mit verifizierten Lösungen. Opus 4.7 führt alle Modelle an, gestiegen von Opus 4.6s 80,8%.
Ehrliche Einschränkungen
- Token-Inflation: Der neue Tokenizer erhöht die realen Kosten um 15–35% bei Code-lastigen Prompts im Vergleich zu Opus 4.6 bei gleichen Nominalpreisen.
- ‘Faul’ bei einfachen Prompts: Adaptives Reasoning bedeutet manchmal weniger Aufwand bei einfachen Anfragen. Power-User müssen explizit höhere Effort-Level setzen.
- Langkontext-Rückschritte: Manche Nutzer berichten von schwächerer Erinnerung im 100K–1M-Token-Bereich verglichen mit 4.6.
- Strengere Sicherheitsmaßnahmen: Erweiterte Cybersecurity-Schutzmaßnahmen blockieren bestimmte riskante Code-Muster.
Das Fazit: Der unbestrittene Coding-König — mit einem Sternchen. Bei schwierigen Engineering-Problemen ist Opus 4.7 in einer eigenen Liga. Der SWE-Bench-Pro-Vorsprung vor GPT-5.4 ist der größte zwischen zwei Frontier-Modellen dieses Jahr. Aber Anthropic hat dieses Modell für eine Sache optimiert — bei einfachen Prompts kann es sich ‘fauler’ anfühlen als 4.6, und die Token-Kosten sind real. Nutzen Sie es für die harten Sachen.