Claude Opus 4.7

Anthropic · Veröffentlicht April 16, 2026

9.6 /10 Gesamtbewertung

Was es wirklich ist

Es gibt eine Zahl, die diese Bewertung einfach macht: 64,3%. Das ist Opus 4.7 auf SWE-Bench Pro — dem Benchmark, der sich nicht für Spielzeugprobleme interessiert, sondern nur dafür, ob eine KI echte Bugs in echten Produktionscodebasen fixen kann. GPT-5.4 erreicht 57,7%. Kimi K2.6 erreicht 58,6%. Opus 4.6 erreichte 53,4%.

Der Abstand ist nicht knapp. Er ist nicht einmal wettbewerbsfähig. Es ist ein Kategoriebruch.

Am 16. April 2026 veröffentlicht, ist Claude Opus 4.7 das, was Anthropic ein „Hybrid-Reasoning-Modell" nennt — ein System, das dynamisch anpasst, wie intensiv es denkt. Der neue „xhigh"-Anstrengungsmodus lässt Entwickler dem Modell explizit sagen, bei schwierigen Problemen tiefer zu denken. Und auf CursorBench — echte Coding-Sitzungen mit echten Entwicklern in einer echten IDE — erreicht es 70%, gestiegen von 58% bei Opus 4.6.

Aber die ehrliche Bewertung erfordert ehrliche Vorbehalte. Dieses Modell wurde für schwere, mehrstufige Engineering-Arbeit optimiert, und man spürt es überall sonst. Einfache Prompts bekommen manchmal weniger Aufwand als bei 4.6. Der neue Tokenizer erhöht die Kosten um 15–35%. Dies ist kein universelles Upgrade — es ist ein Spezialist, der zufällig der beste Spezialist ist, den wir je gesehen haben.

Zentrale Stärken

SWE-Bench Pro 64,3% (SOTA): Der Benchmark, der misst, ob KI echte Bugs in echten Codebasen fixen kann. Opus 4.7 führt nicht nur — es führt mit 5,7 Punkten Vorsprung vor GPT-5.4 (57,7%) und 10,9 Punkten vor Opus 4.6 (53,4%).
CursorBench 70%: Kein synthetischer Benchmark — echte Cursor-IDE-Sitzungen mit echten Entwicklern. Opus 4.7 erzielte 70% vs. Opus 4.6s 58%.
Hybrid Reasoning mit ‘xhigh’-Anstrengung: Ein neuer Anstrengungsmodus, der Latenz gegen tieferes Nachdenken bei wirklich schwierigen Problemen tauscht.
Hochauflösende Vision (3,75 MP): Dichte Screenshots, Architekturdiagramme, Fehlerdialoge oder ganze Dashboards bis 2576px Auflösung eingeben.
Agentische Autonomie: Multi-Datei-Edits, Tool-Use-Ketten, Selbstverifikation — Opus 4.7 bewältigt komplexe autonome Workflows mit merklich weniger Handführung als 4.6.

Benchmark-Übersicht

SWE-Bench Pro — 64,3% (SOTA) Real-World-Softwareentwicklung. Der höchste Score aller Zeiten — schlägt GPT-5.4 (57,7%), Kimi K2.6 (58,6%) und Opus 4.6 (53,4%). Der Abstand ist enorm.
CursorBench — 70% Echte IDE-Coding-Sitzungen mit echten Entwicklern. Opus 4.7 sprang 12 Punkte über Opus 4.6 (58%).
SWE-Bench Verified — 87,6% Kuratierte Teilmenge von SWE-Bench mit verifizierten Lösungen. Opus 4.7 führt alle Modelle an, gestiegen von Opus 4.6s 80,8%.

Ehrliche Einschränkungen

Token-Inflation: Der neue Tokenizer erhöht die realen Kosten um 15–35% bei Code-lastigen Prompts im Vergleich zu Opus 4.6 bei gleichen Nominalpreisen.
‘Faul’ bei einfachen Prompts: Adaptives Reasoning bedeutet manchmal weniger Aufwand bei einfachen Anfragen. Power-User müssen explizit höhere Effort-Level setzen.
Langkontext-Rückschritte: Manche Nutzer berichten von schwächerer Erinnerung im 100K–1M-Token-Bereich verglichen mit 4.6.
Strengere Sicherheitsmaßnahmen: Erweiterte Cybersecurity-Schutzmaßnahmen blockieren bestimmte riskante Code-Muster.

Das Fazit: Der unbestrittene Coding-König — mit einem Sternchen. Bei schwierigen Engineering-Problemen ist Opus 4.7 in einer eigenen Liga. Der SWE-Bench-Pro-Vorsprung vor GPT-5.4 ist der größte zwischen zwei Frontier-Modellen dieses Jahr. Aber Anthropic hat dieses Modell für eine Sache optimiert — bei einfachen Prompts kann es sich ‘fauler’ anfühlen als 4.6, und die Token-Kosten sind real. Nutzen Sie es für die harten Sachen.