Claude — Opus 4.8

Anthropic · Veröffentlicht May 28, 2026

9.9 /10 Gesamtbewertung

Was es wirklich ist

Wenn ChatGPT der Extrovertierte auf der Party ist und Gemini derjenige, der in der Ecke liest, ist Claude Opus 4.8 die ruhige, artikulierte Person, die tatsächlich zuhört — und Ihnen jetzt auch ehrlich sagt, wenn sie sich nicht sicher ist. Dieser zweite Teil ist neu, und er zählt mehr als jede Benchmark-Zahl.

Anthropics neuestes Flaggschiff verarbeitet nicht nur Informationen — es verarbeitet sie mit Integrität. Opus 4.8 halluziniert 4× seltener ein selbstsicheres „Ich bin fertig", wenn es das eigentlich nicht ist. Es markiert Unsicherheiten proaktiv. Es widerspricht falschen Annahmen, statt sie fröhlich auszuführen. In einer Welt, in der jedes KI-Modell behauptet, das beste zu sein, hat dieses die ungewöhnliche Auszeichnung, zuzugeben, wenn es sich nicht sicher ist.

Die technischen Verbesserungen sind auch real. Dynamic Workflows lassen einen Opus-Leitagenten Hunderte paralleler Sub-Agenten starten — einer analysiert Finanzen, ein anderer prüft Vertragsklauseln, ein dritter verfasst die Zusammenfassung, alles mit Checkpointing, damit nichts verloren geht. Effort Control bedeutet, dass Sie endlich die Tiefe wählen: schnelle Antwort, gründliche Analyse oder tiefe Recherche. Und das 1M-Token-Kontextfenster hält Ihre Dokumente nicht nur — es schlussfolgert darüber, ohne die „Lost in the Middle"-Probleme, die bei 4.7 auftraten.

Der Haken? Weiterhin derselbe. Sie zahlen für diese Qualität. Während ChatGPTs kostenloses Angebot großzügig ist und Gemini im Google-Abo enthalten ist, ist Claudes Free-Tier begrenzt. Das echte Opus-Erlebnis beginnt bei 20 $/Monat und skaliert bis 200 $/Monat. Aber für Fachleute, die nach Stunden abrechnen und Antworten brauchen, denen sie tatsächlich vertrauen können — die Rechnung hat sich nicht geändert. Sie ist weiterhin einfach.

Zentrale Stärken

Messbare Ehrlichkeit: Opus 4.8 halluziniert 4× seltener Fertigstellungsmeldungen. Es markiert Unsicherheiten proaktiv, widerspricht falschen Annahmen und sagt ‘Ich weiß nicht’, wenn das die ehrliche Antwort ist. Kein Marketingversprechen — der größte qualitative Sprung gegenüber 4.6 und 4.7.
1M-Token-Kontextfenster: 750.000 Wörter — zehn Romane, eine komplette Codebasis oder ein ganzes Semester Vorlesungsnotizen — in einer Konversation. Und anders als bei 4.7 verschlechtert sich die Kontextqualität in den mittleren Bereichen nicht merklich.
Dynamic Workflows: Ein Opus-Leitagent startet und verwaltet Hunderte paralleler Sub-Agenten für massive Aufgaben — Recherche-Sweeps, Dokumentenanalyse, Code-Reviews. KI-Projektmanagement mit Checkpointing für langlaufende Workflows.
Effort Control: Wählen Sie Default (schnelle Antworten), Extra (gründliche Analyse) oder Max (tiefe Recherche). Kein Einheitsdenken mehr. Fast Mode liefert 2,5× Geschwindigkeit bei 3× geringeren Kosten für leichtere Aufgaben.
Erstklassige agentische Zuverlässigkeit: 100% Completion auf dem Super-Agent- Benchmark. 83,4% auf Online-Mind2Web (Browser-Agent). Erstes Modell, das 10% All-Pass auf dem Legal Agent Benchmark überschreitet. Wenn Sie ihm eine komplexe Aufgabe geben und weggehen, schließt es sie tatsächlich ab.

Benchmark-Übersicht

Knowledge Work — 1.890 (von 1.753) Interner Benchmark für professionelle Analyse, Synthese und Schreibqualität. Eine Verbesserung von 7,8% gegenüber Opus 4.7 — die Art Gewinn, der in der täglichen Arbeit spürbar wird.
Online-Mind2Web — 83,4% (Nr. 1 Browser-Agent) Browser-basierte Agentenaufgaben. Opus 4.8 schlägt sowohl Opus 4.7 (82,8%) als auch GPT-5.5. Das stärkste getestete Computer-Use- und Browser-Agent-Modell.
Legal Agent Benchmark — erstmals über 10% Substanzielle juristische Arbeit im All-Pass-Standard. Der Genauigkeitsgewinn übersetzt sich direkt in die Menge realer Anwaltsarbeit, die Kunden mit Zuversicht delegieren können.

Ehrliche Einschränkungen

Premium-Preise: Pro ab 20 $/Monat, Max 100–200 $/Monat. API-Kosten: 5 $ Input / 25 $ Output pro Million Token. Prompt-Caching hilft (bis 90 % Rabatt), aber intensive Nutzung summiert sich schnell.
Keine native Bildgenerierung: Anders als ChatGPT und Gemini kann Claude keine Bilder erstellen. Es analysiert sie brillant, aber für Bilder brauchen Sie ein anderes Tool.
Kleineres Ökosystem: Weniger Integrationen, kein Plugin-Store und ein begrenzteres kostenloses Angebot als ChatGPT. Claude in Microsoft 365 wird ausgebaut, ist aber noch nicht universell.
Token-Verbrauch bei tiefen Aufgaben: Das tiefere Denken, das Opus 4.8 zuverlässiger macht, bedeutet auch mehr Token pro Gespräch bei komplexer Arbeit. Fast Mode mildert dies bei einfacheren Aufgaben, aber erwarten Sie höhere Kosten bei recherche-intensiven Sitzungen.

Das Fazit: Wenn Opus 4.6 der ruhige Profi war, bei dem Sie landen, ist Opus 4.8 derselbe Profi nach einer Beförderung. Alles, was Claude zur Expertenwahl machte, ist noch da — das Leseverständnis, die Schreibqualität, der Millionen-Token-Kontext. Aber jetzt ist es auch ehrlich über das, was es nicht weiß, schärfer im Urteilsvermögen und fähig, lange autonome Workflows ohne ständige Kontrolle durchzuführen. Der Haken ist unverändert: Sie zahlen Premium für Premium-Qualität. Aber für jeden, dessen Arbeit lange Dokumente, sorgfältige Analyse oder Entscheidungen beinhaltet, die wirklich zählen — dies ist das Modell, das am besten arbeitet, wenn die Arbeit am meisten zählt.