GPT‑5.5

OpenAI · Veröffentlicht April 23, 2026

9.9 /10 Gesamtbewertung

Was es wirklich ist

Wenn die Geschichte der KI eine Rockband wäre, wäre ChatGPT die Beatles — nicht unbedingt zu jedem Zeitpunkt das technisch Ausgeklügeltste, aber dasjenige, das verändert hat, was alle erwarten. GPT-5.5 ist das Album, auf dem die Band aufhört, Covers zu spielen, und anfängt, Symphonien zu schreiben. Es beantwortet nicht nur Fragen — es plant, führt aus, nutzt Werkzeuge, überprüft seine eigene Arbeit und macht weiter, bis die Aufgabe tatsächlich erledigt ist.

Denken Sie an ein Upgrade von einem sehr klugen Assistenten zu einem sehr klugen Kollegen, der nie ein Briefing vergisst. GPT-5.5 plant mehrstufige Probleme, nutzt Werkzeuge autonom, bedient bei Bedarf Ihren Computer und führt Workflows aus, die früher mehrere Modelle und manuelle Orchestrierung erforderten. Es liest, schreibt, generiert Bilder, durchsucht das Web, führt Code aus — und tut das alles mit 40% weniger Tokens. Ihre komplexen Aufgaben werden schneller und günstiger erledigt, selbst beim höheren Token-Preis. Wie Ethan Mollick es ausdrückte: „Es baut genau das, was ich verlange."

Zentrale Stärken

GDPval-Dominanz (84,9%): Getestet über 44 reale Berufe — Rechtsanalyse, Finanzmodellierung, Kundensupport, Data Science — GPT-5.5 schlägt GPT-5.4s 83,0% und Opus 4.7s 80,3%. Dies misst, ob das Modell Fachleuten tatsächlich hilft, ihre Arbeit abzuschließen.
Agentische Ausführung, die funktioniert: Plant mehrstufige Aufgaben, nutzt Werkzeuge eigenständig, überprüft seine eigene Ausgabe und arbeitet weiter, bis die Aufgabe erledigt ist. OSWorld-Verified 78,7% (zuvor 75,0%) — es navigiert Ihren Desktop besser als die meisten Praktikanten.
40% weniger Output-Tokens: Gleiche Latenz wie GPT-5.4, aber es drückt sich effizienter aus. Reale Kosten pro Aufgabe sinken trotz doppeltem Token-Preis — die Rechnung geht auf für Vielnutzer.
Tau2-Bench Telecom 98,0%: Komplexe Kundenservice-Agent-Workflows nahezu perfekt abgeschlossen. Der Benchmark, der beweist, dass das Label ‘Agent’ kein Marketing ist.
Ökosystem-Breite: Verfügbar auf Web, iOS, Android, Desktop-Apps und via API. Benutzerdefinierte GPTs, Codex-Integration, persistenter Speicher, Canvas, Bildgenerierung — alles, was Sie bereits nutzen, jetzt mit einem Gehirn, das tatsächlich durchzieht.

Benchmark-Übersicht

GDPval — 84,9% Reale professionelle Aufgabenleistung über 44 Berufe. Schlägt GPT-5.4 (83,0%), Opus 4.7 (80,3%) und Gemini 3.1 Pro (67,3%) deutlich.
Artificial Analysis — #1 Intelligence-Index-Score von 60 — 3 Punkte vor dem bisherigen Dreier-Gleichstand. Der breiteste unabhängige Kompositbenchmark.
OSWorld-Verified — 78,7% Computer-Nutzungs-Benchmark, bei dem das Modell Desktop-Anwendungen autonom bedient. Gestiegen von GPT-5.4s 75,0%.
Tau2-Bench — 98,0% Komplexe Kundenservice-Agent-Workflows nahezu perfekt abgeschlossen. Beweist agentische Fähigkeit in strukturierten Geschäftsaufgaben.

Ehrliche Einschränkungen

Preissprung: API-Kosten verdoppeln sich auf 5$/M Input und 30$/M Output. Pro-Stufe noch höher. Die 40% Token-Effizienz gleicht das für Vielnutzer aus, aber Gelegenheitsnutzer spüren die Rechnung.
Halluzinations-Vorbehalt: Ein früher unabhängiger Bericht meldete höhere Halluzinationsraten bei bestimmten Wissens-Evaluationen. OpenAI behauptet besseres Urteilsvermögen durch Reasoning, aber behandeln Sie wahrheitskritische Arbeit (Recht, Medizin, Finanzen) mit Verifikationsschichten.
API noch nicht live: Zum Launch ist GPT-5.5 in ChatGPT und Codex verfügbar, aber die API kommt ‘sehr bald.’ Wer auf der API aufbaut, muss warten.
Sicherheitssperren verschärft: Das stärkste Sicherheitssystem, das OpenAI je ausgeliefert hat. Die meisten Nutzer werden es nicht bemerken, aber Power-User an Grenzbereichen — Sicherheitsforschung, kreative Fiktion — stoßen gelegentlich auf Ablehnungen.

Das Fazit: Die agentische Ära bekommt ihren klarsten Champion. GPT-5.5 iteriert nicht nur auf GPT-5.4 — es definiert neu, was ‘gut genug zum Abliefern’ bedeutet. Die GDPval-Führung, die Artificial-Analysis-Nummer-1 und die Tau2-Bench-Fast-Perfektion machen es zur alltäglichen KI, die das Wort ‘Kollege’ endlich verdient. Es kostet mehr pro Token — erledigt aber mehr Arbeit pro Euro. Wenn Sie 2026 nur eine KI abonnieren, ist dies diejenige, die komplexe, mehrdeutige, werkzeugübergreifende Arbeit mit minimalem Aufsicht zum Abschluss bringt.