GPT-5.5

OpenAI · Veröffentlicht April 23, 2026

9.8 /10 Gesamtbewertung

Was es wirklich ist

Hier ist die Sache mit Coding-KI im Jahr 2026: Die Benchmarks, die früher zählten, sind nicht mehr die Benchmarks, die zählen. SWE-Bench Pro testet, ob ein Modell ein einzelnes GitHub-Issue sauber lösen kann. Das ist wichtig — aber es ist nicht das, was die meisten Entwickler tatsächlich brauchen. Die meisten Entwickler brauchen ein Modell, das ein vages Ticket nehmen, ein chaotisches Repo erkunden, einen Ansatz planen, Werkzeuge nutzen, Code über mehrere Dateien schreiben, testen und iterieren kann, bis es funktioniert. Das ist Terminal-Bench. Und GPT-5.5 beherrscht es.

Terminal-Bench 2.0 bei 82,7% ist nicht nur eine Zahl — es ist ein 13-Punkte-Vorsprung vor Claude Opus 4.7 (69,4%). Expert-SWE bei 73,1% bedeutet, dass GPT-5.5 Aufgaben löst, die Senior-Entwicklern einen ganzen Tag oder mehr kosten. Und es tut dies mit 40% weniger Output-Tokens als GPT-5.4 — Ihre Codex-Sitzungen sind schneller und günstiger pro Aufgabe trotz doppeltem Token-Preis.

Zentrale Stärken

Terminal-Bench 2.0 — 82,7%: Der Benchmark für agentisches Coding und Terminal-Workflows. GPT-5.5 übertrifft Opus 4.7 (69,4%) und Gemini 3.1 Pro (68,5%) um zweistellige Margen. Dies testet, was wirklich zählt: Gib dem Modell eine chaotische Aufgabe in einem echten Terminal und schau, ob es sie erledigt.
Expert-SWE — 73,1%: Aufgaben, die Senior-Entwicklern im Median 20 Stunden kosten. GPT-5.5 löst 73,1% davon, gegenüber GPT-5.4s 68,5%. Der Benchmark, der ‘gutes Autocomplete’ von ’echtem Engineering-Partner’ trennt.
FrontierMath Tier 4 — 35,4%: Die härteste Stufe mathematischen Reasonings. Opus 4.7 erreicht 22,9%, Gemini 16,7%. GPT-5.5 führt mit massivem Vorsprung — entscheidend für das Debuggen neuartiger algorithmischer Probleme.
40% weniger Output-Tokens: Gleiche Latenz wie GPT-5.4, aber es kommuniziert effizienter. Bei Codex-Aufgaben bedeutet das echte Geschwindigkeits- und Kostenverbesserungen trotz doppeltem Token-Preis.
1M Kontext + Codex-Integration: Laden Sie ganze Monorepos. Das Modell liest Ihre Architektur, versteht Ihre Muster und schreibt Code, der passt — keine generische Standardware. Codex bekommt 400K Kontext mit nativem Screen-Reading und Tool-Nutzung.

Benchmark-Übersicht

Terminal-Bench 2.0 — 82,7% Agentisches Coding und Terminal-Workflows. 13+ Punkte vor Opus 4.7 (69,4%) — die größte Lücke auf jedem wichtigen Coding-Benchmark.
Expert-SWE — 73,1% Langzeit-Engineering-Aufgaben (20-Stunden-Median). Gestiegen von GPT-5.4s 68,5%. Beweist, dass das Modell über komplexe Arbeit hinweg Qualität halten kann.
SWE-Bench Pro — 58,6% Produktionsnahe GitHub-Issues. Verbessert von 57,7%, aber Claude Opus 4.7 führt weiter mit 64,3%. Die ehrliche Lücke.
FrontierMath Tier 4 — 35,4% Härteste Stufe mathematischen Reasonings. 12,5 Punkte vor Opus 4.7 (22,9%). Entscheidend für neuartiges Algorithmus-Design.

Ehrliche Einschränkungen

SWE-Bench Pro — 58,6%: Claude Opus 4.7 führt weiterhin mit 64,3%. Für enge, hochriskante Einzelproblem-Debugging und architektonisch komplexe Refactorings bleibt Opus der Tiefenkönig. GPT-5.5 gewinnt den Workflow; Opus gewinnt das Skalpell.
API-Preis verdoppelt: 5$/M Input, 30$/M Output. Pro bei 30$/180$. Die Token-Effizienz hilft, aber lange agentische Sitzungen summieren sich. Kalkulieren Sie, bevor Sie bauen.
API noch nicht live: Zum Launch ist GPT-5.5 nur in ChatGPT und Codex verfügbar. API-Zugang kommt ‘sehr bald’ — wer automatisierte Pipelines baut, muss warten.
Halluzinations-Vorsicht: Ein früher unabhängiger Bericht meldete erhöhte Halluzinationsraten. Für Produktionscode, der sicherheitskritische Systeme berührt, mit gründlicher Überprüfung koppeln.

Das Fazit: Der agentische Coding-König. GPT-5.5 gewinnt nicht jeden einzelnen Nischenbenchmark — Opus 4.7 besitzt weiterhin die SWE-Bench-Pro-Tiefe — aber es dominiert die Kategorie, die 2026 für 90% der Entwickler zählt: komplexe, mehrdeutige, dateiübergreifende Arbeit mit minimalem Aufsicht zum Abschluss bringen. Terminal-Bench 82,7% ist die Schlagzeile, aber die wahre Geschichte ist Expert-SWE 73,1% bei Aufgaben, die Menschen 20 Stunden kosten. Geben Sie ihm ein chaotisches Repo und gehen Sie spazieren.