GPT-5.4 — Thinking
By OpenAI · Updated
Was es wirklich ist
Hier ist die Sache mit Generalisten-Modellen: Sie sollen eigentlich keine Spezialisten schlagen. GPT-5.4 Thinking bricht diese Regel. OpenAIs vereinheitlichtes Frontier-Modell wurde nicht als Coding-Tool entworfen — es wurde als Alles-Tool entworfen — und dennoch erreicht oder übertrifft es zweckgebundene Coding-Modelle bei den Benchmarks, die am meisten zählen. Es ist wie ein Zehnkämpfer, der zufällig auch den 100m-Weltrekord hält. GPT-5.4 vervollständigt nicht einfach Ihre Funktion; es denkt über die Architektur nach, plant Multi-Datei-Edits, nutzt Werkzeuge zur Dokumentationssuche und führt agentische Coding-Aufgaben aus, die Stunden dauern — nicht Minuten. Mit einem 1M-Kontextfenster und nativer Tool-Nutzung, die den Token-Verbrauch um 47% reduziert, kann es Ihr gesamtes Monorepo im Arbeitsspeicher halten, während es pro Aufgabe weniger kostet als erwartet.
Zentrale Stärken
- SWE-Bench Pro 57,7%: Der anspruchsvollste Software-Engineering-Benchmark, der komplexe reale Probleme aus Produktions-Repositories testet. Dies übertrifft GPT-5.3-Codex’ 56,8% — ein Generalisten-Modell schlägt einen Spezialisten.
- 1M-Token-Kontextfenster: Ungefähr 750.000 Wörter Code und Dokumentation in einer einzigen Sitzung. Laden Sie ganze Codebases und denken Sie über sie nach, ohne Aufteilung oder Zusammenfassungsverlust.
- 47% Token-Einsparung: Native Tool-Suche reduziert redundanten Kontext, sodass agentische Workflows weniger Token verbrennen. Reale Kosten pro Aufgabe sinken trotz höherer Pro-Token-Preise.
- 1,5x schneller in Codex: Verbesserungen der Token-Velocity bedeuten, dass Coding-Aufgaben spürbar schneller abgeschlossen werden. Tester berichten, dass sie komplexe Bugs in Stunden lösen, die zuvor Tage dauerten.
- Spreadsheet-Modellierung 87,3%: Gegenüber GPT-5.2s 68,4%. Finanzmodellierung, Datentransformation und Formelgenerierung sind dramatisch verbessert.
Ehrliche Einschränkungen
- Höhere API-Kosten: 2,50$/M Input, 15$/M Output. Pro-Stufe bei 30$/M Input, 180$/M Output. Lange agentische Sitzungen summieren sich schnell.
- Cyber-Schutz-Reibung: Sicherheitsbezogener Code (Pen-Testing, Exploit-Analyse) kann Fehlalarme im Sicherheitssystem auslösen.
- 1M-Kontext zum 2x-Tarif in Codex: Das volle Kontextfenster zählt Token zum doppelten Tarif in der Codex-Umgebung. Ihr 1M-Fenster kostet effektiv wie 2M.
- Breite vs. Tiefe: Trotz benchmark-führender Werte produzieren zweckgebundene Modelle wie Opus 4.6 noch immer architektonisch kohärenteren Code bei weitläufigen Refactorings. GPT-5.4 gewinnt bei Breite; Opus bei Tiefe.
Das Fazit: Die überraschende neue Nr. 1. GPT-5.4 Thinking wurde nicht als Coding-Modell entworfen, aber sein SWE-Bench-Pro-Score, das 1M-Kontextfenster und die native Tool-Nutzung machen es zum vollständigsten verfügbaren Coding-Assistenten. Es wird Opus 4.6s architektonische Tiefe bei massiven Refactorings nicht erreichen, aber für das volle Spektrum professioneller Coding-Aufgaben ist es der neue Standard.