GPT-5.5
ProgrammierungDas agentische Coding-Modell, das nicht nur autovervollständigt — es plant, nutzt Werkzeuge, debuggt über Dateien hinweg und erledigt die chaotische Repo-Aufgabe, während Sie den Hund ausführen. Terminal-Bench 82,7% ist kein Tippfehler.
Terminal-Bench 2.0 82,7% (übertrifft Opus 4.7s 69,4% deutlich); Expert-SWE 73,1% bei 20-Stunden-Aufgaben; FrontierMath Tier 4 35,4%; ~40% weniger Output-Tokens; 1M Kontext mit nativer Tool-Nutzung und Codex-Integration.
2× API-Preis (5$/30$ pro 1M Tokens); liegt hinter Claude Opus 4.7 bei SWE-Bench Pro (58,6% vs. 64,3%); API nicht zum Launch verfügbar; frühe Halluzinationsberichte erfordern Verifizierung.