GPT-5.4 — Thinking
ProgramaciónUn modelo frontera generalista que casualmente supera a especialistas en programación en los benchmarks que más importan. Piensa en un decatleta que también tiene el récord mundial de 100 metros.
SWE-Bench Pro 57,7% — un generalista supera a GPT-5.3-Codex (56,8%). Contexto de 1M tokens carga repos completos. 47% ahorro en tokens con herramientas nativas. 1,5x más rápido en Codex.
Costes de API más altos ($2,50/M input, $15/M output). Contexto completo cuesta al doble en Codex. Opus 4.6 aún produce código más coherente arquitectónicamente en refactorizaciones masivas.