GPT-5.4 — Thinking

By OpenAI · Updated

Lo que realmente es

Hay una regla no escrita en IA: los modelos generalistas no deberían superar a los especialistas. GPT-5.4 Thinking rompe esa regla. El modelo frontera unificado de OpenAI no fue diseñado como herramienta de programación — fue diseñado como herramienta para todo — y aun así iguala o supera a los modelos dedicados a código en los benchmarks que más importan. Es como un decatleta que además tiene el récord mundial de los 100 metros. GPT-5.4 no completa tu función; piensa en la arquitectura, planifica ediciones multi-archivo, utiliza herramientas para buscar documentación y ejecuta tareas de programación agénticas que duran horas — no minutos. Con una ventana de contexto de 1M tokens y uso nativo de herramientas que reduce el consumo de tokens en un 47%, puede mantener todo tu monorepo en memoria mientras cuesta menos por tarea de lo esperado.

Puntos fuertes

SWE-Bench Pro 57,7%: El benchmark de ingeniería de software más exigente, que evalúa problemas complejos de repositorios de producción. Supera el 56,8% de GPT-5.3-Codex — un generalista superando a un especialista.
Ventana de 1M tokens: Aproximadamente 750.000 palabras de código y documentación en una sola sesión. Carga codebases completas y razóna sobre ellas sin fragmentar ni perder contexto.
47% de ahorro en tokens: La búsqueda nativa de herramientas reduce el contexto redundante, haciendo que los flujos agénticos consuman menos tokens. El coste real por tarea baja a pesar de precios por token más altos.
1,5x más rápido en Codex: Las mejoras en velocidad de generación hacen que las tareas de programación se completen notablemente más rápido. Los testers reportan resolver bugs complejos en horas que antes llevaban días.
Modelado de hojas de cálculo 87,3%: Frente al 68,4% de GPT-5.2. Modelado financiero, transformación de datos y generación de fórmulas mejoran dramáticamente.

Limitaciones honestas

Costes de API más altos: $2,50/M input, $15/M output. Nivel Pro a $30/M input, $180/M output. Las sesiones agénticas largas se acumulan rápidamente.
Fricción de ciberprotección: Código relacionado con seguridad (pentesting, análisis de exploits) puede activar falsos positivos en el sistema de seguridad.
1M de contexto a tarifa doble en Codex: La ventana de contexto completa cuenta tokens al doble en el entorno Codex. Tu ventana de 1M cuesta efectivamente como 2M.
Amplitud vs. profundidad: A pesar de liderar benchmarks, modelos especializados como Opus 4.6 aún producen código más coherente arquitectónicamente en refactorizaciones masivas. GPT-5.4 gana en amplitud; Opus en profundidad.

El Veredicto: El nuevo número 1, sorprendente. GPT-5.4 Thinking no fue diseñado como modelo de programación, pero su score en SWE-Bench Pro, la ventana de 1M tokens y el uso nativo de herramientas lo convierten en el asistente de programación más completo disponible. No igualará la profundidad arquitectónica de Opus 4.6 en refactorizaciones masivas, pero para el espectro completo de tareas profesionales de programación, es el nuevo estándar.