GPT-5.5
ProgramaciónEl modelo de programación agéntico que no solo autocompleta — planifica, usa herramientas, depura entre archivos y termina la tarea del repo caótico mientras paseas al perro. Terminal-Bench 82,7% no es un error tipográfico.
Terminal-Bench 2.0 82,7% (aplasta el 69,4% de Opus 4.7); Expert-SWE 73,1% en tareas de 20 horas; FrontierMath Tier 4 35,4%; ~40% menos tokens de salida; 1M de contexto con uso nativo de herramientas e integración con Codex.
Precio de API 2× ($5/$30 por 1M tokens); por detrás de Claude Opus 4.7 en SWE-Bench Pro (58,6% vs 64,3%); API no disponible al lanzamiento; reportes tempranos de alucinación requieren verificación.