Filtro Todos Ecosistema Diario Generación de Imágenes Programación Creadores de Apps Investigación Arquitectos Digitales Mentores Académicos Video Música y Voz IA Local / Privada Agentes IA

GPT-5.5

OpenAI · Lanzado April 23, 2026

9.8 /10 Puntuación general
Sitio web oficial

Lo que realmente es

Esto es lo que pasa con la IA para programación en 2026: los benchmarks que antes importaban ya no son los que importan. SWE-Bench Pro evalúa si un modelo puede corregir un solo issue de GitHub limpiamente. Eso es importante — pero no es lo que la mayoría de los desarrolladores realmente necesitan. La mayoría necesita un modelo que tome un ticket vago, explore un repo caótico, planifique un enfoque, use herramientas, escriba código en múltiples archivos, lo pruebe e itere hasta que funcione. Eso es Terminal-Bench. Y GPT-5.5 lo domina.

Terminal-Bench 2.0 al 82,7% no es solo un número — es una ventaja de 13 puntos sobre Claude Opus 4.7 (69,4%). Expert-SWE al 73,1% significa que GPT-5.5 resuelve tareas que a ingenieros senior les cuestan un día completo o más. Y lo hace usando 40% menos tokens de salida que GPT-5.4.

Puntos fuertes

  • Terminal-Bench 2.0 — 82,7%: El benchmark para programación agéntica y flujos de terminal. GPT-5.5 aplasta a Opus 4.7 (69,4%) y Gemini 3.1 Pro (68,5%) por márgenes de dos dígitos. Esto evalúa lo que realmente importa: dale al modelo una tarea caótica en un terminal real y observa si la termina.
  • Expert-SWE — 73,1%: Tareas que a ingenieros senior les toman una mediana de 20 horas. GPT-5.5 resuelve el 73,1%, frente al 68,5% de GPT-5.4. El benchmark que separa ‘buen autocompletado’ de ‘verdadero compañero de ingeniería.’
  • FrontierMath Tier 4 — 35,4%: El nivel más difícil de razonamiento matemático. Opus 4.7 alcanza 22,9%, Gemini 16,7%. GPT-5.5 lidera por un margen enorme — crucial para depurar problemas algorítmicos novedosos.
  • 40% menos tokens de salida: Misma latencia que GPT-5.4, pero se comunica más eficientemente. En tareas de Codex, esto se traduce en mejoras reales de velocidad y costo a pesar del precio por token duplicado.
  • 1M de contexto + integración Codex: Carga monorepos completos. El modelo lee tu arquitectura, entiende tus patrones y escribe código que encaja — no boilerplate genérico. Codex obtiene 400K de contexto con lectura de pantalla nativa y uso de herramientas.
Resumen de Benchmarks
  • Terminal-Bench 2.0 — 82,7% Programación agéntica y flujos de terminal. 13+ puntos sobre Opus 4.7 (69,4%) — la mayor brecha en cualquier benchmark de programación importante.
  • Expert-SWE — 73,1% Tareas de ingeniería de largo plazo (mediana de 20 horas). Subió del 68,5% de GPT-5.4. Demuestra que el modelo mantiene calidad en trabajo complejo.
  • SWE-Bench Pro — 58,6% Issues de GitHub de nivel producción. Mejorado del 57,7%, pero Claude Opus 4.7 sigue liderando con 64,3%. La brecha honesta.
  • FrontierMath Tier 4 — 35,4% Nivel más difícil de razonamiento matemático. 12,5 puntos sobre Opus 4.7 (22,9%). Crucial para diseño de algoritmos novedosos.

Limitaciones honestas

  • SWE-Bench Pro — 58,6%: Claude Opus 4.7 sigue liderando con 64,3%. Para debugging estrecho y de alto riesgo y refactorizaciones arquitectónicamente complejas, Opus sigue siendo el rey de la profundidad. GPT-5.5 gana el flujo; Opus gana el bisturí.
  • Precio de API duplicado: $5/M entrada, $30/M salida. Pro a $30/$180. La eficiencia de tokens ayuda, pero las sesiones agénticas largas se acumulan. Calcula antes de construir.
  • API aún no disponible: Al lanzamiento, GPT-5.5 solo está en ChatGPT y Codex. El acceso a la API viene ‘muy pronto’ — si construyes pipelines automatizados, estás esperando.
  • Precaución con alucinaciones: Un reporte independiente temprano señaló tasas elevadas de alucinación. Para código de producción que toca sistemas críticos de seguridad, combinar con revisión exhaustiva.

El Veredicto: El rey agéntico de la programación. GPT-5.5 no gana cada benchmark estrecho — Opus 4.7 sigue dominando la profundidad de SWE-Bench Pro — pero domina la categoría que importa para el 90% de los desarrolladores en 2026: llevar trabajo complejo, ambiguo y multi-archivo a la línea de meta con mínima supervisión. Terminal-Bench 82,7% es el titular, pero la verdadera historia es Expert-SWE 73,1% en tareas que a humanos les toman 20 horas. Dale un repo caótico y vete a caminar.