GPT‑5.5

OpenAI · Lanzado April 23, 2026

9.9 /10 Puntuación general

Lo que realmente es

Si la historia de la IA fuera una banda de rock, ChatGPT sería The Beatles — no necesariamente el más sofisticado técnicamente en cada momento, pero el que cambió lo que todos esperaban que sonara la música. GPT-5.5 es el álbum donde la banda deja de tocar covers y empieza a escribir sinfonías. No solo responde preguntas — planifica, ejecuta, usa herramientas, revisa su propio trabajo y sigue hasta que la tarea esté realmente terminada.

Piensa en ello como una mejora de un asistente muy inteligente a un colega muy inteligente que nunca olvida un brief. GPT-5.5 planifica problemas de múltiples pasos, usa herramientas autónomamente, opera tu computadora cuando es necesario y ejecuta flujos de trabajo que antes requerían múltiples modelos y orquestación manual. Lee, escribe, genera imágenes, navega la web, ejecuta código — y lo hace todo con 40% menos tokens. Como dijo Ethan Mollick: “Construye exactamente lo que pido.”

Puntos fuertes

GDPval 84,9% en 44 profesiones: Análisis legal, modelado financiero, soporte al cliente, ciencia de datos — GPT-5.5 supera el 83,0% de GPT-5.4 y el 80,3% de Opus 4.7. Esto mide si el modelo realmente ayuda a los profesionales a terminar su trabajo.
Ejecución agéntica que funciona: Planifica tareas de múltiples pasos, usa herramientas por su cuenta, verifica su propia salida y sigue hasta terminar. OSWorld-Verified 78,7% (antes 75,0%) — navega tu escritorio mejor que la mayoría de los practicantes.
40% menos tokens de salida: Misma latencia que GPT-5.4, pero se expresa de manera más eficiente. El costo real por tarea baja a pesar del precio por token duplicado — las cuentas cuadran para usuarios intensivos.
Tau2-Bench Telecom 98,0%: Flujos complejos de agente de servicio al cliente completados casi perfectamente. El benchmark que demuestra que la etiqueta ‘agente’ no es solo marketing.
Amplitud del ecosistema: Disponible en web, iOS, Android, apps de escritorio y vía API. GPTs personalizados, integración con Codex, memoria persistente, Canvas, generación de imágenes — todo lo que ya usas, ahora con un cerebro que realmente cumple.

Resumen de Benchmarks

GDPval — 84,9% Rendimiento profesional real en 44 profesiones. Supera a GPT-5.4 (83,0%), Opus 4.7 (80,3%) y Gemini 3.1 Pro (67,3%) decisivamente.
Artificial Analysis — #1 Índice de Inteligencia con puntuación de 60 — 3 puntos por delante del empate anterior. El benchmark compuesto independiente más amplio.
OSWorld-Verified — 78,7% Benchmark de uso de computadora donde el modelo opera aplicaciones de escritorio autónomamente. Subió del 75,0% de GPT-5.4.
Tau2-Bench — 98,0% Flujos de agente de servicio al cliente completados casi perfectamente. Demuestra capacidad agéntica en tareas empresariales estructuradas.

Limitaciones honestas

Salto de precio: Los costos de API se duplican a $5/M entrada y $30/M salida. Nivel Pro aún más caro. La eficiencia del 40% en tokens lo compensa para usuarios intensivos, pero usuarios ocasionales sentirán la factura.
Cautela con alucinaciones: Un reporte independiente temprano señaló tasas más altas de alucinación en ciertas evaluaciones. OpenAI afirma mejor juicio mediante razonamiento, pero trata el trabajo crítico (legal, médico, financiero) con capas de verificación.
API aún no disponible: Al lanzamiento, GPT-5.5 está en ChatGPT y Codex, pero la API viene ‘muy pronto.’ Si construyes sobre la API, estás esperando.
Guardarraíles de seguridad endurecidos: El sistema de seguridad más fuerte que OpenAI ha enviado. La mayoría no lo notará, pero usuarios avanzados en casos límite — investigación de seguridad, ficción creativa — encontrarán rechazos ocasionales.

El Veredicto: La era agéntica tiene su campeón más claro. GPT-5.5 no solo itera sobre GPT-5.4 — redefine qué significa ‘suficientemente bueno para entregar trabajo.’ El liderazgo en GDPval, el #1 en Artificial Analysis y la casi perfección en Tau2-Bench lo convierten en la IA cotidiana que finalmente se gana la palabra ‘colega.’ Cuesta más por token — pero completa más trabajo por dólar. Si te suscribes a una sola IA en 2026, esta es la que lleva el trabajo complejo y ambiguo a la línea de meta con mínima supervisión.