Claude Opus 4.8
Anthropic · Lanzado May 28, 2026
Lo que realmente es
Hay un número que hace fácil escribir esta reseña: 69,2%. Eso es Opus 4.8 en SWE-Bench Pro — el benchmark que no se preocupa por problemas de juguete, solo si una IA puede corregir errores reales en bases de código de producción reales. GPT-5.5 obtiene 58,6%. Opus 4.7 obtuvo 64,3%. Gemini 3.1 Pro logra 54,2%.
La brecha no es solo amplia — es vergonzosa para la competencia.
Lanzado hoy (28 de mayo de 2026), Claude Opus 4.8 construye sobre todo lo que hizo de 4.7 el rey de la programación y arregla todo lo que lo frenaba. El motor de razonamiento híbrido es más agudo. Los ciclos de auto-verificación son 4× más confiables detectando bugs antes de que se envíen. Y el nuevo sistema de control de esfuerzo significa que finalmente usted elige: pensar rápido o pensar profundo.
Pero la función estrella son los Dynamic Workflows. Claude Code ahora puede lanzar cientos de sub-agentes paralelos — cada uno abordando una porción de una migración masiva de codebase, barrido de errores o porteo de idioma. Es lo más cercano que tiene la IA a un equipo de ingeniería real. Y en el benchmark Super-Agent, Opus 4.8 es el único modelo que completa cada caso de prueba end-to-end.
¿La advertencia honesta? GPT-5.5 sigue ganando en Terminal-Bench (78,2% vs 74,6%) — si su flujo de trabajo es iteración rápida en shell, OpenAI tiene ventaja. Y las trazas de pensamiento más profundas significan mayor consumo de tokens en tareas complejas. Pero para el trabajo profundo de ingeniería multi-archivo, el de “entregar una funcionalidad real” — el que realmente importa — Opus 4.8 está en una liga propia.
Puntos fuertes
- SWE-Bench Pro 69,2% (SOTA): El benchmark que mide si la IA puede corregir errores reales en bases de código reales. Opus 4.8 lidera con 10,6 puntos sobre GPT-5.5 (58,6%), 4,9 puntos sobre Opus 4.7 (64,3%) y 15,0 puntos sobre Gemini 3.1 Pro (54,2%). La mayor ventaja que cualquier modelo ha tenido en este benchmark.
- Auto-verificación que funciona: 4× menos propenso a dejar pasar errores de código sin señalarlos. Opus 4.8 detecta sus propios errores, objeta cuando un plan no tiene sentido y reporta progreso honestamente en vez de alucinar finalización. La mentira del ‘Ya terminé’ que plagaba modelos anteriores ha desaparecido.
- Dynamic Workflows: Claude Code ahora puede lanzar y gestionar cientos de sub-agentes paralelos para tareas a gran escala — migraciones de codebases, barridos de errores, porteos de idioma. Piense en gestión de proyectos con IA, no solo generación de código.
- 100% completación Super-Agent: El único modelo que completa cada caso end-to-end en el benchmark Super-Agent, superando todos los modelos Opus anteriores y GPT-5.5. La fiabilidad agéntica ya no es solo un eslogan — es medible.
- Control de esfuerzo: Ahora usted elige cuánto piensa — Default, Extra o Max. Se acabó luchar con el problema de ‘pereza’ que plagaba a Opus 4.7 en tareas simples. Pida rápido, obtenga rápido. Pida profundo, obtenga profundo.
-
SWE-Bench Pro — 69,2% (SOTA) Ingeniería de software real. La puntuación más alta jamás registrada — supera a GPT-5.5 (58,6%), Opus 4.7 (64,3%) y Gemini 3.1 Pro (54,2%). Una ventaja de 10,6 puntos sobre el competidor más cercano.
-
Terminal-Bench — 74,6% Codificación rápida basada en terminal. Fuerte, pero GPT-5.5 mantiene el liderazgo con 78,2%. Opus sobresale en tareas de razonamiento profundo; GPT-5.5 en iteración rápida.
-
Super-Agent — 100% Completación agéntica end-to-end de tareas de traducción, investigación profunda, creación de presentaciones y análisis. El único modelo que completa todos los casos.
Limitaciones honestas
- Los costos de tokens son reales: Mismo precio nominal que 4.7 ($5/$25 por millón de tokens), pero el pensamiento más profundo en tareas complejas consume más tokens. El tokenizador sigue inflando costos 15–35% en prompts pesados de código.
- Brecha en Terminal-Bench: GPT-5.5 lidera con 78,2% vs 74,6% de Opus 4.8 en tareas de iteración rápida en terminal. Si su flujo de trabajo es principalmente shell, GPT-5.5 tiene ventaja.
- Latencia en problemas difíciles: Las trazas de pensamiento más profundas significan esperas más largas en tareas complejas. El modo rápido (2,5× velocidad, 3× más barato) ayuda para trabajo ligero, pero los problemas más difíciles requieren paciencia.
- Medidas de seguridad estrictas: Protecciones de ciberseguridad mejoradas bloquean ciertos patrones de código de alto riesgo. Investigadores de seguridad legítimos pueden encontrar falsos positivos.
El Veredicto: La corona de la programación — sin asterisco. Opus 4.7 era el rey indiscutible de los problemas de ingeniería difíciles pero fallaba en los simples. Opus 4.8 arregla ambos lados — la ventaja en SWE-Bench Pro crece a un abismo (69,2% vs 58,6% de GPT-5.5), mientras que el control de esfuerzo elimina las quejas de ‘pereza’. La mejora en auto-verificación es la verdadera historia: un modelo que encuentra sus propios bugs antes que usted. GPT-5.5 sigue ganando en velocidad de terminal, pero para el trabajo profundo de ingeniería multi-archivo que realmente entrega funcionalidades — esto es todo.