Claude Opus 4.7

Anthropic · Lanzado April 16, 2026

9.6 /10 Puntuación general

Lo que realmente es

Hay un número que hace fácil escribir esta reseña: 64,3%. Eso es Opus 4.7 en SWE-Bench Pro — el benchmark que no se preocupa por problemas de juguete, solo si una IA puede corregir errores reales en bases de código de producción reales. GPT-5.4 obtiene 57,7%. Kimi K2.6 obtiene 58,6%. Opus 4.6 obtuvo 53,4%.

La brecha no es cercana. Ni siquiera es competitiva. Es un quiebre de categoría.

Lanzado el 16 de abril de 2026, Claude Opus 4.7 es lo que Anthropic llama un “modelo de razonamiento híbrido” — un sistema que ajusta dinámicamente cuán profundamente piensa según la dificultad del problema. El nuevo nivel de esfuerzo “xhigh” permite a los desarrolladores decirle explícitamente al modelo que razone más profundo en problemas difíciles. Y en CursorBench — sesiones reales con desarrolladores reales en un IDE real — obtiene 70%, subiendo del 58% de Opus 4.6.

Pero la reseña honesta requiere las advertencias honestas. Este modelo fue optimizado para trabajo de ingeniería complejo y multi-paso. Los prompts simples a veces reciben menos esfuerzo que en 4.6. El nuevo tokenizador infla costos 15–35%. Esto no es una mejora universal — es un especialista que resulta ser el mejor especialista que hemos visto jamás.

Puntos fuertes

SWE-Bench Pro 64,3% (SOTA): El benchmark que mide si la IA puede corregir errores reales en bases de código reales. Opus 4.7 no solo lidera — lidera con 5,7 puntos sobre GPT-5.4 (57,7%) y 10,9 puntos sobre Opus 4.6 (53,4%).
CursorBench 70%: No es un benchmark sintético — sesiones reales en Cursor IDE con desarrolladores reales. Opus 4.7 obtuvo 70% vs. el 58% de Opus 4.6.
Razonamiento híbrido con esfuerzo ‘xhigh’: Un nuevo nivel de esfuerzo que intercambia latencia por pensamiento más profundo en problemas verdaderamente difíciles.
Visión de alta resolución (3,75 MP): Capturas densas, diagramas de arquitectura, diálogos de error o dashboards completos a resolución de hasta 2576px.
Autonomía agéntica: Ediciones multi-archivo, cadenas de herramientas, auto-verificación — Opus 4.7 maneja flujos autónomos complejos con mucha menos supervisión que 4.6.

Resumen de Benchmarks

SWE-Bench Pro — 64,3% (SOTA) Ingeniería de software real. La puntuación más alta jamás registrada — supera a GPT-5.4 (57,7%), Kimi K2.6 (58,6%) y Opus 4.6 (53,4%).
CursorBench — 70% Sesiones de codificación IDE reales con desarrolladores reales. Opus 4.7 saltó 12 puntos sobre Opus 4.6 (58%).
SWE-Bench Verified — 87,6% Subconjunto curado de SWE-Bench con soluciones verificadas. Opus 4.7 lidera todos los modelos.

Limitaciones honestas

Inflación de tokens: El nuevo tokenizador aumenta costos reales 15–35% en prompts pesados de código comparado con Opus 4.6 al mismo precio nominal.
‘Perezoso’ en prompts fáciles: El razonamiento adaptativo invierte menos esfuerzo en solicitudes sencillas. Los usuarios avanzados necesitan establecer niveles de esfuerzo más altos explícitamente.
Regresiones en contexto largo: Algunos usuarios reportan recuperación más débil en el rango de 100K–1M tokens comparado con 4.6.
Medidas de seguridad más estrictas: Protecciones de ciberseguridad mejoradas bloquean ciertos patrones de código de alto riesgo.

El Veredicto: El rey indiscutible de la programación — con un asterisco. En problemas difíciles de ingeniería, Opus 4.7 está en otra liga. La brecha en SWE-Bench Pro sobre GPT-5.4 es la más grande entre dos modelos de frontera este año. Pero Anthropic optimizó este modelo para una cosa — en prompts simples puede sentirse ‘más perezoso’ que 4.6, y los costos de tokens son reales. Úselo para lo difícil.