Claude Fable 5
Anthropic · Lanzado June 9, 2026
Lo que realmente es
Hay un número que hace fácil escribir esta reseña: 80,3%. Eso es Claude Fable 5 en SWE-Bench Pro — el benchmark al que no le importan los problemas de juguete, solo si la IA puede arreglar bugs reales en bases de código de producción reales. GPT-5.5 marca 58,6%. El rey anterior, Opus 4.8, marcó 69,2%. Fable 5 no solo gana — gana por un margen que lo hace a uno verificar los números dos veces.
Pero SWE-Bench Pro es solo la mitad de la historia. FrontierCode Diamond — el benchmark de Cognition para saber si los modelos pueden escribir código de producción eficiente en tokens — cuenta la otra mitad. Fable 5: 29,3%. Opus 4.8: 13,4%. GPT-5.5: 5,7%. Eso no es una ventaja; es un deporte diferente. Y el modelo alcanza estas puntuaciones con esfuerzo de razonamiento medio, lo que significa que quema menos tokens para producir mejor código. El modelo caro que en realidad es más barato por tarea real.
El caso de estudio de Stripe no es una fantasía de comunicado de prensa. Una base de código Ruby de 50 millones de líneas — el tipo de monolito que hace sudar a los ingenieros — fue migrada en un solo día. Trabajo que le hubiera tomado a un equipo completo dos meses. El modelo planificó, ejecutó, se auto-verificó y entregó. En CursorBench, el CEO de Cursor dijo que “abrió una clase de problemas de largo horizonte que estaban fuera del alcance de modelos anteriores.” En el Senior Engineer Benchmark, marcó 91/100 — mientras GPT-5.5 y Opus 4.8 ambos quedaron en los bajos 60s.
Esto es lo que la arquitectura de clase Mythos se ve cuando la envuelves en barandillas de seguridad y se la entregas a los desarrolladores. Las barandillas son reales — las consultas sobre ciberseguridad, biología y química se redirigen a Opus 4.8 (sigue siendo excelente, pero no el motor completo). Pero para el 95%+ del trabajo de coding que no activa los clasificadores de seguridad, estás trabajando con el modelo más capaz jamás lanzado al público. La era del coding agéntico acaba de encontrar a su campeón más claro.
Puntos fuertes
- SWE-Bench Pro 80,3% — el nuevo SOTA: El benchmark que evalúa ingeniería de software del mundo real acaba de tener un nuevo récord histórico. Fable 5 supera a GPT-5.5 (58,6%) por 21,7 puntos y a su predecesor Opus 4.8 (69,2%) por 11,1 puntos. Esto no es una carrera reñida — es una liga diferente.
- FrontierCode Diamond 29,3% — eficiencia de tokens redefinida: El benchmark de Cognition para código de producción de alta calidad muestra a Fable 5 en 29,3%, Opus 4.8 en 13,4% y GPT-5.5 en 5,7%. El modelo logra puntuaciones líderes incluso con esfuerzo de razonamiento medio — lo que significa menos gasto de tokens para mejores resultados.
- Prueba real con 50 millones de líneas: Stripe usó Fable 5 para migrar una base de código Ruby de 50 millones de líneas en un día — trabajo que le hubiera tomado a un equipo completo dos meses. No es un benchmark. No es una demo. Código de producción en una base de código de producción.
- Coding nativo con visión: Reconstruye aplicaciones web a partir de capturas de pantalla. Extrae números precisos de figuras científicas. Completó Pokémon FireRed solo con visión — sin herramientas auxiliares, sin datos del estado del juego. El modelo lee su pantalla y programa a partir de lo que ve.
- Trabajo autónomo de largo horizonte: Planifica, delega a sub-agentes, escribe y ejecuta sus propias pruebas y se auto-corrige en sesiones de varios días. La memoria persistente basada en archivos mejoró el rendimiento en Slay the Spire 3× más que Opus 4.8. No solo empieza fuerte — se mantiene fuerte.
-
SWE-Bench Pro — 80,3% (SOTA) Ingeniería de software del mundo real. 21,7 puntos por encima de GPT-5.5 (58,6%) y 11,1 puntos por encima de Opus 4.8 (69,2%). La mayor ventaja que cualquier modelo haya tenido en el benchmark de coding definitivo.
-
FrontierCode Diamond — 29,3% (SOTA) Código de producción eficiente en tokens y de alta calidad. 2,2× Opus 4.8 (13,4%) y 5,1× GPT-5.5 (5,7%). Logra rendimiento líder incluso con esfuerzo de razonamiento medio.
-
Senior Engineer Benchmark — 91/100 Supera a GPT-5.5 (62/100) y Opus 4.8 (63/100) por un margen enorme. Tareas diseñadas para evaluar el juicio de ingeniería a nivel senior.
-
CursorBench — SOTA Estado del arte en el benchmark de Cursor para coding integrado en IDE. 'Abrió una clase de problemas de largo horizonte fuera del alcance de modelos anteriores.'
Limitaciones honestas
- ⚠️ Acceso suspendido para no ciudadanos de EE.UU.: El 12 de junio de 2026, el gobierno de EE.UU. emitió una directiva de control de exportaciones que suspende todo acceso a Fable 5 y Mythos 5 para cualquier ciudadano extranjero — ya sea dentro o fuera de Estados Unidos. Anthropic ha tenido que desactivar el modelo para todos los clientes para cumplir con la orden. Todos los demás modelos de Anthropic siguen disponibles. Anthropic no está de acuerdo con la directiva y trabaja para restablecer el acceso. Consulte su anuncio para conocer el estado más reciente.
- Costo premium: $10/$50 por millón de tokens es aproximadamente 2× Opus 4.8 ($5/$25). La eficiencia de tokens compensa parcialmente esto en tareas complejas, pero los usuarios ligeros sentirán la factura. Los suscriptores Pro obtienen acceso incluido hasta el 22 de junio, luego créditos.
- Enrutamiento de seguridad en temas marcados: Las consultas que tocan ciberseguridad, biología, química o destilación de modelos se redirigen automáticamente a Opus 4.8. Se activa en <5% de las sesiones con algunos falsos positivos. Los investigadores de seguridad legítimos pueden necesitar el restringido Mythos 5 a través de Project Glasswing.
- Evaluaciones de terceros aún emergiendo: Los benchmarks propios de Anthropic son detallados y ricos en ejemplos, pero los números completos de LMSYS Arena y Artificial Analysis aún no están disponibles el día del lanzamiento. Las señales tempranas son muy positivas.
- Mejor en el entorno adecuado: Fable 5 brilla más en Claude Code e integraciones de API. La experiencia de chat en claude.ai es sólida, pero las capacidades agénticas del modelo realmente se desbloquean con las herramientas adecuadas.
El Veredicto: La corona del coding acaba de cambiar de manos — decisivamente. Claude Fable 5 no solo supera a GPT-5.5 en SWE-Bench Pro — lo supera por 21,7 puntos. No solo lidera FrontierCode Diamond — lidera por 5×. Y a diferencia de victorias en benchmarks sintéticos, los recibos del mundo real ya están: 50 millones de líneas migradas en un día, completación de juegos solo con visión, sesiones de ingeniería autónomas de varios días. El anterior Opus 4.8 era el rey del bisturí; Fable 5 es el rey del bisturí que además dirige todo el quirófano. Sí, cuesta 2× más por token. Sí, <5% de las sesiones se redirigen por seguridad a Opus 4.8. Pero para el tipo de ingeniería profunda, compleja y de largo horizonte que define el desarrollo de software profesional en 2026 — este es el modelo de coding más potente al que cualquiera puede acceder. Punto.