Claude Fable 5

Anthropic · Выпущено 9 июня 2026 г.

9.9 /10 Общий рейтинг

Что это на самом деле

Есть цифра, которая делает этот обзор простым в написании: 80.3%. Это Claude Fable 5 на SWE-Bench Pro — бенчмарке, которому нет дела до игрушечных задач, его волнует лишь то, может ли ИИ исправить реальные ошибки в реальных производственных кодовых базах. GPT-5.5 набирает 58.6%. Предыдущий король, Opus 4.8, набрал 69.2%. Fable 5 не просто побеждает — он побеждает с отрывом, который заставляет дважды проверить цифры.

Но SWE-Bench Pro — это только половина истории. FrontierCode Diamond — бенчмарк Cognition для оценки того, могут ли модели писать эффективный по токенам код производственного качества — рассказывает вторую половину. Fable 5: 29.3%. Opus 4.8: 13.4%. GPT-5.5: 5.7%. Это не лидерство; это вообще другой вид спорта. И модель достигает этих оценок при средних усилиях рассуждения, что означает, что она сжигает меньше токенов для получения лучшего кода. Дорогая модель, которая на самом деле дешевле в пересчете на реальную задачу.

Тематическое исследование Stripe — это не фантазия из пресс-релиза. Кодовая база на Ruby из 50 миллионов строк — монолит, от которого инженеров бросает в пот — была мигрирована за один день. Работа, на которую у целой команды ушло бы два месяца. Модель планировала, выполняла, самостоятельно проверяла и предоставляла результат. О CursorBench генеральный директор Cursor сказал, что модель «открыла класс долгосрочных проблем, которые были недоступны для более ранних моделей». В бенчмарке для старших инженеров (Senior Engineer Benchmark) она набрала 91 из 100 баллов, тогда как GPT-5.5 и Opus 4.8 остались на уровне низких 60.

Вот как выглядит архитектура класса Mythos, когда ее оборачивают в защитные ограждения безопасности и передают разработчикам. Защитные барьеры реальны — запросы по кибербезопасности, биологии и химии перенаправляются на Opus 4.8 (все еще отличная модель, но не полная версия движка). Но для более чем 95% задач по программированию, которые не вызывают срабатывания классификаторов безопасности, вы работаете с самой мощной моделью, когда-либо выпущенной для широкой публики. Эра агентного программирования только что обрела своего самого явного чемпиона.

Ключевые преимущества

SWE-Bench Pro 80.3% — новый SOTA: Бенчмарк, тестирующий реальную разработку ПО, только что получил новый абсолютный рекорд. Fable 5 опережает GPT-5.5 (58.6%) на 21.7 пункта и своего предшественника Opus 4.8 (69.2%) на 11.1 пункта. Это не тесная гонка — это другая лига.
FrontierCode Diamond 29.3% — новое определение эффективности токенов: Бенчмарк Cognition для высококачественного производственного кода показывает Fable 5 на уровне 29.3%, Opus 4.8 — 13.4%, а GPT-5.5 — 5.7%. Модель достигает лидирующих результатов даже при средних усилиях рассуждения — что означает меньший расход токенов для лучших результатов.
Реальное доказательство на 50 миллионах строк: Stripe использовал Fable 5 для переноса 50-миллионной кодовой базы на Ruby за один день — работа, которая заняла бы у целой команды два месяца. Это не бенчмарк. И не демо. Производственный код в производственной кодовой базе.
Нативный кодинг со зрением (Vision-native): Воссоздает веб-приложения только по скриншотам. Извлекает точные цифры из научных графиков. Прошла Pokémon FireRed только с помощью зрения — без вспомогательных фреймворков и данных о состоянии игры. Модель читает ваш экран и пишет код на основе того, что видит.
Долгосрочная автономная работа: Планирует, делегирует задачи субагентам, пишет и запускает собственные тесты, а также самокорректируется в ходе многодневных сессий. Постоянная файловая память улучшила производительность в Slay the Spire в 3 раза больше, чем у Opus 4.8. Она не просто сильно стартует — она остается сильной.

Результаты тестов

SWE-Bench Pro — 80.3% (SOTA) Реальная разработка программного обеспечения. На 21.7 пункта выше GPT-5.5 (58.6%) и на 11.1 пункта выше Opus 4.8 (69.2%). Самый большой отрыв за всю историю главного бенчмарка кодинга.
FrontierCode Diamond — 29.3% (SOTA) Эффективный по токенам код производственного качества. В 2.2 раза лучше Opus 4.8 (13.4%) и в 5.1 раза лучше GPT-5.5 (5.7%). Достигает лидирующей производительности даже при среднем усилии рассуждения.
Senior Engineer Benchmark — 91/100 Превзошел GPT-5.5 (62/100) и Opus 4.8 (63/100) с огромным отрывом. Задачи, разработанные для проверки инженерного суждения на уровне сеньора.
CursorBench — SOTA Передовой результат (SOTA) в бенчмарке Cursor для кодинга, интегрированного в IDE. «Открыл класс долгосрочных проблем, недоступных для более ранних моделей».

Честные ограничения

⚠️ Доступ приостановлен для неграждан США: 12 июня 2026 года правительство США выпустило директиву об экспортном контроле, приостанавливающую любой доступ к Fable 5 и Mythos 5 для любого иностранного гражданина — независимо от того, находится ли он внутри или за пределами США. Anthropic была вынуждена отключить модель для всех клиентов в целях соблюдения требований. Все остальные модели Anthropic остаются доступными. Anthropic не согласна с директивой и работает над восстановлением доступа. Проверяйте их объявления для получения актуальной информации о статусе.
Премиальная стоимость: $10/$50 за миллион токенов — это примерно в 2 раза больше, чем Opus 4.8 ($5/$25). Эффективность использования токенов частично компенсирует это на сложных задачах, но легкие пользователи почувствуют счет. Подписчики Pro получают включенный доступ до 22 июня, затем кредиты.
Маршрутизация безопасности для отмеченных тем: Запросы, касающиеся кибербезопасности, биологии, химии или дистилляции моделей, автоматически перенаправляются на Opus 4.8. Срабатывает менее чем в 5% сессий с некоторыми ложными срабатываниями. Легитимным исследователям безопасности может понадобиться ограниченный Mythos 5 через Project Glasswing.
Сторонние оценки все еще появляются: Собственные бенчмарки Anthropic детальны и богаты примерами, но полные данные LMSYS Arena и Artificial Analysis еще не доступны в день запуска. Ранние признаки очень позитивны.
Лучше всего в правильной среде: Fable 5 ярче всего сияет в интеграциях Claude Code и API. Чат-интерфейс claude.ai силен, но агентные возможности модели по-настоящему раскрываются только с правильными инструментами.

Вердикт: Корона кодинга только что сменила владельца — решительно. Claude Fable 5 не просто обходит GPT-5.5 на SWE-Bench Pro — он обходит его на 21.7 пункта. Он не просто лидирует во FrontierCode Diamond — он лидирует с 5-кратным отрывом. И в отличие от побед в синтетических бенчмарках, реальные подтверждения уже налицо: 50 миллионов строк мигрировано за день, прохождение игры только с помощью зрения, автономные многодневные инженерные сессии. Предыдущий Opus 4.8 был королем скальпеля; Fable 5 — это король скальпеля, который также управляет всей операционной. Да, он стоит в 2 раза дороже за токен. Да, <5% сессий маршрутизируются из соображений безопасности на Opus 4.8. Но для того вида глубокой, сложной, долгосрочной инженерии, которая определяет профессиональную разработку ПО в 2026 году — это самая сильная модель для кодинга, доступная любому. Точка.