Claude Opus 4.8

Anthropic · Выпущено 28 мая 2026 г.

9.7 /10 Общий рейтинг

Что это на самом деле

Есть цифра, которая делает этот обзор простым в написании: 69.2%. Это Opus 4.8 на SWE-Bench Pro — бенчмарке, которому нет дела до игрушечных задач, его волнует лишь то, может ли ИИ исправить реальные ошибки в реальных производственных кодовых базах. GPT-5.5 набирает 58.6%. Opus 4.7 набрал 64.3%. Gemini 3.1 Pro выдает 54.2%.

Разрыв не просто велик — он смущает конкурентов.

Выпущенный сегодня (28 мая 2026 г.), Claude Opus 4.8 опирается на все, что сделало 4.7 королем кодинга, и исправляет все, что его сдерживало. Гибридный движок рассуждений стал острее. Циклы самопроверки в 4 раза надежнее отлавливают ошибки до их выпуска. А новая система контроля усилий означает, что теперь вы можете выбирать: думать быстро или думать глубоко.

Но главная особенность — это Dynamic Workflows (динамические рабочие процессы). Claude Code теперь может порождать сотни параллельных субагентов — каждый решает часть масштабной миграции кодовой базы, поиска ошибок или портирования языка. Это самое близкое, что есть у ИИ к настоящей инженерной команде. А в бенчмарке Super-Agent Opus 4.8 — единственная модель, которая прошла каждый отдельный тест от начала до конца.

Честная оговорка? GPT-5.5 все еще побеждает в Terminal-Bench (78.2% против 74.6%) — если ваш рабочий процесс представляет собой быструю итерацию в оболочке, преимущество у OpenAI. А более глубокие следы мышления означают более высокий расход токенов на сложных задачах. Но для глубокой, многофайловой инженерной работы “выпусти реальную фичу” — той самой, которая действительно имеет значение, — Opus 4.8 находится в своей собственной лиге.

Ключевые преимущества

SWE-Bench Pro 69.2% (SOTA): Бенчмарк, который измеряет, может ли ИИ исправить реальные ошибки в реальных кодовых базах. Opus 4.8 опережает GPT-5.5 (58.6%) на 10.6 пункта, своего предшественника Opus 4.7 (64.3%) на 4.9 пункта, и Gemini 3.1 Pro (54.2%) на 15.0 пунктов. Самый большой отрыв за всю историю бенчмарка.
Самопроверка, которая действительно работает: В 4 раза ниже вероятность того, что недостатки кода проскользнут без отметки. Opus 4.8 замечает собственные ошибки, возражает, когда план ненадежен, и честно отчитывается о прогрессе, вместо того чтобы галлюцинировать о завершении. Ложь «Я закончил», которой страдали более ранние модели, в значительной степени исчезла.
Динамические рабочие процессы (Dynamic Workflows): Claude Code теперь может порождать и управлять сотнями параллельных субагентов для крупномасштабных задач — миграции кодовых баз, поиска ошибок, портирования языков. Думайте об этом как об управлении ИИ-проектами, а не только как о генерации кода.
100% выполнение Super-Agent: Единственная модель, которая выполнила каждый кейс от начала до конца в бенчмарке Super-Agent, превзойдя все предыдущие модели Opus и GPT-5.5. Надежность агентов больше не просто тема для разговоров — ее можно измерить.
Контроль усилий: Теперь вы выбираете, как усердно он думает — Default, Extra или Max. Больше нет проблем с «ленью», от которой страдал Opus 4.7 на простых задачах. Просите быстро — получаете быстро. Просите глубоко — получаете глубоко.

Результаты тестов

SWE-Bench Pro — 69.2% (SOTA) Реальная разработка ПО. Самый высокий балл, когда-либо показанный моделью — превосходит GPT-5.5 (58.6%), Opus 4.7 (64.3%) и Gemini 3.1 Pro (54.2%). Отрыв в 10.6 пункта от ближайшего конкурента.
Terminal-Bench — 74.6% Быстрый терминальный кодинг. Сильный результат, но GPT-5.5 сохраняет лидерство с 78.2%. Opus превосходит в задачах глубокого рассуждения; GPT-5.5 — в быстрой итерации.
Super-Agent — 100% Комплексное (end-to-end) выполнение агентных задач, включая перевод, глубокие исследования, создание слайдов и анализ. Единственная модель, завершившая все кейсы.

Честные ограничения

Стоимость токенов реальна: Та же номинальная цена, что и у 4.7 ($5/$25 за миллион токенов), но более глубокое обдумывание сложных задач сжигает больше токенов. Токенизатор все еще увеличивает затраты на 15–35% на насыщенных кодом промптах. Планируйте бюджет соответственно.
Отставание в Terminal-Bench: GPT-5.5 лидирует с 78.2% против 74.6% у Opus 4.8 в задачах быстрой итерации в терминале. Если ваш рабочий процесс в основном завязан на оболочку, у GPT-5.5 есть преимущество.
Задержка на сложных задачах: Более глубокие цепочки рассуждений означают более долгое ожидание при выполнении сложных задач. Быстрый режим (в 2.5 раза быстрее, в 3 раза дешевле) помогает для более легкой работы, но самые сложные проблемы все еще требуют терпения.
Строгие меры безопасности: Улучшенная защита кибербезопасности блокирует определенные паттерны кода с высоким уровнем риска. Легитимные исследователи безопасности могут столкнуться с ложными срабатываниями.

Вердикт: Корона кодинга без всяких звездочек. Opus 4.7 был бесспорным королем сложных инженерных проблем, но спотыкался на простых. Opus 4.8 исправляет обе стороны — отрыв в SWE-Bench Pro превращается в пропасть (69.2% против 58.6% у GPT-5.5), а контроль усилий устраняет жалобы на ‘лень’. Улучшение самопроверки — вот главная история: модель, которая отлавливает собственные ошибки раньше вас. GPT-5.5 все еще побеждает в скорости терминала, но для такой глубокой, многофайловой инженерной работы, которая на самом деле выпускает фичи — это то, что нужно.