Кодинг — ИИ, который пишет код для продакшена

Мы официально миновали ту точку, когда «сгенерированный ИИ код» означал игрушечные демоверсии. Эти три модели пишут код, который идет в релиз — планируя многофайловые рефакторинги, удерживая в памяти целые репозитории и самокорректируясь в ходе длительных задач. Думайте о них как о старших инженерах, которым никогда не нужны перерывы на кофе и которые прочитали каждый ответ на Stack Overflow, когда-либо написанный. В чем подвох? Они и берут плату как старшие инженеры.

Фильтр Все Повседневная экосистема Генерация изображений Программирование Создание приложений Исследования Цифровые архитекторы Академические наставники Видео Музыка и голос Локальный / Приватный ИИ Локальная генерация изображений Локальная генерация видео ИИ-агенты

Claude Fable 5

Программирование Anthropic · Выпущено 9 июня 2026 г.
#1
9.9/10

Новый король агентного кодинга. Модель класса Mythos от Anthropic не просто возглавляет бенчмарки — она переписывает их. SWE-Bench Pro 80.3% сокрушает конкурентов. FrontierCode Diamond 29.3% — это в 5 раз больше, чем у GPT-5.5. Stripe мигрировал 50 миллионов строк кода на Ruby за один день. Эффективна в использовании токенов, изначально понимает изображения (vision-native) и создана для долгосрочной инженерной работы, которая отличает инструменты от товарищей по команде.

SWE-Bench Pro 80.3% (SOTA — на 21.7 пункта выше GPT-5.5). FrontierCode Diamond 29.3% (в 5 раз выше 5.7% у GPT-5.5, в 2 раза выше 13.4% у Opus 4.8). CursorBench SOTA. Senior Engineer Benchmark 91/100 (против 62/100 у GPT-5.5). Миграция кодовой базы из 50 млн строк за один день. Прохождение игры только с помощью зрения. Интеграция с Claude Code. Контекст 1M.

Премиальное ценообразование — $10/$50 за миллион токенов (в 2 раза дороже Opus 4.8). Консервативные меры безопасности перенаправляют <5% сессий на Opus 4.8 (темы кибербезопасности, биологии). Независимые бенчмарки все еще появляются. Лимиты использования в периоды высокого спроса на тарифах Pro/Max. Лучше всего работает через Claude Code или совместимые IDE.


Mythos-class Agentic SWE-Bench Pro SOTA FrontierCode SOTA Vision Long-Horizon Premium API Claude Code

GPT-5.5

Программирование OpenAI · Выпущено 23 апреля 2026 г.
#2
9.8/10

Агентная модель кодирования, которая не просто автодополняет — она планирует, использует инструменты, отлаживает между файлами и завершает грязную работу в репозитории, пока вы выгуливаете собаку. Terminal-Bench 82,7% — это не опечатка.

Terminal-Bench 2.0 82,7% (сокрушает 69,4% Opus 4.7); Expert-SWE 73,1% в 20-часовых человеческих задачах; FrontierMath Tier 4 35,4%; на ~40% меньше выходных токенов; контекст 1M с нативным использованием инструментов и интеграцией с Codex.

Цена API в 2 раза выше ($5/$30 за 1М токенов); отстает от Claude Opus 4.7 на SWE-Bench Pro (58,6% против 64,3%); API недоступен на старте; ранние отчеты о галлюцинациях требуют проверки.


Coding Agentic Long Context Reasoning Tool-Use Efficiency Subscription Web Codex

Claude Opus 4.8

Программирование Anthropic · Выпущено 28 мая 2026 г.
#3
9.7/10

Новый золотой стандарт агентной разработки ПО — более быстрый, более честный и значительно лучше справляющийся со сложными, длительными задачами, не теряя при этом нити. SWE-Bench Pro 69.2% не просто превосходит любую другую модель — она бьет своего собственного предшественника почти на 5 пунктов. Dynamic Workflows порождают сотни параллельных агентов. А система самопроверки в 4 раза реже пропускает баги в коде. Это не инкрементальное обновление — это модель, которой должен был быть Opus 4.7.

SWE-Bench Pro 69.2% (новый SOTA — обходит 58.6% у GPT-5.5 и своего предшественника Opus 4.7 (64.3%) с огромным отрывом). Самый сильный на всех уровнях усилий в CursorBench. 100% от начала до конца в бенчмарке Super-Agent (единственная модель, достигшая этого). Динамические рабочие процессы (Dynamic Workflows) для крупномасштабных задач по кодовой базе. Та же цена $5/$25, что и у Opus 4.7. Доступен везде: Claude.ai, API, Bedrock, Vertex, GitHub Copilot.

По-прежнему премиальная цена ($5/$25 за 1 млн токенов — так же, как 4.7, но вывод дешевле, чем $30 у GPT-5.5). Более длинные цепочки рассуждений над сложными проблемами увеличивают задержку и расход токенов. Новый токенизатор все еще может завышать затраты на 15–35% на промптах, изобилующих кодом. Защитные меры остаются строгими. GPT-5.5 все еще лидирует в Terminal-Bench (78.2% против 74.6%). Лучший опыт — в Claude Code или совместимых IDE.


Hybrid Reasoning Agentic SWE-Bench SOTA Self-Verification Paid Tier Web API

GLM-5.2

Программирование Zhipu AI · Выпущено 13 июня 2026 г.
#4
9.4/10

Модель программирования с открытыми весами от Zhipu AI только что заняла 1-е место на Design Arena — первая открытая модель, возглавившая этот рейтинг. SWE-bench Pro 62,1%, Terminal-Bench 82,7 (Claude Code harness), FrontierSWE 74,4% (на 1% позади Opus 4.8). AkitaOnRails поднял её с 46/100 до 87/100 — самое большое улучшение внутри семейства за всю историю. Лицензия MIT, контекстное окно 1М для долгосрочной агентной работы и два уровня усилий по рассуждению. Открытый рубеж стал реальностью.

Design Arena #1 (Elo 1360 — превзошел Claude Fable 5), AkitaOnRails 87/100 Tier A (+41 балл от 46 у GLM-5.1), SWE-bench Pro 62,1% (обходит GPT-5.5 с 58,6% и Qwen 3.7 Max с 60,6%), Terminal-Bench 82,7 (Claude Code harness — немного опережает 78,9 у Opus 4.8), FrontierSWE 74,4% (на 1% позади Opus 4.8, на 1% впереди GPT-5.5). Самая рейтинговая модель с открытым исходным кодом во всех долгосрочных бенчмарках кодинга. Лицензия MIT без ограничений.

Всё ещё отстает от закрытых лидеров на некоторых глубоких бенчмарках — Opus 4.8 лидирует в SWE-bench Pro (69,2 против 62,1), NL2Repo (69,7 против 48,9), DeepSWE (58,0 против 46,2). Архитектура 744B MoE означает, что для локального развертывания требуется серьезное оборудование. Нет нативных визуальных возможностей. Место в общей текстовой арене lmarena — выше среднего (диапазон 7-10 мест), пока не доминирует в общих чатах.


Open Weights MIT 1M Context MoE Agentic Reasoning API Design Arena #1

Часто задаваемые вопросы

Claude Fable 5 от Anthropic в настоящее время является моделью для кодинга №1, доминируя в бенчмарках благодаря превосходному логическому мышлению, планированию кода и низкому уровню синтаксических ошибок. GPT-5.5 занимает 2-е место, за ним следует Claude Opus 4.8 на 3-м месте и Qwen 3.7 Max на 4-м месте.

Для небольших приложений, одностраничных инструментов и скриптов — да. Для крупномасштабных корпоративных систем ИИ — это мощный помощник, который ускоряет написание функций и рефакторинг, но инженер-человек по-прежнему необходим для проектирования архитектуры и ревью кода.

Проверьте свои настройки ИИ! В большинстве коммерческих расширений IDE (таких как Cursor или VS Code Copilot) есть переключатели отказа от использования данных для обучения. Если у вас строгие требования к соответствию нормам, используйте локальные оффлайн-модели для кодинга через Ollama.

ИИ заменяет механические части кодинга (написание шаблонного кода, поиск синтаксиса, отладку опечаток). Он превращает разработчиков в системных архитекторов и режиссеров. Программисты, которые используют ИИ, заменят программистов, которые этого не делают.