GPT-5.5

OpenAI · Выпущено 23 апреля 2026 г.

9.8 /10 Общий рейтинг

Что это на самом деле

Вот что нужно знать о кодинге с ИИ в 2026 году: те бенчмарки, которые раньше имели значение, больше не имеют значения. SWE-Bench Pro проверяет, может ли модель чисто исправить одну проблему на GitHub. Это важно — но это не то, что на самом деле нужно большинству разработчиков. Большинству разработчиков нужна модель, которая может взять расплывчатый тикет, исследовать грязный репозиторий, спланировать подход, использовать инструменты, написать код в нескольких файлах, протестировать его и итерировать, пока он не заработает. Это Terminal-Bench. И GPT-5.5 доминирует в нём.

Terminal-Bench 2.0 на 82,7% — это не просто число, это разрыв в 13 пунктов по сравнению с Claude Opus 4.7 (69,4%). Expert-SWE на 73,1% означает, что GPT-5.5 решает задачи, на которые у старших инженеров уходит целый день или больше. И он делает это, используя на 40% меньше выходных токенов, чем GPT-5.4, а это значит, что ваши сеансы в Codex проходят быстрее и обходятся дешевле за задачу, несмотря на удвоенную цену за токен. Эра агентного кодинга — где вы описываете проблему, а модель планирует, выполняет и проверяет — больше не видение. Это продукт, и GPT-5.5 в Codex является его наиболее четким воплощением.

Ключевые преимущества

Terminal-Bench 2.0 — 82,7%: Бенчмарк для агентного кодинга и терминальных рабочих процессов. GPT-5.5 обходит Opus 4.7 (69,4%) и Gemini 3.1 Pro (68,5%) с двузначным отрывом. Это проверяет то, что действительно важно: дайте модели грязную задачу в реальном терминале и посмотрите, закончит ли она.
Expert-SWE — 73,1%: Задачи, на которые старшим инженерам требуется медиана в 20 часов. GPT-5.5 решает 73,1% из них, по сравнению с 68,5% у GPT-5.4. Это бенчмарк, который отделяет «хорошее автодополнение» от «реального партнера по инженерии».
FrontierMath Tier 4 — 35,4%: Самый сложный уровень математических рассуждений. Opus 4.7 набирает 22,9%, Gemini — 16,7%. GPT-5.5 лидирует с огромным отрывом — критически важно для отладки новых алгоритмических проблем.
На 40% меньше выходных токенов: Та же задержка, что и у GPT-5.4, но общается более эффективно. В задачах Codex это означает реальные улучшения скорости и стоимости, несмотря на удвоенную цену за токен.
Контекст 1M + интеграция Codex: Загружайте целые монорепозитории. Модель читает вашу архитектуру, понимает ваши паттерны и пишет код, который подходит — а не шаблонный бойлерплейт. Codex получает контекст 400K с нативным чтением экрана и использованием инструментов.

Результаты тестов

Terminal-Bench 2.0 — 82,7% Агентный кодинг и терминальные процессы. Более 13 пунктов опережения Opus 4.7 (69,4%) — самый большой разрыв в крупном бенчмарке.
Expert-SWE — 73,1% Долгосрочные инженерные задачи (медиана 20 часов). Рост с 68,5% у GPT-5.4. Доказывает способность модели поддерживать качество в сложной, многосессионной работе.
SWE-Bench Pro — 58,6% Проблемы GitHub производственного уровня. Улучшение с 57,7%, но Claude Opus 4.7 все еще лидирует (64,3%). Честный разрыв.
FrontierMath Tier 4 — 35,4% Самый сложный уровень математических рассуждений. На 12,5 баллов впереди Opus 4.7 (22,9%). Критически важно для дизайна новых алгоритмов.

Честные ограничения

SWE-Bench Pro — 58,6%: Claude Opus 4.7 по-прежнему лидирует с 64,3%. Для узких, ответственных отладок одной проблемы и архитектурно сложных рефакторингов Opus остается королем глубины. GPT-5.5 выигрывает в рабочем процессе; Opus выигрывает в точечных операциях.
Цены на API удвоены: $5/М на входе, $30/М на выходе. Версия Pro по $30/$180. Эффективность токенов помогает, но длительные агентные сессии всё равно складываются в сумму. Планируйте бюджет перед началом.
API еще не запущен: На момент запуска GPT-5.5 доступен только в ChatGPT и Codex. Доступ к API появится «очень скоро» — если вы строите автоматизированные пайплайны, вам придется подождать.
Осторожно с галлюцинациями: В одном из ранних независимых отчетов был отмечен повышенный уровень галлюцинаций в оценках всеведения. Для продакшн-кода, затрагивающего критические для безопасности системы, используйте в паре с тщательной проверкой.

Вердикт: Король агентного кодинга. GPT-5.5 не выигрывает во всех узких бенчмарках — Opus 4.7 все еще держит первенство по глубине в SWE-Bench Pro — но он доминирует в категории, которая важна для 90% разработчиков в 2026 году: доведение сложной, неоднозначной, многофайловой работы до финиша с минимальным присмотром. Terminal-Bench 82,7% — это заголовок, но реальная история — это Expert-SWE 73,1% в задачах, на которые у людей уходит 20 часов. Дайте ему грязный репозиторий и отойдите. Он не сравнится с Opus в хирургическом рефакторинге, но для всего спектра «дай мне рабочее решение» — от терминальных процессов до многофайловой отладки и агентов, использующих инструменты — это самый сильный универсал на рынке.