Claude Opus 4.8

Anthropic · Chiqarilgan 28-may, 2026

9.7 /10 Umumiy baho

Aslida bu nima

Ushbu sharhni yozishni osonlashtiradigan bitta raqam bor: 69.2%. Bu Opus 4.8 ning SWE-Bench Pro dagi natijasi — o’yinchoq muammolar bilan qiziqmaydigan, faqatgina SI haqiqiy ishlab chiqarish kod bazalaridagi haqiqiy xatolarni to’g’irlay olishini tekshiradigan benchmark. GPT-5.5 da 58.6%. Opus 4.7 da 64.3%. Gemini 3.1 Pro esa 54.2% ni qayd etgan.

Farq shunchaki katta emas — bu raqobatchilarni uyaltiradigan darajada ulkan.

Bugun (28-may, 2026-yil) chiqarilgan Claude Opus 4.8 o’zining oldingi (4.7) versiyasini kodlash qiroli qilgan hamma narsaga asoslanadi va uni orqaga tortgan barcha narsani to’g’irlaydi. Gibrid mantiqiy xulosa chiqarish dvigateli endi yanada o’tkir. O’z-o’zini tekshirish davralari xatoliklarni mahsulot (dastur) yetkazib berilishidan oldin ushlashda 4 barobar ishonchli. Va yangi urinishni (effort) boshqarish tizimi shuni anglatadiki, endi siz tanlaysiz: tezroq o’ylasinmi yoki chuqur o’ylasinmi.

Biroq eng asosiy xususiyat — Dynamic Workflows (Dinamik ish jarayonlari). Claude Code endi yuzlab parallel sub-agentlarni yarata oladi — ularning har biri katta hajmdagi kod bazasini ko’chirish, xatolarni tozalash yoki boshqa dasturlash tiliga o’tkazish kabi ishlarning bir qismini hal qiladi. Bu haqiqiy muhandislik jamoasiga SI ga ega eng yaqin ko’rinish. Va Super-Agent benchmarkida Opus 4.8 har bir testni noldan boshlab oxirigacha tugatgan yagona model bo’ldi.

Halol eslatma? GPT-5.5 Terminal-Bench da hali ham yetakchi (74.6% ga qarshi 78.2%) — agar ishingiz terminal (shell) da tez-tez kod yozish va sinash bo’lsa, OpenAI ning ustunligi bor. Va qiyin masalalarda uzoq o’ylash tokenlarni tez yondiradi. Ammo haqiqiy mahsulot yaratish kabi chuqur, ko’p faylli muhandislik ishlari uchun — chinakamiga muhim ishlar uchun — Opus 4.8 o’zining shaxsiy ligasida joylashgan.

Asosiy afzalliklari

SWE-Bench Pro 69.2% (SOTA): SI haqiqiy kod bazalaridagi haqiqiy xatolarni (bug) tuza oladimi yoki yo’qligini o’lchaydigan benchmark. Opus 4.8 GPT-5.5 (58.6%) ni 10.6 ballga, o’zining oldingi versiyasi Opus 4.7 (64.3%) ni 4.9 ballga va Gemini 3.1 Pro (54.2%) ni 15.0 ballga ortda qoldirdi. Bu biron bir model ushbu benchmarkda ko’rsatgan eng katta ustunlikdir.
Haqiqatda ishlaydigan o’z-o’zini tekshirish: Kod xatolarini e’tiborsiz o’tkazib yuborish ehtimoli 4 marta kamroq. Opus 4.8 o’z xatolarini ushlaydi, reja ishonchli bo’lmasa rad etadi, va ish tugaganligini gallyutsinatsiya qilish o’rniga, jarayon qanday ketayotganini halollik bilan xabar qiladi. Oldingi modellarni qiynagan “Men tugatdim” degan yolg’on asosan yo’qoldi.
Dynamic Workflows (Dinamik ish jarayonlari): Claude Code endi keng ko’lamli vazifalar — kod bazasini ko’chirish, xatolarni tozalash (bug sweep), dillarni port qilish (o’tkazish) uchun yuzlab parallel sub-agentlarni yaratishi va boshqarishi mumkin. Buni shunchaki kod yozish emas, balki SI loyihalarini boshqarish sifatida tasavvur qiling.
100% Super-Agent yakuni: Barcha oldingi Opus modellari va GPT-5.5 ni yengib, Super-Agent benchmarkidagi har bir vazifani oxirigacha yetkazgan yagona model. Agentning ishonchliligi endi shunchaki gap emas — u o’lchanadigan ko’rsatkich.
Urinishni (Effort) boshqarish: Endi uning qanchalik qattiq o’ylashini o’zingiz tanlaysiz — Default, Extra, yoki Max. Oddiy vazifalarda Opus 4.7 ni qiynagan “dangasalik” muammosi bilan boshqa kurashmaysiz. Tezkor natija so’rang, tezkor natija oling. Chuqur tahlil so’rang, chuqur tahlil oling.

Benchmark natijalari

SWE-Bench Pro — 69.2% (SOTA) Haqiqiy dasturiy injiniring. Model shu paytgacha ko'rsatgan eng yuqori natija — GPT-5.5 (58.6%), Opus 4.7 (64.3%) va Gemini 3.1 Pro (54.2%) ni yengdi. Eng yaqin raqobatchisidan 10.6 ball oldinda.
Terminal-Bench — 74.6% Terminal orqali tezkor kod yozish. Yaxshi natija, lekin GPT-5.5 78.2% bilan yetakchilikni saqlab qoldi. Opus chuqur mantiqiy fikrlash vazifalarida ustun bo'lsa, GPT-5.5 tezkor iteratsiyada ustun.
Super-Agent — 100% Tarjima, chuqur tadqiqot, slayd yaratish va tahlil qilish bo'yicha kompleks agent vazifalarini yakunlash. Barcha holatlarni oxiriga yetkazgan yagona model.

Haqiqiy cheklovlar

Token xarajati sezilarli: 4.7 bilan nominal narx bir xil (million token uchun $5/$25), ammo murakkab vazifalarda chuqur o’ylash ko’proq tokenni yondiradi. Tokenizator hali ham kodga boy so’rovlarda xarajatlarni 15–35% ga oshirib yuborishi mumkin. Budjetni shunga qarab rejalashtiring.
Terminal-Bench orqada: Terminalda tezkor iteratsiya qilish (rapid terminal iteration) vazifalarida GPT-5.5 (78.2%) Opus 4.8 dan (74.6%) oldinda. Agar sizning ish jarayoningiz asosan shell (qobiq) buyruqlariga asoslangan bo’lsa, GPT-5.5 ustunlikka ega.
Qiyin masalalarda kutish (Latency): Chuqur o’ylash jarayonlari murakkab vazifalarda uzoqroq kutishni anglatadi. Fast (Tez) rejim (2.5× tezroq, 3× arzonroq) yengilroq ishlar uchun yordam beradi, biroq eng qiyin muammolar baribir sabr talab qiladi.
Qat’iy xavfsizlik choralari: Kiberxavfsizlik himoyasi ma’lum yuqori xavfli kod shablonlarini (patterns) bloklaydi. Qonuniy xavfsizlik tadqiqotchilari xato taqiqlarga (false positives) uchrashi mumkin.

Xulosa: Kodlash qirolligi toji, hech qanday qo’shimcha shartlarsiz. Opus 4.7 murakkab muhandislik muammolarida shubhasiz qirol edi, lekin oddiy masalalarda qoqilardi. Opus 4.8 har ikki tomonni to’g’rilaydi — SWE-Bench Pro’dagi yetakchilik jarlikka aylanadi (GPT-5.5 ning 58.6% iga qarshi 69.2%), kuchni (effort) boshqarish tizimi esa ‘dangasalik’ shikoyatlarini yo’q qiladi. O’z-o’zini tekshirish tizimining yaxshilanishi eng asosiy yangilikdir: o’z xatolarini sizdan oldin topa oladigan model. GPT-5.5 hali ham terminal tezligida g’alaba qozonadi, ammo asil mahsulotlarni (features) ishlab chiqaradigan chuqur, ko’p faylli muhandislik ishlari uchun — eng zo’ri shu.