Claude Fable 5
Anthropic · Chiqarilgan 9-iyun, 2026
Aslida bu nima
Ushbu sharhni yozishni osonlashtiradigan bitta raqam bor: 80.3%. Bu Claude Fable 5 ning SWE-Bench Pro’dagi natijasi — bu benchmark o’yinchoq muammolarga e’tibor bermaydi, uni faqat SI haqiqiy ishlab chiqarish kod bazalaridagi haqiqiy xatolarni (buglarni) tuzata oladimi-yo’qmi qiziqtiradi. GPT-5.5 da 58.6% natija. Oldingi qirol, Opus 4.8 esa 69.2% ball olgan. Fable 5 shunchaki yengmaydi — u shu qadar katta farq bilan yengadiki, raqamlarni qayta tekshirishga majbur bo’lasiz.
Ammo SWE-Bench Pro bu hikoyaning faqat yarmi xolos. Modellar ishlab chiqarish sifatidagi tokenni tejaydigan kodni yoza oladimi-yo’qligini baholovchi Cognition’ning benchmarki — FrontierCode Diamond ikkinchi yarmini aytib beradi. Fable 5: 29.3%. Opus 4.8: 13.4%. GPT-5.5: 5.7%. Bu shunchaki yetakchilik emas; bu butunlay boshqa sport turi. Va model ushbu ballarga o’rtacha mantiqiy kuchlanish sarflab erishadi, ya’ni yaxshiroq kod ishlab chiqarish uchun kamroq token yondiradi. Aslida haqiqiy vazifalarda ancha arzonga tushadigan qimmat model.
Stripe misoli esa press-relizdagi xayoliy narsa emas. 50 million qatorli Ruby kod bazasi — muhandislarni terlatib yuboradigan ulkan monolit (tizim) — bir kunda ko’chirib (migratsiya) o’tkazildi. Butun boshli jamoa ikki oyda qiladigan ish. Model rejalashtirdi, bajardi, o’zini o’zi tekshirdi va natijani topshirdi. CursorBench haqida gapirar ekan, Cursor bosh direktori u “oldingi modellar uchun imkonsiz bo’lgan uzoq muddatli muammolar sinfini ochib berganini” aytdi. Senior Engineer Benchmark (katta muhandislar) sinovida u 100 dan 91 ball to’pladi — vaholanki GPT-5.5 va Opus 4.8 60 lar atrofida qolib ketgan edi.
Mythos sinfi arxitekturasini xavfsizlik to’siqlariga o’rab, dasturchilarga berganingizda u aynan shunday ko’rinishda bo’ladi. Xavfsizlik to’siqlari haqiqiy — kiberxavfsizlik, biologiya va kimyo so’rovlari Opus 4.8 ga (hali ham ajoyib model, biroq to’liq dvigatel emas) yo’naltiriladi. Ammo xavfsizlik klassifikatorlarini ishga tushirmaydigan 95%+ dasturlash ishlari uchun siz shu paytgacha ommaga taqdim etilgan eng kuchli model bilan ishlaysiz. Agentli dasturlash erasi endi o’zining eng yaqqol chempionini topdi.
Asosiy afzalliklari
- SWE-Bench Pro 80.3% — yangi SOTA: Haqiqiy dasturiy injiniringni (software engineering) sinovdan o’tkazadigan benchmark endigina yangi mutlaq rekordni o’rnatdi. Fable 5 GPT-5.5 ni (58.6%) 21.7 ballga va o’zining avvalgi versiyasi Opus 4.8 ni (69.2%) 11.1 ballga ortda qoldirdi. Bu shunchaki yaqin poyga emas — bu umuman boshqa liga.
- FrontierCode Diamond 29.3% — token tejamkorligi yangidan ta’riflandi: Cognition’ning yuqori sifatli ishlab chiqarish kodi (production code) uchun benchmarki Fable 5 ni 29.3%, Opus 4.8 ni 13.4% va GPT-5.5 ni 5.7% da ko’rsatmoqda. Model hatto o’rtacha mantiqiy kuchlanishda ham yetakchi natijalarga erishadi — bu degani yaxshiroq natijalar uchun kamroq token sarflanadi.
- 50 million qator kodda o’z tasdig’ini topgan: Stripe butun bir jamoaga ikki oy vaqt talab qiladigan ishni — 50 million qatorli Ruby kod bazasini bir kun ichida ko’chirish (migratsiya) uchun Fable 5 dan foydalandi. Bu oddiy benchmark yoki demo emas. Ishlab chiqarish bazasidagi haqiqiy kod (Production code).
- Ko’rish qobiliyatiga asoslangan dasturlash (Vision-native): Veb-ilovalarni faqat skrinshotlarning o’zidan qayta yarata oladi. Ilmiy grafiklardan aniq raqamlarni ajratib oladi. Pokémon FireRed o’yinini hech qanday yordamchi dasturlar va o’yin holati (game-state) ma’lumotlarisiz faqat ko’rish qobiliyati bilan tugatdi. Model ekraningizni o’qiydi va ko’rgan narsasi asosida kod yozadi.
- Uzoq muddatli avtonom ishlash: Reja tuzadi, vazifalarni kichik agentlarga (sub-agents) bo’lib beradi, o’z testlarini yozadi va ishga tushiradi hamda ko’p kunlik seanslar davomida o’z-o’zini to’g’rilab boradi. Doimiy fayl xotirasi (persistent file-based memory) Slay the Spire o’yinida Opus 4.8 ga qaraganda unumdorlikni 3 barobar yaxshiladi. U nafaqat ishni kuchli boshlaydi — balki oxirigacha shunday qoladi.
-
SWE-Bench Pro — 80.3% (SOTA) Haqiqiy dasturiy injiniring (Software engineering). GPT-5.5 (58.6%) dan 21.7 ball va oldingi Opus 4.8 (69.2%) dan 11.1 ball yuqori. Dasturlash bo'yicha eng asosiy benchmarkda biror model egallagan eng katta ustunlik.
-
FrontierCode Diamond — 29.3% (SOTA) Token tejaydigan, ishlab chiqarish (production) sifatidagi kod. Opus 4.8 (13.4%) dan 2.2 marta va GPT-5.5 (5.7%) dan 5.1 marta yaxshiroq. Hatto o'rtacha mantiqiy kuchlanishda ham yetakchi natijalarga erishadi.
-
Senior Engineer Benchmark — 91/100 Katta farq bilan GPT-5.5 (62/100) va Opus 4.8 (63/100) dan o'zib ketdi. Katta muhandis (senior-level) darajasidagi xulosalarni sinash uchun ishlab chiqilgan vazifalar.
-
CursorBench — SOTA IDE ga integratsiya qilingan kodlash bo'yicha Cursor benchmarkida eng yaxshi (SOTA). "Oldingi modellar uchun yetib bo'lmas bo'lgan uzoq muddatli muammolar sinfini ochib berdi".
Haqiqiy cheklovlar
- ⚠️ AQSh fuqarosi bo’lmaganlar uchun kirish to’xtatilgan: 2026-yil 12-iyunda AQSh hukumati eksport nazorati bo’yicha direktiva chiqardi, bu esa barcha chet el fuqarolari uchun — ular AQSh ichida yoki tashqarisida bo’lishidan qat’i nazar — Fable 5 va Mythos 5 ga kirishni to’xtatib qo’ydi. Anthropic qoidalarga rioya qilish uchun ushbu modelni barcha mijozlar uchun o’chirib qo’yishga majbur bo’ldi. Boshqa barcha Anthropic modellari ishlab turibdi. Anthropic bu qarorga qo’shilmaydi va kirishni tiklash ustida ishlamoqda. So’nggi yangiliklar uchun ularning rasmiy bayonotlarini kuzatib boring.
- Yuqori (Premium) narx: Million token uchun $10/$50 bu Opus 4.8 ($5/$25) dan taxminan 2 barobar qimmat degani. Tokenlarni tejash murakkab vazifalarda buni qisman qoplasa-da, kam foydalanuvchilar (light users) buni o’z hisoblarida sezishadi. Pro obunachilari 22-iyungacha bepul kirish imkoniga ega, shundan so’ng kreditlar (pullik hisob) ishga tushadi.
- Belgilangan mavzularda xavfsizlik yo’nalishi: Kiberxavfsizlik, biologiya, kimyo yoki modelni distillash (distillation) bilan bog’liq so’rovlar avtomatik ravishda Opus 4.8 ga yo’naltiriladi. Bu seanslarning 5% dan kamrog’ida sodir bo’ladi va ba’zida xato ishga tushib qolishi mumkin. Qonuniy xavfsizlik bo’yicha tadqiqotchilarga Project Glasswing orqali cheklangan Mythos 5 kerak bo’lishi mumkin.
- Uchinchi tomon baholashlari endi chiqmoqda: Anthropic’ning o’z benchmarklari batafsil va misollarga boy, biroq LMSYS Arena va Artificial Analysis’ning to’liq raqamlari taqdimot kunidayoq mavjud emas. Ammo dastlabki belgilar juda ijobiy.
- To’g’ri muhitda eng yaxshi: Fable 5 Claude Code va API integratsiyalarida eng yorqin namoyon bo’ladi. claude.ai chat tajribasi kuchli, biroq modelning agentlik qobiliyatlari haqiqatan ham to’g’ri vositalar bilangina to’liq ochiladi.
Xulosa: Dasturlash qirolligi toji o’z egasini almashtirdi — hamda qat’iy ravishda. Claude Fable 5 SWE-Bench Pro’da GPT-5.5 ni shunchaki yengibgina qolmaydi — uni 21.7 ballga ortda qoldiradi. U FrontierCode Diamond’da shunchaki yetakchi emas — u 5 barobar katta farq bilan yetakchi. Va sintetik benchmarklardagi g’alabalardan farqli o’laroq, haqiqiy dalillar allaqachon mavjud: bir kunda ko’chirilgan (migratsiya) qilingan 50 million qator kod, faqat ko’rish qobiliyati orqali o’yinni tugatish, avtonom ko’p kunlik muhandislik seanslari. Oldingi Opus 4.8 skalpel qiroli edi; Fable 5 esa nafaqat skalpel qiroli, balki butun operatsiya xonasini boshqaradigan qirol hamdir. Ha, har bir token uchun 2 barobar qimmatroq turadi. Ha, seanslarning <5% i xavfsizlik sabab Opus 4.8 ga yo’naltiriladi. Ammo 2026-yilda professional dasturiy ta’minot yaratishni belgilab beradigan chuqur, murakkab, uzoq muddatli muhandislik ishlari uchun — bu hammaga ochiq bo’lgan eng kuchli kodlash modelidir. Nuqta.