Dasturlash — Ishlab chiqarish (Production) uchun kod yozadigan SI

Biz "SI tomonidan yaratilgan kod" deganda o'yinchoq demolarni tushunadigan nuqtadan rasman o'tdik. Ushbu uchta model relizga ketadigan (production) kodlarni yozadi — ko'p faylli refaktoringlarni rejalashtiradi, butun repozitoriylarni xotirasida saqlaydi va uzoq vazifalar davomida o'zini o'zi to'g'rilaydi. Ularni qahva tanaffuslariga ehtiyoj sezmaydigan va Stack Overflow'dagi har bir javobni o'qib chiqqan katta (senior) muhandislar deb tasavvur qiling. Xo'sh, muammo nimada? Ularning narxi ham katta muhandislarnikidek.

Filtr Barchasi Kundalik Ekosistema Rasm Yaratish Dasturlash Ilova Yaratuvchilar Tadqiqot Raqamli Arxitektorlar Akademik Ustozlar Video Musiqa va Ovoz Mahalliy / Shaxsiy AI Mahalliy Rasm Yaratish Mahalliy Video Yaratish AI Agentlar

Claude Fable 5

Dasturlash Anthropic · Chiqarilgan 9-iyun, 2026
#1
9.9/10

Agentli dasturlashning yangi qiroli. Anthropic'ning Mythos sinfidagi ushbu modeli nafaqat benchmarklarda yetakchilik qiladi, balki ularni qaytadan yozib chiqadi. SWE-Bench Pro dagi 80.3% natija qolganlarni tor-mor etadi. FrontierCode Diamond 29.3% — bu GPT-5.5 dan 5 barobar ko'p degani. Stripe bir kun ichida Ruby'da yozilgan 50 million qator kodni ko'chirib o'tkazdi (migratsiya). Token tejamkor, vizual tasvirlarni yaxshi tushunadigan (vision-native) va asboblarni haqiqiy hamkasbga aylantiradigan uzoq muddatli muhandislik ishlari uchun yaratilgan.

SWE-Bench Pro 80.3% (SOTA — GPT-5.5 dan 21.7 ball baland). FrontierCode Diamond 29.3% (GPT-5.5 ning 5.7% dan 5 barobar, Opus 4.8 ning 13.4% dan 2 barobar yuqori). CursorBench SOTA. Katta muhandislar (Senior Engineer) benchmarki 91/100 (GPT-5.5 da bu 62/100). Bir kun ichida 50 million qator kodni ko'chirish (migratsiya). Faqat ko'rish qobiliyati orqali o'yinni tugatish. Claude Code integratsiyasi. 1M (bir million) kontekst.

Har bir million token uchun $10/$50 bo'lgan yuqori (premium) narx (Opus 4.8 dan 2 barobar qimmat). Qat'iy xavfsizlik choralari seanslarning 5% dan kamrog'ini (kiberxavfsizlik, biologiya kabi mavzularda) Opus 4.8 ga yo'naltiradi. Mustaqil benchmarklar endigina paydo bo'lmoqda. Talab yuqori bo'lgan paytlarda Pro/Max tariflarida foydalanish cheklovlari (limitlar) mavjud. Eng yaxshi tajriba Claude Code yoki mos keluvchi IDE lar orqali seziladi.


Mythos-class Agentic SWE-Bench Pro SOTA FrontierCode SOTA Vision Long-Horizon Premium API Claude Code

GPT-5.5

Dasturlash OpenAI · Chiqarilgan 2026 yil 23 aprel
#2
9.8/10

Nafaqat avtotugallash (autocomplete) ni bajaradigan agentik kodlash modeli — siz itni sayr qildirayotganingizda u rejalashtiradi, asbob-uskunalardan foydalanadi, fayllar aro nosozliklarni tuzatadi (debug) va tartibsiz repozitoriy (repo) vazifasini yakunlaydi. Terminal-Bench 82.7% xato emas.

Terminal-Bench 2.0 82.7% (Opus 4.7 ning 69.4% ini tor-mor qiladi); 20 soatlik inson vazifalarida Expert-SWE 73.1%; FrontierMath Tier 4 35.4%; chiqish tokenlari (output tokens) ~40% kamroq; mahalliy asboblardan foydalanish va Codex integratsiyasi bilan 1M kontekst.

API narxi 2 baravar qimmat (1M token uchun $5/$30); SWE-Bench Pro da Claude Opus 4.7 dan orqada qolmoqda (58.6% ga qarshi 64.3%); API taqdimot paytida jonli emas; boshlang'ich gallyutsinatsiya hisobotlari tekshirilishi kerak.


Coding Agentic Long Context Reasoning Tool-Use Efficiency Subscription Web Codex

Claude Opus 4.8

Dasturlash Anthropic · Chiqarilgan 28-may, 2026
#3
9.7/10

Agentli dasturiy injiniringning yangi oltin standarti — tezroq, halolroq va murakkab, uzoq davom etuvchi vazifalarda chalg'ib ketmaslikda ancha yaxshiroq. SWE-Bench Pro'dagi 69.2% natija nafaqat boshqa barcha modellarni ortda qoldiradi, balki uning o'zidan oldingi versiyasini ham qariyb 5 ballga yengadi. Dynamic Workflows (Dinamik ish jarayonlari) yuzlab parallel agentlarni yaratadi. Va kod xatolarini o'tkazib yuborish ehtimoli 4 baravar kam bo'lgan o'z-o'zini tekshirish tizimi. Bu oddiy kichik yangilanish emas — bu Opus 4.7 aynan qanday bo'lishi kerakligining o'zidir.

SWE-Bench Pro 69.2% (yangi SOTA — GPT-5.5 ning 58.6% i va oldingi Opus 4.7 ning 64.3% ini katta farq bilan yengdi). Barcha urinish darajalarida (effort levels) CursorBench'da eng kuchli. Super-Agent benchmarkida noldan oxirigacha 100% (bunga erishgan yagona model). Katta hajmdagi kod bazasi vazifalari uchun Dynamic Workflows. Opus 4.7 bilan bir xil $5/$25 narx. Hamma joyda mavjud: Claude.ai, API, Bedrock, Vertex, GitHub Copilot.

Hali ham yuqori (premium) narxda (1M token uchun $5/$25 — 4.7 bilan bir xil, lekin output (chiqarish) narxi GPT-5.5 ning $30 idan arzonroq). Qiyin muammolarni uzoq o'ylash natijani kutish vaqtini va token sarfini oshiradi. Yangi tokenizator kod ko'p bo'lgan so'rovlarda xarajatlarni hamon 15–35% ga oshirib yuborishi mumkin. Xavfsizlik qoidalari qat'iyligicha qolmoqda. Terminal-Bench da GPT-5.5 hali ham yetakchi (74.6% ga qarshi 78.2%). Eng yaxshi tajriba Claude Code yoki mos keluvchi IDE larda ko'rinadi.


Hybrid Reasoning Agentic SWE-Bench SOTA Self-Verification Paid Tier Web API

GLM-5.2

Dasturlash Zhipu AI · Chiqarilgan 2026 yil 13 iyun
#4
9.4/10

Zhipu AI'ning ochiq vaznli kodlash modeli endigina Design Arena-da 1-o'rinni egalladi — bu yetakchilar taxtasini boshqargan birinchi ochiq model. SWE-bench Pro 62.1%, Terminal-Bench 82.7 (Claude Code harness), FrontierSWE 74.4% (Opus 4.8 dan 1% orqada). AkitaOnRails uni 46/100 dan 87/100 gacha ko'tardi — bu tarixdagi eng katta oilaviy yaxshilanishdir. MIT litsenziyasi, uzoq ufqdagi agent ishi uchun qurilgan 1M kontekst oynasi va ikkita fikrlash darajasi. Ochiq chegaralar endi haqiqatga aylandi.

Design Arena #1 (Elo 1360 — Claude Fable 5 dan o'zib ketdi), AkitaOnRails 87/100 A darajasi (GLM-5.1 dagi 46 balldan +41 ballga oshdi), SWE-bench Pro 62.1% (GPT-5.5 ning 58.6% va Qwen 3.7 Max ning 60.6% ko'rsatkichlaridan ustun), Terminal-Bench 82.7 (Claude Code harness — Opus 4.8 ning 78.9 ko'rsatkichidan biroz o'zib ketdi), FrontierSWE 74.4% (Opus 4.8 dan 1% orqada, GPT-5.5 dan 1% oldinda). Barcha uzoq ufqdagi kodlash benchmarklarida ochiq kodli modellar orasida eng yuqori o'rinda. Cheklovlarsiz MIT litsenziyasi.

Hali ham bir qator chuqur (depth) benchmarklarda yopiq chegara yetakchilaridan orqada qolmoqda — Opus 4.8 SWE-bench Pro (69.2 ga qarshi 62.1), NL2Repo (69.7 ga qarshi 48.9), DeepSWE (58.0 ga qarshi 46.2) bo'yicha yetakchilik qilmoqda. 744B MoE arxitekturasi mahalliy o'rnatish uchun jiddiy apparat kerakligini anglatadi. Mahalliy ko'rish qobiliyatlari yo'q. lmarena umumiy matn maydonidagi o'rni o'rtachadan yuqori (7-10 o'rinlar orasida), u hali umumiy chatlarda hukmronlik qilmayapti.


Open Weights MIT 1M Context MoE Agentic Reasoning API Design Arena #1

Ko'p so'raladigan savollar

Anthropic’ning Claude Fable 5 modeli hozirgi kunda mukammal mantiqiy fikrlash, kodni rejalashtirish va sintaktik xatolarning past darajasi bilan bençmarklarda yetakchilik qilib, №1 kod yozuvchi model hisoblanadi. GPT-5.5 2-o’rinda, undan keyin 3-o’rinda Claude Opus 4.8 va 4-o’rinda Qwen 3.7 Max bormoqda.

Kichik ilovalar, bir sahifali vositalar va skriptlar uchun — ha. Keng ko’lamli korporativ tizimlar uchun esa, SI funksiyalarni yozish va refaktoringni tezlashtiradigan kuchli yordamchidir, ammo arxitekturani loyihalash va kodni tekshirish (review) uchun hali ham inson-muhandis zarur.

SI sozlamalaringizni tekshiring! Aksariyat tijoriy IDE kengaytmalarida (masalan, Cursor yoki VS Code Copilot) ma’lumotlarni o’qitish uchun ishlatishdan voz kechish (opt-out) tugmalari mavjud. Agar sizda xavfsizlik va muvofiqlik bo’yicha qat’iy talablar bo’lsa, Ollama orqali oflayn ishlaydigan lokal kodlash modellaridan foydalaning.

SI dasturlashning mexanik qismlarini (qolipli kodlarni yozish, sintaksisni qidirish, xatolarni tuzatish) o’rnini bosmoqda. U dasturchilarni tizim arxitektorlari va rahbarlarga aylantiradi. SIdan foydalanadigan dasturchilar undan foydalanmaydigan dasturchilarning o’rnini egallaydilar.