GPT-5.5

OpenAI · Chiqarilgan 2026 yil 23 aprel

9.8 /10 Umumiy baho

Aslida bu nima

2026 yilda sun’iy intellektni kodlash bilan bog’liq narsa shu: ilgari muhim bo’lgan benchmarklar endi muhim benchmarklar emas. SWE-Bench Pro model bitta GitHub muammosini (issue) toza hal qila olishini tekshiradi. Bu muhim — lekin bu ko’pchilik ishlab chiquvchilarga kerakli narsa emas. Aksariyat ishlab chiquvchilarga noaniq vazifani (vague ticket) olish, tartibsiz kod bazasini (messy repo) o’rganish, yondashuvni rejalashtirish, asboblardan foydalanish, turli fayllarda kod yozish, uni sinab ko’rish va ishlaguncha qayta takrorlash (iterate) mumkin bo’lgan model kerak. Bu Terminal-Bench. Va GPT-5.5 unga egalik qiladi.

Terminal-Bench 2.0 dagi 82.7% ko’rsatkichi shunchaki raqam emas — bu Claude Opus 4.7 (69.4%) dan 13 ballik farq. Expert-SWE da 73.1% ni tashkil qilishi shuni anglatadiki, GPT-5.5 tajribali muhandislarga (senior engineers) to’liq bir kun yoki undan ko’proq vaqt talab qiladigan vazifalarni hal qiladi. Va u buni GPT-5.4 ga qaraganda 40% kamroq chiqish tokenlaridan (output tokens) foydalangan holda amalga oshiradi, ya’ni bir token uchun narx ikki baravarga ko’tarilgan bo’lishiga qaramay, Codex dagi seanslaringiz tezroq va bitta vazifa uchun arzonroq. Muammoni tasvirlab berganingizda model rejalashtiradigan, amalga oshiradigan va tekshiradigan agent kodlash davri endi faqat xayoliy narsa emas. Bu mahsulot, va Codex-dagi GPT-5.5 uning eng aniq ijrosidir.

Asosiy afzalliklari

Terminal-Bench 2.0 — 82.7%: Agentik kodlash va terminal ishlari (workflows) uchun benchmark. GPT-5.5 Opus 4.7 (69.4%) va Gemini 3.1 Pro (68.5%) ni ikki xonali farqlar bilan siqib chiqaradi. Bu aslida nima muhimligini tekshiradi: modelga haqiqiy terminalda tartibsiz vazifani bering va u tugatadimi yoki yo’qmi shuni ko’ring.
Expert-SWE — 73.1%: Yuqori malakali muhandislarga (senior engineers) medianasi 20 soat ketadigan vazifalar. GPT-5.5 ularning 73.1 foizini hal qiladi (GPT-5.4 da 68.5% edi). Bu ‘yaxshi avto-to’ldirish’ni ‘haqiqiy muhandislik hamkori’dan ajratib turadigan benchmarkdir.
FrontierMath Tier 4 — 35.4%: Matematik fikrlashning eng qiyin darajasi. Opus 4.7 22.9%, Gemini 16.7% ball to’playdi. GPT-5.5 katta farq bilan oldinda — yangi algoritmik muammolarni xatosiz ishlashda o’ta muhim.
40% kamroq chiqish tokenlari (output tokens): Kechikish (latency) GPT-5.4 bilan bir xil, lekin u samaraliroq muloqot qiladi. Codex vazifalarida bu tokenga ikki baravar narx tushgan bo’lishiga qaramay, real tezlik va xarajatlarni yaxshilashga aylanadi.
1M kontekst + Codex integratsiyasi: Butun monorepolarni yuklang. Model sizning arxitekturangizni o’qiydi, naqshlaringizni tushunadi va ommaviy standart kod (boilerplate) ni emas, balki to’g’ri keladigan kodni yozadi. Codex ekranni mahalliy o’qish va vositalardan foydalanish bilan 400K kontekstga ega bo’ladi.

Benchmark natijalari

Terminal-Bench 2.0 — 82.7% Agentik kodlash va terminal ishlari oqimi (workflows). Opus 4.7 (69.4%) dan 13+ pog'ona oldinda — har qanday yirik kodlash benchmarkidagi eng katta farq.
Expert-SWE — 73.1% Uzoq ufqdagi muhandislik vazifalari (20 soatlik mediana). GPT-5.4 ning 68.5% dan yuqorilagan. Model murakkab, ko'p seansli ishlarda sifatni saqlab qolishini isbotlaydi.
SWE-Bench Pro — 58.6% Ishlab chiqarish (production) darajasidagi GitHub muammolari. 57.7% dan yaxshilandi, ammo Claude Opus 4.7 hali ham 64.3% bilan yetakchilik qilmoqda. Halol farq.
FrontierMath Tier 4 — 35.4% Matematik fikrlashning eng qiyin bosqichi. Opus 4.7 (22.9%) dan 12.5 ball oldinda. Yangi algoritm dizayni uchun juda muhim.

Haqiqiy cheklovlar

SWE-Bench Pro — 58.6%: Claude Opus 4.7 hali ham 64.3% bilan yetakchilik qilmoqda. Tor, yuqori xavfli (high-stakes) bitta masaladagi nosozliklarni tuzatish va arxitektura jihatidan murakkab refaktorlar (qayta ishlashlar) uchun Opus chuqurlik (depth) qiroli bo’lib qolmoqda. GPT-5.5 ish oqimida g’olib chiqadi; Opus to’g’ridan-to’g’ri nuqta amaliyotida yutadi.
API narxi ikki barobarga oshdi: Kirish $5/M, chiqish $30/M. Pro esa $30/$180. Token samaradorligi yordam beradi, ammo uzoq muddatli agent sessiyalari baribir to’planib boradi. Qurishdan oldin byudjetingizni hisoblang.
API hali jonli emas: Taqdimot vaqtida GPT-5.5 faqat ChatGPT va Codex da mavjud. API ga kirish ‘juda tez orada’ keladi — agar siz avtomatlashtirilgan jarayonlar qursangiz, u holda kutishingiz kerak.
Gallyutsinatsiya xavfi: Bitta erta mustaqil hisobot hamma narsani biluvchi (omniscience) baholashlarida yuqori gallyutsinatsiya darajasini qayd etdi. Xavfsizlikka ta’sir qiluvchi ishlab chiqarish kodi (production code) uchun batafsil ko’rib chiqish bilan birga ishlating.

Xulosa: Agentik kodlash qiroli. GPT-5.5 barcha tor benchmarklarda ham g’alaba qozonavermaydi — Opus 4.7 hali ham SWE-Bench Pro dagi chuqurlikka ega — lekin u 2026 yilda 90% dasturchilar uchun muhim bo’lgan toifada ustunlik qiladi: minimal enagalik bilan murakkab, noaniq, ko’p faylli ishlarni marraga yetkazish. Terminal-Bench 82.7% sarlavha, biroq asl voqea insonlar tomonidan 20 soat vaqt talab qiladigan vazifalarda Expert-SWE ning 73.1% ga yetishidir. Unga iflos (tartibsiz) reponi bering va o’z ishingizni qiling. U jarrohlik darajasidagi refaktorlar uchun Opusga tenglasha olmaydi, ammo terminal vazifalaridan tortib bir necha faylli (multi-file) nosozliklarni tuzatish va vositalardan foydalanuvchi agentlargacha bo’lgan to’liq spektrda ‘menga ishlaydigan yechimni bering’ deb aytishingiz mumkin bo’lgan mavjud eng kuchli universal (all-rounder) variantdir.