Gemma 4

Google DeepMind · Chiqarilgan 2026 yil 2 aprel (12B Unified: 2026 yil 3 iyun)

8.1 /10 Umumiy baho

Aslida bu nima

Aksariyat AI modellari taqdimoti sizga bitta model va bitta qarorni beradi: undan foydalaning yoki yo’q. Gemma 4 sizga beshta model beradi va boshqa savol beradi: sizda qanday uskunalar (hardware) bor?

Bu marketingga o’xshab ko’rinishi mumkin, ammo bu oila haqida eng foydali narsa shu. Har bir a’zo arxitekturaviy jihatdan farq qiladi — nafaqat bitta narsaning kattalashtirilgan nusxasi. Edge (chekka) modellari Per-Layer Embeddings (Har qavatdagi kiritishlar) dan foydalanadi. 12B ko’rish va audio enkoderlarini butunlay chiqarib tashladi. 26B tokenlarni 128 ta ekspert aralashmasi orqali yo’naltiradi. 31B esa har bir token uchun barcha 30.7 milliard parametrlarni sarflaydi. Bitta oila, turli xil muhandislik falsafalari, turli xil kelishuvlar (trade-offlar).

Keling, ularni ko’rib chiqaylik.

E2B — Cho’ntak AI (~1 GB RAM)

Eng kichik Gemma 4. Taxminan 1 GB operativ xotiraga sig’adigan darajada kvantlangan ikki milliard parametr. U matn, rasm va jonli audioni boshqaradi — barchasi qurilma ichida, barchasi oflayn. AIME 2026-da 37.5% ball to’playdi, bu Raspberry Pi-da ishlashi mumkin bo’lgan narsa uchun raqobatbardosh matematik mulohaza hisoblanadi. Asosiy sir Per-Layer Embeddings (PLE) dagi bo’lib, har bir dekoder qatlamiga parametrlar sonini oshirmasdan maksimal intellektni olish uchun o’zining shaxsiy kodlanishini beradi. Siz uni ish stoli (desktop) modelidek kuchli demaysiz, lekin arzon telefonda tezkor tarjimalar, fotosuratlar yoki ovozli so’rovlar uchun bu juda foydali.

E4B — Telefon quvvati (4–6 GB RAM)

E4B telefon uchun optimallashtirilgan modelga yetarlicha mulohaza yuritish uchun yetarli parametrlar berilganda nima bo’lishini ko’rsatadi. U AIME 2026-da 42.5% to’playdi — Gemma 3 ning ancha kattaroq 27B modelidan ikki baravar ko’p. Matn, rasm va audioni mahalliy darajada qayta ishlaydi, 128K kontekst oynasiga ega va ko’p bosqichli fikrlash uchun sozlanishi fikrlash rejimini (thinking mode) o’z ichiga oladi. Agar sizda 8+ GB RAM’ga ega zamonaviy flagman telefoningiz bo’lsa, bu “shunchaki telefonimdan oflayn rejimida so’rayman” degan so’zni shunchaki qiziqarli tryuk emas, balki jiddiy variantga aylantiradigan modeldir.

12B Unified — Noutbuklar uchun burilish nuqtasi (QAT bilan ~7 GB VRAM)

Shu yerda Gemma 4 ko’pchilik uchun qiziqarli bo’ladi. 2026 yil 3 iyunda chiqarilgan 12B Unified o’z o’lchamidagi boshqa hech bir model qila olmaydigan narsani qiladi: u matn, rasm va audioni bitta dekoderli transformatorda hech qanday alohida enkoderlarsiz boshqaradi. Xom tasvir bo’laklari (patchlar) va audio to’lqin shakllari yengil chiziqli qatlamlar (linear layers) orqali to’g’ridan-to’g’ri embedding makoniga kiradi. Oddiyroq arxitektura, pastroq kechikish, osonroq moslashtirish (fine-tuning).

Raqamlar: 77.2% MMLU Pro, 77.5% AIME 2026, 72.0% LiveCodeBench, 78.8% GPQA Diamond. Google uning 26B MoE-ga “umumiy xotiraning yarmidan kamroq hajmida” yaqinlashishini aytmoqda. 5 iyunda chiqarilgan rasmiy QAT (Quantization-Aware Training) varianti bilan Q4_0 versiyasi taxminan 6.7 GB VRAM ni talab qiladi. Spekulyativ dekodlash uchun Multi-Token Prediction (MTP) bilan birlashtiring va hamjamiyat testlarida RTX 4070 Super kabi 12 GB GPU-da soniyasiga 100–130+ tokenni ko’rsatmoqda. U hatto 16 GB birlashtirilgan xotiraga ega noutbuklarda ham ishlaydi — maxsus GPU talab qilinmaydi.

Agar siz ushbu oiladan bitta modelni istasangiz va yaxshi GPU-ga ega noutbukingiz bo’lsa, xuddi shu tanlov.

26B MoE — Samaradorlik bo’yicha ekspert (kvantlangan 15–18 GB VRAM)

26B jami 26 milliard parametrni o’z ichiga oladi, ammo bu yerda o’ziga xos fokus bor: har bir token uchun atigi 3.8 milliard faollashadi. O’rganilgan yo’naltiruvchi har bir token uchun 128 ta ekspert quyi tarmog’idan 2 tasini tanlaydi va ancha kam hisoblash xarajatlari evaziga 31B ga yaqin sifatni beradi. Buni mutaxassislar bilan to’la binoga ega bo’lish va har bir savol uchun faqat o’zingizga kerak bo’lgan ikkitasini chaqirish deb o’ylang.

U matn, tasvir va videoni (kichikroq modellar kabi nafaqat audioni) qo’llab-quvvatlaydi, 256K kontekst oynasiga ega va Arena AI ochiq modellari orasida 6-o’rinni egallaydi. Murosaga kelish joyi bu VRAM — sizga kvantlangan 15-18 GB kerak bo’ladi, bu RTX 4090, RTX 5060 Ti 16 GB yoki 32 GB+ birlashtirilgan xotirali Mac ni anglatadi. Agar sizda apparat bo’lsa va eng yaxshi razvedka va quvvat nisbatini istasangiz, bu sizning modelingiz.

31B Dense — Murosasiz gigant (kvantlangan 16–20 GB VRAM)

Hech qanday marshrutizatsiya yo’q, ekspertlar aralashmasi yo’q, yorliqlar (shortcuts) yo’q. 31B Dense barcha 30.7 milliard parametrni har bir tokenda faollashtiradi. Bu Gemma 4 oilasining eng yuqori sifat nuqtasi — Arena AI-dagi barcha ochiq modellar orasida 3-o’rinni egallaydi va AIME 2026-da 89.2% oladi. 26B (matn, rasm, video) bilan bir xil usullar, bir xil 256K kontekst oynasi, ammo har bir javobda maksimal mulohaza chuqurligi bor.

Narxi hisoblash quvvati bilan o’lchanadi. BF16 uchun ~71 GB VRAM kerak (korporativ darajadagi GPU). Ammo INT4 darajasida kvantlanganda u 16–20 GB xotiraga sig’adi, bu yuqori darajadagi iste’molchi GPU-da to’liq bajarilishi mumkin. Agar apparatingiz yetarli bo’lsa va aniqlik tezlikdan ko’ra muhimroq bo’lsa, bu ilg’or bulutli ishlashga (frontier cloud performance) eng yaqin keladigan ochiq modeldir.

Qaysi birini tanlash kerak?

Mana halol tanlov shpargalkasi:

Telefon, oflayn, tezkor vazifalar → E4B (yoki juda cheklangan qurilmalar uchun E2B)
Noutbuk, 8–12 GB GPU → QAT bilan 12B Unified
Noutbuk, 16 GB yagona xotira, GPU yo’q → QAT bilan 12B Unified (sekinroq lekin ishlaydi)
Ish stansiyasi (Workstation), RTX 4090 / 32 GB Mac → 26B MoE (vattiga eng yaxshi sifat)
Server yoki yuqori darajadagi ish stantsiyasi → 31B Dense (maksimal sifat)

Beshalasi ham Apache 2.0 litsenziyasini baham ko’radi, 140 dan ortiq tillarni qo’llab-quvvatlaydi va Ollama, llama.cpp, LM Studio, vLLM va Google AI Edge vositalar to’plami bilan ishlaydi. Oila a’zolari arxitekturada bir-biridan farq qiladi, lekin falsafada kelishib olgan: kimningdir bulutida emas, o’z apparatingizda ishlaydigan jiddiy sun’iy intellekt.

Asosiy afzalliklari

E2B — byudjet telefonlari uchun AI (1 GB RAM): Oila a’zolarining eng kichigi kvantlangan holatda ~1 GB xotiraga sig’adi. Matn, rasm va audio — barchasi qurilma ichida, barchasi oflayn. AIME 2026 da 37.5% ball oladi, bu ikki yil oldin ish stoli modeli uchun ajoyib bo’lar edi. Eng kam parametrlardan maksimal aqlni siqib chiqarish uchun Per-Layer Embeddings (PLE) dan foydalanadi. IoT, Raspberry Pi va byudjet Android qurilmalari uchun ideal.
E4B — flagman telefon AI (4–6 GB RAM): Mobillar uchun eng zo’r variant. AIME 2026 da 42.5% oladi — Gemma 3 ning 27B modelidan ikki baravar ko’p. Matn, rasm va audiolarni mahalliy darajada qayta ishlaydi. 128K kontekst oynasi. Murakkab mantiqiy fikrlash uchun o’rnatilgan fikrlash (thinking) rejimi. Bu internetsiz to’liq telefoningizda ishlaydigan chinakam qobiliyatli AI yordamchisidir. Agar sizda zamonaviy flagman bo’lsa, bu sizning modelingiz.
12B Unified — noutbuklar uchun burilish nuqtasi (QAT bilan ~7 GB VRAM): Oilaning yulduzi. Enkodersiz arxitektura — alohida ko’rish yoki audio enkoderlar yo’q. Bitta transformer matn, rasm va audioni mahalliy darajada ko’rib chiqadi. QAT varianti ~6.7 GB VRAM (Q4_0) da ishlaydi, 12 GB RTX 4070 yoki 16 GB birlashtirilgan xotirali noutbukka mos keladi. MTP spekulyativ dekodlash 100–130+ tok/s beradi. MMLU Pro da 77.2%, AIME 2026 da 77.5%, LiveCodeBench da 72.0% ball oladi. Yoz xotira hajmi bilan 26B MoE ga yaqinlashadi.
26B MoE — ish stantsiyasi samaradorligi (kvantlangan 15–18 GB VRAM): Jami 26 milliard parametr, biroq har bir token uchun faqat 3.8 milliard faollashadi. O’rganilgan router (yo’naltiruvchi) har bir qatlam uchun 128 ta ekspertdan 2 tasini tanlaydi va hisoblashning bir qismi evaziga 31B ga yaqin sifatni beradi. Matn, rasm va videoni qo’llab-quvvatlaydi. 256K kontekst. Ochiq modellar orasida 6-o’rinda. Sifat va tezlikning eng yaxshi nisbatini xohlaydigan RTX 4090 yoki 32 GB Mac’ga ega dasturchilar uchun ideal.
31B Dense — sifat cho’qqisi (kvantlangan 16–20 GB VRAM): 30.7B parametrlarning har biri har bir tokenda ishlaydi. Hech qanday marshrutizatsiya, qisqartirishlar yo’q — maksimal fikrlash chuqurligi. Ochiq modellar orasida 3-o’rin. AIME 2026 da 89.2%. Matn, rasmlar, video. 256K kontekst. Agar sizda VRAM (RTX 4090 yoki 64 GB Mac) bo’lsa, bu ilg’or bulutli modellarga eng yaqin keladigan ochiq modeldir.

Benchmark natijalari

AIME 2026 — 31B: 89.2%, 12B: 77.5%, E4B: 42.5%, E2B: 37.5% Raqobatbardosh matematika. Telefon o'lchamidan server darajasigacha bo'lgan butun oila bo'ylab aniq sifat zinapoyasini ko'rsatadi. 12B noutbukdan jiddiy matematika hududiga kirib boradi.
MMLU Pro — 12B: 77.2% Kasbiy bilimlarni mulohaza qilish. 12B 26B MoE ga (uning balining ~97%) yaqinlashadi, bunda u yarimdan kamroq xotirani ishlatadi. Parametrga nisbatan ajoyib intellekt.
LiveCodeBench v6 — 12B: 72.0% Haqiqiy dunyodagi kodlash baholash. 12B bulut qaramligisiz kundalik ishlab chiqish ishlari uchun etarlicha kuchli bo'lgan chinakam qonuniy mahalliy kodlash yordamchisi.
GPQA Diamond — 12B: 78.8% Aspirantura darajasidagi ilmiy savol-javoblar. Bir yil oldin eng yuqori darajada bo'lgan baholar, endi QAT kvantlash bilan iste'molchi texnikasida ishlaydi.
Arena AI — 31B: #3, 26B MoE: #6 (ochiq modellar) Kraudsorsing orqali yuzma-yuz taqqoslash. 31B ochiq modellar orasida eng yuqori darajada; 26B MoE hisoblashning bir qismi evaziga 1-2% ga orqada qolmoqda.
Codeforces ELO — 12B: 1659 Raqobatbardosh dasturlash (Competitive programming). Mahalliy darajada noaniq algoritmik muammolarni hal qilish uchun etarlicha kuchli. 26B/31B undan ham yuqori ball to'playdi.

Haqiqiy cheklovlar

Edge modellari portativlik uchun chuqurlikdan voz kechadi: E2B va E4B murakkab fikrlash, ko’p bosqichli kodlash yoki chuqur tahlilda 12B ga yetib ololmaydi. Ular mutlaq sifat emas, balki bayt sifatiga optimallashtirilgan. Tez vazifalar uchun ajoyib, tadqiqot uchun emas.
12B ga haqiqiy GPU (yoki kuchli noutbuk) kerak: QAT bilan bo’lsa ham, inferens uchun sizga ~7 GB bo’sh VRAM kerak. Bu ajratilgan GPU (GTX 1080+ klassi) yoki 16 GB+ birlashtirilgan xotirali noutbuk degani. Integratsiyalashgan grafika qabul qilarli tezlikda ishlamaydi.
26B/31B ga jiddiy apparat kerak: Kvantlangan holatda sizga 15–20 GB VRAM kerak. Kvantlanmagan (BF16) 31B modeliga ~71 GB kerak. Bular ish stansiyalari yoki yuqori darajadagi noutbuk modellari bo’lib, byudjet qurilmalar uchun emas.
Edge yoki 12B da video yo’q: Videoni tushunish faqat 26B va 31B da mavjud. Kichikroq modellar faqat matn, rasm va audioni boshqaradi.
Google asboblari afzal: MediaPipe, LiteRT, Google AI Edge SDK va AI Studio orqali eng yaxshi qo’llab-quvvatlanadi. Ollama, llama.cpp va LM Studio yaxshi ishlaydi, ammo Google optimallashtirgan yo’lga nisbatan ba’zi kamchiliklar bo’lishi mumkin.
Marafon seanslari uchun mo’ljallanmagan: Kunlar davomida avtonom kodlash marafonlarini o’tkazadigan chegara bulutli modellardan farqli o’laroq, Gemma 4 bir qadamli va ko’p qadamli muloqotlar uchun qurilgan — barqaror agent marafonlari uchun emas.

Xulosa: Gemma 4 — joriy yilda chiqarilgan eng amaliy ochiq modellar oilasi. Buning sababi, bitta model hamma narsada eng yaxshisi bo’lgani uchun emas, balki har bir vaziyat uchun bitta Gemma mavjudligi uchundir. Telefoningizga oflayn yordamchi quryapsizmi? E4B. 12 GB GPU’li noutbukingizda shaxsiy kodlash hamrohi kerakmi? QAT bilan 12B Unified. RTX 4090 bilan ish stansiyasida ishlaysizmi va bir vattga maksimal sifat xohlaysizmi? 26B MoE. Mutlaq chegara klassidagi ochiq mulohazalar kerakmi? 31B Dense. Arxitekturalar xilma-xil, apparat talablari xilma-xil, lekin ular bir xil litsenziyani (Apache 2.0), bir xil ko’p tilli yordamni (140+) va bitta falsafani baham ko’radilar: birovning bulutida emas, o’z apparatingizda ishlaydigan jiddiy AI.