Gemma 4

Google DeepMind · Выпущено 2 апреля 2026 г. (12B Unified: 3 июня 2026 г.)

8.1 /10 Общий рейтинг

Что это на самом деле

Большинство запусков ИИ-моделей дают вам одну модель и одно решение: использовать или нет. Gemma 4 дает вам пять моделей и задает другой вопрос: какое у вас оборудование?

Это может звучать как маркетинг, но на самом деле это самое полезное свойство данного семейства. Каждый член архитектурно отличается — это не просто увеличенная копия одного и того же. Edge-модели используют Per-Layer Embeddings. 12B полностью отказался от энкодеров зрения и звука. 26B направляет токены через смесь из 128 экспертов. 31B просто бросает все 30,7 миллиардов параметров на каждый токен. Одно семейство, разные инженерные философии, разные компромиссы.

Давайте рассмотрим их подробнее.

E2B — Карманный ИИ (~1 ГБ ОЗУ)

Самая маленькая Gemma 4. Два миллиарда параметров, квантованных так, чтобы поместиться примерно в 1 ГБ оперативной памяти. Она обрабатывает текст, изображения и живой звук — всё на устройстве, всё в автономном режиме. Набирает 37,5% в AIME 2026, что является конкурентоспособным математическим рассуждением для устройства, которое могло бы работать на Raspberry Pi. Секрет заключается в Per-Layer Embeddings (PLE), которая дает каждому слою декодера свое собственное выделенное вложение для максимального интеллекта без раздувания количества параметров. Вы не спутаете её с настольной моделью, но для быстрых переводов, вопросов по фото или голосовых запросов на бюджетном телефоне она действительно полезна.

E4B — Мощь телефона (4–6 ГБ ОЗУ)

E4B — это то, что происходит, когда вы даете модели, оптимизированной для телефона, достаточно параметров, чтобы она могла реально мыслить. Она набирает 42,5% в AIME 2026 — более чем вдвое превосходя модель 27B от Gemma 3. Нативно обрабатывает текст, изображения и звук, имеет контекстное окно 128K и включает настраиваемый режим рассуждений. Если у вас современный флагманский телефон с 8+ ГБ оперативной памяти, это та модель, которая делает фразу «я просто спрошу у своего телефона — оффлайн» серьезным вариантом, а не просто трюком.

12B Unified — Революция для ноутбуков (~7 ГБ VRAM с QAT)

Здесь Gemma 4 становится захватывающей для большинства людей. Выпущенная 3 июня 2026 года, 12B Unified делает то, чего не делает ни одна другая модель её размера: она обрабатывает текст, изображения и аудио в едином трансформере (только декодер) без отдельных энкодеров. Сырые фрагменты изображений и звуковые сигналы идут прямо в пространство вложений через легкие линейные слои. Более простая архитектура, низкая задержка, более легкое дообучение.

Цифры: 77,2% MMLU Pro, 77,5% AIME 2026, 72,0% LiveCodeBench, 78,8% GPQA Diamond. Google утверждает, что она приближается к 26B MoE «при менее чем половине общего объема памяти». С официальным вариантом QAT (Quantization-Aware Training), версия Q4_0 требует около 6,7 ГБ VRAM. В сочетании с Multi-Token Prediction для спекулятивного декодирования сообщество сообщает о 100–130+ токенах в секунду на 12-гигабайтном GPU, таком как RTX 4070 Super. Она даже работает на ноутбуках с 16 ГБ унифицированной памяти — выделенный GPU не обязателен.

Если вам нужна одна модель из этого семейства и у вас есть ноутбук с приличной видеокартой, это она.

26B MoE — Эксперт по эффективности (15–18 ГБ VRAM квантованно)

26B содержит в общей сложности 26 миллиардов параметров, но вот в чем фокус: на каждый токен активируется только 3,8 миллиарда. Обученный маршрутизатор выбирает 2 из 128 экспертных подсетей для каждого токена, обеспечивая качество, близкое к 31B, при значительно меньших вычислительных затратах. Думайте об этом как о здании полном специалистов, где вы вызываете только тех двоих, которые вам нужны для каждого вопроса.

Она поддерживает текст, изображения и видео, имеет контекстное окно 256K и занимает 6-е место среди открытых моделей на Arena AI. Компромиссом является VRAM — вам потребуется 15–18 ГБ в квантованном виде, что означает наличие RTX 4090, RTX 5060 Ti 16GB или Mac с 32 ГБ+ унифицированной памяти. Если у вас есть такое оборудование и вы хотите получить наилучшее соотношение интеллекта и энергопотребления, это ваша модель.

31B Dense — Бескомпромиссный гигант (16–20 ГБ VRAM квантованно)

Никакой маршрутизации, никакой смеси экспертов, никаких сокращений. 31B Dense активирует все 30,7 миллиарда параметров на каждом токене. Это потолок качества семейства Gemma 4 — 3-е место среди всех открытых моделей на Arena AI и результат 89,2% в AIME 2026. Те же модальности, что и у 26B (текст, изображения, видео), то же контекстное окно 256K, но с максимальной глубиной рассуждений для каждого ответа.

Цена — это вычисления. BF16 требует ~71 ГБ VRAM. Но квантованная до INT4, она помещается в 16–20 ГБ — что вполне реально для мощного потребительского GPU. Если у вас есть оборудование и точность важнее скорости, это та открытая модель, которая ближе всего подходит к облачной производительности.

Какую из них выбрать?

Вот честная шпаргалка:

Телефон, оффлайн, быстрые задачи → E4B (или E2B для очень ограниченных устройств)
Ноутбук, 8–12 ГБ GPU → 12B Unified с QAT
Ноутбук, 16 ГБ унифицированной памяти, без GPU → 12B Unified с QAT (работает медленнее, но работает)
Рабочая станция, RTX 4090 / 32 ГБ Mac → 26B MoE (лучшее качество на ватт)
Сервер или высокопроизводительная станция → 31B Dense (максимальное качество)

Все пять имеют лицензию Apache 2.0, поддерживают 140+ языков и работают с Ollama, llama.cpp, LM Studio, vLLM и набором инструментов Google AI Edge. Семейство расходится в архитектуре — но едино в философии: серьезный ИИ, который работает на вашем оборудовании.

Ключевые преимущества

E2B — ИИ для бюджетного телефона (1 ГБ ОЗУ): Самый маленький член семейства помещается в квантованном виде в ~1 ГБ ОЗУ. Текст, изображения и звук — всё на устройстве, всё оффлайн. Набирает 37,5% в AIME 2026, что было бы впечатляюще для настольной модели два года назад. Использует послойные вложения (Per-Layer Embeddings, PLE), чтобы выжать максимум интеллекта из минимума параметров. Идеально для IoT, Raspberry Pi и бюджетных Android-устройств.
E4B — ИИ для флагманского телефона (4–6 ГБ ОЗУ): Золотая середина для мобильных. Набирает 42,5% в AIME 2026 — более чем вдвое превосходя модель 27B от Gemma 3. Нативно обрабатывает текст, изображения и звук. Контекстное окно 128K. Встроенный режим мышления для сложных рассуждений. Это по-настоящему способный ИИ-помощник, работающий полностью на вашем телефоне без интернета. Если у вас современный флагман, это ваша модель.
12B Unified — революция для ноутбуков (~7 ГБ VRAM с QAT): Звезда семейства. Архитектура без энкодеров — нет отдельных энкодеров для зрения или звука. Один трансформер нативно обрабатывает текст, изображения и аудио. Вариант QAT работает при ~6,7 ГБ VRAM (Q4_0), помещаясь в 12 ГБ RTX 4070 или в ноутбук с 16 ГБ унифицированной памяти. Спекулятивное декодирование MTP обеспечивает 100–130+ токенов/с. Набирает 77,2% в MMLU Pro, 77,5% в AIME 2026, 72,0% в LiveCodeBench. Приближается к 26B MoE при вдвое меньшем объеме памяти.
26B MoE — эффективность рабочей станции (15–18 ГБ VRAM квантованно): В общей сложности 26 миллиардов параметров, но на каждый токен активируется только 3,8 миллиарда. Обученный маршрутизатор выбирает 2 из 128 экспертов на слой, давая вам качество, близкое к 31B, за долю вычислений. Поддерживает текст, изображения и видео. Контекст 256K. Занимает 6-е место среди открытых моделей. Идеально для разработчиков с RTX 4090 или Mac с 32 ГБ, которым нужно лучшее соотношение качества и скорости.
31B Dense — потолок качества (16–20 ГБ VRAM квантованно): Каждый из 30,7 млрд параметров срабатывает на каждом токене. Никакой маршрутизации, никаких сокращений — максимальная глубина рассуждений. Занимает 3-е место среди открытых моделей. 89,2% в AIME 2026. Текст, изображения, видео. Контекст 256K. Если у вас есть VRAM (RTX 4090 или 64 ГБ Mac), это та открытая модель, которая ближе всего подходит к передовым облачным моделям.

Результаты тестов

AIME 2026 — 31B: 89,2%, 12B: 77,5%, E4B: 42,5%, E2B: 37,5% Соревновательная математика. Показывает четкую лестницу качества по всему семейству — от телефонного до серверного класса. 12B достигает серьезной математики прямо с ноутбука.
MMLU Pro — 12B: 77,2% Профессиональные знания. 12B приближается к 26B MoE (~97% её результата), используя менее половины памяти. Исключительный интеллект на параметр.
LiveCodeBench v6 — 12B: 72,0% Оценка программирования в реальных условиях. 12B является законным локальным помощником — достаточно сильным для повседневной разработки без облачной зависимости.
GPQA Diamond — 12B: 78,8% Научные вопросы уровня аспирантуры. Оценки, которые год назад были бы на передовом уровне, работают на потребительском оборудовании с квантованием QAT.
Arena AI — 31B: #3, 26B MoE: #6 (открытые модели) Сравнение один на один от пользователей. 31B находится на высшем уровне среди открытых моделей; 26B MoE отстает на 1–2% за долю вычислительных затрат.
Codeforces ELO — 12B: 1659 Спортивное программирование. Достаточно сильна для локального решения нетривиальных алгоритмических задач. 26B/31B набирают еще больше.

Честные ограничения

Edge-модели обменивают глубину на портативность: E2B и E4B не сравнятся с 12B в сложных рассуждениях, многошаговом кодировании или глубоком анализе. Они оптимизированы на качество-на-байт, а не на абсолютное качество. Отлично подходят для быстрых задач, но не для исследований.
Для 12B нужен настоящий GPU (или мощный ноутбук): Даже с QAT вам нужно ~7 ГБ свободной VRAM для инференса. Это означает наличие выделенного GPU (класса GTX 1080+) или ноутбука с 16+ ГБ унифицированной памяти. Интегрированная графика не потянет с приемлемой скоростью.
Для 26B/31B требуется серьезное оборудование: В квантованном виде вам потребуется 15–20 ГБ VRAM. Неквантованной (BF16) модели 31B нужно ~71 ГБ. Это модели для рабочих станций или мощных ноутбуков, а не для бюджетных сборок.
Нет видео на edge или 12B: Понимание видео доступно только на 26B и 31B. Меньшие модели обрабатывают только текст, изображения и звук.
Предпочтительны инструменты Google: Лучше всего поддерживаются через MediaPipe, LiteRT, Google AI Edge SDK и AI Studio. Ollama, llama.cpp и LM Studio работают нормально, но ожидайте случайных шероховатостей по сравнению с оптимизированным путем от Google.
Не предназначены для марафонов: В отличие от передовых облачных моделей, которые работают автономно днями, Gemma 4 создана для одиночных и многошаговых диалогов — а не для длительных агентных марафонов.

Вердикт: Gemma 4 — самое практичное семейство открытых моделей, выпущенное в этом году. Не потому, что какая-то одна модель лучше всех во всем, а потому, что для каждой ситуации есть своя Gemma. Создаете офлайн-помощника для телефона? E4B. Нужен приватный компаньон для кодинга на ноутбуке с 12 ГБ GPU? 12B Unified с QAT. Работаете на станции с RTX 4090 и хотите максимум качества на ватт? 26B MoE. Нужны абсолютные открытые рассуждения передового класса? 31B Dense. У них разная архитектура, разные требования к железу, но их объединяет одна лицензия (Apache 2.0), одна поддержка языков (140+) и одна философия: серьезный ИИ, работающий на вашем оборудовании.