Локальный / Приватный ИИ — Ваш мозг, Ваша машина, Ваши правила

Вот радикальная идея: что, если бы вы могли запустить по-настоящему умный ИИ на своем собственном оборудовании, и ничто из того, что вы ему сказали, никогда бы не покинуло вашу машину? Никаких облачных серверов. Никакого сбора данных. Никакой абонентской платы. Только вы, ваш ноутбук и интеллект, который уважает вашу конфиденциальность по своей конструкции. Добро пожаловать в революцию open-weight.

Фильтр Все Повседневная экосистема Генерация изображений Программирование Создание приложений Исследования Цифровые архитекторы Академические наставники Видео Музыка и голос Локальный / Приватный ИИ Локальная генерация изображений Локальная генерация видео ИИ-агенты

GLM-5.2

Локальный / Приватный ИИ Zhipu AI · Выпущено 13 июня 2026 г.
#1
9.0/10

Модель с открытыми весами, которая переписывает правила для локального ИИ. Design Arena #1, SWE-bench Pro 62,1%, Terminal-Bench 82,7, AkitaOnRails 87/100 — и всё это доступно под лицензией MIT, чтобы вы могли скачивать, квантовать и запускать на собственном оборудовании. Правильно обученное контекстное окно 1М, два уровня усилий по рассуждению и первая открытая модель, которая действительно конкурирует с закрытыми лидерами на длительных инженерных задачах.

Самая сильная открытая модель, когда-либо выпущенная для кодинга и агентной работы — Design Arena #1 (Elo 1360), AkitaOnRails 87/100 Tier A (+41 от GLM-5.1), SWE-bench Pro 62,1% (лучшая среди открытых), FrontierSWE 74,4% (на 1% позади Opus 4.8). Лицензия MIT без ограничений. 744B MoE (~40B активных) — компактнее, чем DeepSeek V4 (1,6T), показывая более сильные результаты в проверенных бенчмарках. Работает на vLLM, SGLang, ktransformers. Помещается на Mac с 256 ГБ унифицированной памяти при агрессивном квантовании (~241 ГБ при динамическом 2-битном).

744B MoE по-прежнему требует серьезного оборудования — 256 ГБ+ унифицированной памяти или кластеры из нескольких GPU. Не модель для ноутбуков. Нет нативных визуальных возможностей. Медленнее на токен, чем компактные модели вроде Qwen 3.6 27B или Gemma 4. Инструменты западной экосистемы все еще развиваются.


Open Weights MIT 1M Context MoE Coding Agentic Design Arena #1

Qwen3.6 — 27B

Локальный / Приватный ИИ Alibaba (Qwen Team) · Выпущено 22 апреля 2026 г.
#2
8.3/10

Новейшая плотная 27B модель от Alibaba не просто заменяет предыдущего локального короля ИИ — она превосходит их собственный флагман на 397B во всех основных бенчмарках агентного программирования, работая при этом на одном потребительском GPU. SWE-bench Verified 77.2, Terminal-Bench 2.0 59.3, нативное зрение и видео, лицензия Apache 2.0. Поворотный момент для локального инференса.

Превосходит Qwen3.5-397B-A17B (модель MoE на 397B) в SWE-bench Verified (77.2), SWE-bench Pro (53.5), Terminal-Bench 2.0 (59.3) и SkillsBench Avg5 (48.2). GPQA Diamond 87.8. Нативная мультимодальность с сохранением контекста мышления (thinking preservation). r/LocalLLaMA называет это «самым крупным релизом года» и «поворотным моментом для локального инференса».

Схожий профиль VRAM с предшественником (~17–20 ГБ в 4-бит); совсем новая, поэтому квантованные версии все еще появляются; режим размышления может быть многословным на простых задачах (можно отключить). Немного не дотягивает до SOTA закрытых моделей на самых сложных агентных задачах с длинным горизонтом.


Multimodal Open Weight Apache 2.0 Agentic Coding Vision + Video Free Offline

Gemma 4

Локальный / Приватный ИИ Google DeepMind · Выпущено 2 апреля 2026 г. (12B Unified: 3 июня 2026 г.)
#3
8.1/10

Не одна модель, а пять. Gemma 4 от Google DeepMind — это семейство, охватывающее всё: от 2-миллиардного фрагмента, работающего на вашем телефоне, до мощной системы на 31 миллиард параметров для серверов. Каждая модель имеет свою архитектуру, свои сильные стороны и различные требования к аппаратному обеспечению. E2B помещается в 1 ГБ ОЗУ. 12B Unified запускает полноценный мультимодальный ИИ на графическом процессоре ноутбука. 26B MoE активирует только 3,8 млрд параметров на токен. Все они имеют лицензию Apache 2.0 и открытые веса. Это руководство поможет вам выбрать именно ту Gemma, которая подходит для вашего оборудования и рабочего процесса.

Пять моделей, от телефона до ноутбука и сервера. 12B Unified: мультимодальность без энкодера, ~7 ГБ VRAM с QAT, более 100 токенов/с на потребительских GPU. E2B работает с 1 ГБ ОЗУ на телефонах. E4B набирает 42,5% в AIME 2026 на смартфоне. 26B MoE обеспечивает качество ~97% от 31B при значительно меньших вычислительных затратах. 31B входит в топ-3 среди открытых моделей. Все Apache 2.0. Поддержка более 140 языков.

Пять моделей — пять наборов компромиссов. Edge-модели жертвуют глубиной рассуждений. Для 12B нужен хороший GPU. Для 26B/31B требуется серьезный объем VRAM. Ни одна модель не делает всё — вы выбираете ту, что подходит под ваше железо. Для лучшего опыта рекомендуется инструментарий Google.


Multimodal Open Weight Apache 2.0 On-Device QAT Free

Часто задаваемые вопросы

Локальный ИИ обеспечивает полную конфиденциальность (данные никогда не покидают вашу машину), работает в автономном режиме, не имеет регулярных затрат на подписку и позволяет избежать лимитов облачных API.

Вам понадобится приличный графический процессор с достаточным объемом VRAM (не менее 8-12 ГБ для небольших моделей, таких как Llama 4 8B или Gemma 4, и 16-24 ГБ+ для более крупных моделей, таких как Qwen 3.6 27B или Gemma 4 31B), либо Mac на Apple Silicon с объединенной памятью (16-48 ГБ+). Запуск только на процессоре (CPU) происходит очень медленно.

Истинный open-source включает набор данных для обучения и код. Модели с открытыми весами (такие как DeepSeek, Llama, Gemma) дают вам предварительно обученные веса для локального запуска, но их точные наборы данных для обучения остаются проприетарными.

Самый простой способ — использовать бесплатные потребительские приложения, такие как Ollama, LM Studio или AnythingLLM. Они берут на себя сложную настройку бэкенда, позволяя вам скачивать модели и общаться с ними в удобном интерфейсе в один клик.