Qwen-Image-2512

Alibaba (Qwen Team) · Выпущено Декабрь 2025 г.

8.6 /10 Общий рейтинг

Что это на самом деле

В генерации изображений ИИ происходит тихая революция, и она не имеет ничего общего с облачными сервисами или ежемесячными подписками. Qwen-Image-2512 — модель Alibaba с 27 миллиардами параметров и открытыми весами — представляет собой нечто совершенно новое: локальный генератор изображений, который не требует идти на компромисс в качестве только потому, что вы запускаете его сами.

Архитектурный трюк заключается в слиянии трех компонентов, которые обычно живут в разных моделях. Мультимодальный диффузионный трансформер с 20 миллиардами параметров занимается непосредственно генерацией изображения — представьте его как художника. Визуально-языковая модель Qwen2.5-VL с 7 миллиардами параметров действует как арт-директор, глубоко понимая ваши текстовые промпты, эталонные изображения и семантические отношения между ними. А VAE со 127 миллионами параметров берет на себя черновую работу по кодированию. Вместе они создают изображения с такой согласованностью и целенаправленностью, с которой с трудом могут сравниться чистые диффузионные модели.

Результаты говорят сами за себя в цифрах: Elo ~1,130 на Arena.ai, самый высокий показатель среди всех моделей с открытыми весами Apache 2.0. Этот рейтинг получен на основе слепых сравнений предпочтений людей — реальные люди выбирали Qwen-Image вместо альтернатив, не зная, какая модель создала какое изображение. Когда люди стабильно выбирают ваши результаты, это не игра в бенчмарки; это подлинное качество.

Честный недостаток — это вес, как вычислительный, так и информационный. Двадцать семь миллиардов параметров требуют серьезного оборудования. Вам понадобится как минимум RTX 4090 с квантованием INT4, и даже тогда вы будете работать на пределе. И хотя англоговорящее сообщество быстро растет, по своей сути это проект, ориентированный на китайский язык. Документация, научные работы и самые глубокие обсуждения в сообществе ведутся на китайском. Но хорошие модели привлекают глобальные сообщества, и Qwen-Image уже доступна на Hugging Face, ModelScope, Replicate и ComfyUI — инструментах, которые вы уже знаете.

Ключевые преимущества

Модель #1 под лицензией Apache 2.0 на Arena.ai: С Elo ~1,130, Qwen-Image-2512 занимает первое место во всех значимых таблицах лидеров моделей с открытыми весами. Она не просто хороша «для открытой модели» — она действительно конкурирует с проприетарными облачными сервисами.
Фотореалистичные люди: Лица, руки, текстура кожи, волосы — классические слабые места генерации изображений ИИ — обрабатываются с замечательной стабильностью. Основа VLM дает модели понимание человеческой анатомии, которого не хватает чистым диффузионным моделям.
Двуязычный рендеринг текста: Рендерит читаемый английский и китайский текст прямо на изображениях. Этикетки продуктов, вывески, макеты пользовательского интерфейса с иероглифами CJK — такие задачи, из-за которых большинство открытых моделей выдают тарабарщину.
Интеграция зрения и языка: Компонент Qwen2.5-VL 7B не просто генерирует — он понимает. Дайте ему эталонное изображение вместе с текстовым промптом, и он схватит пространственные отношения, стилистические особенности и семантический контекст так, как чистые диффузионные модели не могут.
Apache 2.0 — по-настоящему открытый: Нет ограничений на использование, нет коммерческих лицензионных сборов, нет требований обязательного подключения к интернету. Дообучайте ее, развертывайте, продавайте результаты, создавайте продукты на ее основе — лицензия разрешает всё.

Результаты тестов

Arena.ai Elo — ~1,130 Самый высокий балл Elo среди всех открытых моделей изображений Apache 2.0. Оценивается по предпочтениям людей в слепых сравнениях, а не по синтетическим бенчмаркам — это измеряет то, что людям на самом деле кажется лучше.
Архитектура — 27.1B (MMDiT 20B + VLM 7B + VAE 127M) Трехэтапная архитектура, сочетающая мультимодальный диффузионный трансформер для генерации, Qwen2.5-VL для понимания промптов и изображений и VAE для кодирования. Именно интеграция VLM отличает ее от чистых диффузионных моделей.
Рендеринг текста — Двуязычный (EN/ZH) Генерация читабельного текста на английском и китайском языках, включая многострочные этикетки и упаковку продуктов. Качество снижается постепенно при сложных макетах, а не разрушается полностью.

Честные ограничения

Высокие требования к оборудованию: 27B параметров означают ~14 ГБ VRAM при агрессивном квантовании INT4. Реалистично, вам понадобится RTX 4090 (24 ГБ) или лучше. Графические процессоры для ноутбуков и старые видеокарты не подойдут.
Меньшая экосистема: FLUX и Stable Diffusion имеют годы создания инструментов сообщества, LoRA и интеграции рабочих процессов. Qwen-Image новее — узлы ComfyUI существуют, но библиотека LoRA и сторонние инструменты все еще догоняют.
Документация ориентирована на китайский: Официальная документация, исследовательские работы и обсуждения в сообществе преимущественно на китайском языке. Документация на английском есть, но она скуднее. Ожидайте сеансов работы с Google Translate.
Скорость генерации: Диффузионный трансформер 20B работает не быстро. Ожидайте 15-30+ секунд на изображение на потребительском оборудовании по сравнению с долями секунды для более легких моделей, таких как Z-Image.

Вердикт: Если вам нужно абсолютно лучшее качество изображения, которое вы можете запустить на собственном оборудовании, то Qwen-Image-2512 — это ответ, при условии, что ваше оборудование с этим справится. Лицензия Apache 2.0 означает полную свободу, рейтинг Arena.ai доказывает, что качество не является теоретическим, а интеграция VLM дает ему подлинное архитектурное преимущество перед конкурентами на чистой диффузии. Компромисс очевиден: вам нужна серьезная мощь графического процессора. Если у вас есть RTX 4090 или лучше, это лучшая модель изображения с открытыми весами. Если нет, посмотрите сначала на FLUX.2 Klein или Z-Image, затем обновите свой GPU и возвращайтесь.