Qwen-Image-2512

Alibaba (Qwen Team) · Lanzado December 2025

8.6 /10 Puntuación general

Lo que realmente es

Hay una revolución silenciosa en la generación de imágenes con IA, y no tiene nada que ver con servicios en la nube ni suscripciones mensuales. Qwen-Image-2512 — el modelo de pesos abiertos de 27 mil millones de parámetros de Alibaba — representa algo genuinamente nuevo: un generador de imágenes local que no te pide que sacrifiques calidad solo porque lo ejecutas tú mismo.

El truco arquitectónico es la fusión de tres componentes que normalmente viven en modelos separados. Un Multimodal Diffusion Transformer de 20 mil millones de parámetros se encarga de la generación real de la imagen — piensa en él como el pintor. Un modelo visión-lenguaje Qwen2.5-VL de 7 mil millones de parámetros actúa como el director artístico, comprendiendo profundamente tus prompts de texto, imágenes de referencia y las relaciones semánticas entre ellos. Y un VAE de 127 millones de parámetros se encarga de la fontanería de codificación. Juntos, producen imágenes con una coherencia e intencionalidad que los modelos de difusión puros tienen dificultades para igualar.

Los resultados hablan en números: un Elo de ~1.130 en Arena.ai, el más alto entre todos los modelos de pesos abiertos con Apache 2.0. Esa clasificación proviene de comparaciones de preferencia humana a ciegas — personas reales eligiendo Qwen-Image por encima de las alternativas sin saber qué modelo hizo cada imagen. Cuando los humanos eligen consistentemente tus resultados, eso no es un juego de benchmarks; eso es calidad genuina.

La contrapartida honesta es el peso — tanto computacional como informativo. Veintisiete mil millones de parámetros necesitan hardware real. Necesitarás una RTX 4090 con cuantización INT4 como mínimo, y aun así estarás rozando el límite. Y aunque la comunidad angloparlante crece rápidamente, este es fundamentalmente un proyecto chino primero. La documentación, los artículos de investigación y las discusiones más profundas de la comunidad ocurren en mandarín. Pero los buenos modelos atraen comunidades globales, y Qwen-Image ya está disponible en Hugging Face, ModelScope, Replicate y ComfyUI — las herramientas que ya conoces.

Puntos fuertes

Nº1 en Apache 2.0 en Arena.ai: Con un Elo de ~1.130, Qwen-Image-2512 ocupa la cima de todas las tablas de clasificación de pesos abiertos que importan. No es solo bueno ‘para un modelo abierto’ — compite genuinamente con servicios propietarios en la nube.
Humanos fotorrealistas: Rostros, manos, textura de piel, pelo — los modos de fallo clásicos de la generación de imágenes con IA — se manejan con una consistencia notable. El backbone VLM le da al modelo una comprensión de la anatomía humana que los modelos de difusión puros no tienen.
Renderizado de texto bilingüe: Genera texto legible en inglés y chino directamente en las imágenes. Etiquetas de productos, señalización, maquetas de UI con caracteres CJK — el tipo de tarea que hace que la mayoría de modelos abiertos produzcan garabatos.
Integración visión-lenguaje: El componente Qwen2.5-VL de 7B no solo genera — entiende. Aliméntalo con una imagen de referencia junto a un prompt de texto y captará las relaciones espaciales, las pistas de estilo y el contexto semántico de formas que los modelos de difusión puros no pueden.
Apache 2.0 — verdaderamente abierto: Sin restricciones de uso, sin licencias comerciales, sin requisitos de comunicación con el servidor. Ajústalo, despliégalo, vende los resultados, construye un producto sobre él — la licencia dice sí a todo.

Resumen de Benchmarks

Arena.ai Elo — ~1,130 La puntuación Elo más alta entre todos los modelos de pesos abiertos con Apache 2.0. Clasificado por preferencia humana en comparaciones a ciegas, no por benchmarks sintéticos — esto mide lo que la gente realmente cree que se ve mejor.
Architecture — 27.1B (MMDiT 20B + VLM 7B + VAE 127M) Una arquitectura de tres etapas que combina un Multimodal Diffusion Transformer para la generación, Qwen2.5-VL para comprensión de prompts e imágenes, y un VAE para la codificación. La integración del VLM es lo que lo separa de los modelos de difusión puros.
Text rendering — Bilingual (EN/ZH) Generación de texto legible tanto en inglés como en chino, incluyendo etiquetas multilínea y embalaje de productos. El rendimiento se degrada gradualmente con diseños complejos en lugar de colapsar por completo.

Limitaciones honestas

Requisitos de hardware exigentes: 27B parámetros significa ~14GB de VRAM con cuantización INT4 agresiva. Siendo realistas, necesitas una RTX 4090 (24GB) o mejor. GPUs de portátil y tarjetas antiguas, abstenerse.
Ecosistema más pequeño: FLUX y Stable Diffusion tienen años de herramientas comunitarias, LoRAs e integraciones de flujo de trabajo. Qwen-Image es más nuevo — existen nodos de ComfyUI, pero la biblioteca de LoRAs y las herramientas de terceros aún están poniéndose al día.
Documentación primero en chino: La documentación oficial, artículos de investigación y discusiones de la comunidad son predominantemente en chino. Existe documentación en inglés pero es más escasa. Prepárate para algunas sesiones con Google Translate.
Velocidad de generación: El transformador de difusión de 20B no es rápido. Espera 15-30+ segundos por imagen en hardware de consumo, comparado con menos de un segundo para modelos más ligeros como Z-Image.

El Veredicto: Si quieres la mejor calidad de imagen absoluta que puedes ejecutar en tu propio hardware, Qwen-Image-2512 es la respuesta — siempre que tu hardware pueda con ello. La licencia Apache 2.0 significa libertad completa, la clasificación en Arena.ai demuestra que la calidad no es teórica, y la integración VLM le da una ventaja arquitectónica genuina sobre los competidores de difusión pura. La contrapartida es sencilla: necesitas potencia GPU seria. Si tienes una RTX 4090 o mejor, este es el modelo de pesos abiertos a batir. Si no, mira FLUX.2 Klein o Z-Image primero, luego mejora tu GPU y vuelve.