Qwen-Image-2512
Generación Local de ImágenesEl campeón de los pesos pesados de la generación de imágenes de código abierto. Una arquitectura de 27 mil millones de parámetros que fusiona un transformador de difusión con un modelo visión-lenguaje, produciendo humanos fotorrealistas y renderizado de texto bilingüe que rivaliza con los servicios solo en la nube — todo bajo Apache 2.0, lo que significa que eres dueño de cada píxel que genera.
Modelo de pesos abiertos con licencia Apache 2.0 mejor clasificado en Arena.ai (Elo ~1.130). Rostros humanos fotorrealistas sin el valle inquietante. Renderizado de texto bilingüe en inglés y chino. Derechos comerciales completos sin ninguna restricción.
27 mil millones de parámetros es mucha red neuronal para ejecutar en casa. Necesitarás una RTX 4090 con cuantización INT4 para encajarlo en ~14GB de VRAM, y aun así estarás al límite del hardware. La documentación está muy orientada al chino.