Qwen-Image-2512
Génération d'Images LocaleLe champion poids lourd de la génération d'images open source. Une architecture de 27 milliards de paramètres qui fusionne un diffusion transformer avec un modèle vision-langage, produisant des humains photoréalistes et un rendu de texte bilingue qui rivalise avec les services cloud uniquement — le tout sous Apache 2.0, ce qui signifie que chaque pixel qu'il génère vous appartient.
Modèle open-weight Apache 2.0 le mieux classé sur Arena.ai (Elo ~1 130). Visages humains photoréalistes sans la vallée de l'étrangeté. Rendu de texte bilingue en anglais et chinois. Droits commerciaux complets sans aucune restriction.
27 milliards de paramètres, c'est beaucoup de réseau neuronal à faire tourner chez soi. Il vous faudra une RTX 4090 avec une quantification INT4 pour le faire entrer dans ~14 Go de VRAM, et même là vous poussez le matériel dans ses retranchements. La documentation penche fortement vers le chinois.