Qwen-Image-2512
Lokale BildgenerierungDer Schwergewichtschampion der Open-Source-Bildgenerierung. Eine 27-Milliarden- Parameter-Architektur, die einen Diffusion Transformer mit einem Vision-Language-Modell verschmilzt und fotorealistische Menschen sowie zweisprachige Textdarstellung liefert, die es mit reinen Cloud-Diensten aufnehmen kann — alles unter Apache 2.0, was bedeutet: dir gehört jedes Pixel, das es generiert.
Bestplatziertes Apache 2.0 Open-Weight-Modell auf Arena.ai (Elo ~1.130). Fotorealistische menschliche Gesichter ohne Uncanny Valley. Zweisprachige Textdarstellung in Englisch und Chinesisch. Volle kommerzielle Rechte ohne jegliche Einschränkungen.
27 Milliarden Parameter sind eine Menge neuronales Netz zum Zuhause-Betreiben. Du brauchst eine RTX 4090 mit INT4-Quantisierung, um es auf ~14GB VRAM zu quetschen, und selbst dann bist du am Limit der Hardware. Die Dokumentation ist stark China-lastig.