Qwen3.5 — 27B
By Alibaba (Qwen Team) · Updated
Was es wirklich ist
Alibabas Qwen-Team hat gerade ein 27-Milliarden-Parameter-Hybridmodell veröffentlicht, das etwas schafft, was bisher kein lokales Modell überzeugend konnte: mit Cloud-Frontier-Modellen bei Programmierung, Reasoning und Bildverständnis konkurrieren — und dabei auf einer einzigen 24-GB- Consumer-GPU laufen. Qwen3.5-27B nutzt eine neuartige Hybridarchitektur (Gated DeltaNet kombiniert mit Sparse Mixture-of-Experts), die bemerkenswerte Intelligenz aus jedem Parameter herausholt. Es ist nicht nur ein Textmodell — es verarbeitet nativ Bilder, Video und OCR, spricht 201 Sprachen und lässt sich auf über eine Million Tokens Kontext erweitern. Die Tragweite ist kaum zu überschätzen. Zum ersten Mal bedroht ein einziges herunterladbares Modell ernsthaft Ihr Cloud-KI-Abo für die meiste tägliche Arbeit — Coding-Agents, Dokumentenanalyse, visuelles Verständnis, lange Recherche-Sessions — alles lokal, alles privat, alles kostenlos. Apache 2.0 lizenziert, was dieselbe „mach was du willst"-Freiheit bedeutet. Reddits r/LocalLLaMA nennt es „den neuen täglichen Begleiter" — und ausnahmsweise ist der Hype berechtigt.
Zentrale Stärken
- Benchmark-Dominanz in seiner Klasse: GPQA Diamond 85.5, SWE-Bench Verified 72.4, LiveCodeBench v6 80.7, MMLU-Pro 86.1 — das sind keine „gut für lokal"-Zahlen, das sind „konkurrenzfähig mit geschlossenen Frontier-Modellen"-Zahlen.
- Echte Multimodalität: Text, Vision, Video und OCR in einem Modell. Screenshots analysieren, Dokumente lesen, Videoclips anschauen — kein separates Vision-Modell nötig.
- 262K nativer Kontext (1M+ erweiterbar): Füttern Sie es mit einer ganzen Codebasis, einem 300-Seiten-PDF oder wochenlangen Gesprächsverläufen. Die meisten lokalen Modelle geben bei 32K auf.
- Exzellente agentische Fähigkeiten: TAU2-Bench 79.0, BFCL 68.5 — es bewältigt mehrstufiges Tool-Calling, Funktionsausführung und autonome Agent-Schleifen mit einer Zuverlässigkeit, die früher Cloud-APIs erforderte.
- Apache 2.0 Lizenz: Vollständig offen, kommerziell uneingeschränkt. Feintunen, einbetten, Produkte darauf aufbauen — keine Bedingungen.
Ehrliche Einschränkungen
- Braucht ~17–18 GB VRAM in 4-Bit: Sehr komfortabel auf jeder 24-GB-GPU (RTX 4090, 5090 etc.), aber bei ultraknapper Hardware — 16 GB gesamt, keine dedizierte GPU — werden kleinere Modelle flotter sein.
- Denk-Modus standardmäßig aktiviert: Das Modell gibt vor der Antwort Reasoning-Traces aus. Leicht abzuschalten, aber wenn Sie es nicht wissen, wirkt die erste Ausgabe seltsam ausführlich.
- Nicht ganz Frontier bei den schwersten Agent-Aufgaben: Bei den absolut komplexesten Multi-Turn-Benchmarks halten Cloud-Modelle wie Claude Opus und GPT-5.2 noch die Nase vorn. Bei 95 % der realen Arbeit merken Sie das nicht.
- Setup erfordert etwas technisches Verständnis: Sie brauchen Ollama, LM Studio oder llama.cpp. Wird jeden Monat einfacher, ist aber noch kein „Doppelklick und los".
Das Fazit: Der neue Standard für lokale KI. Qwen3.5-27B ist das erste Modell, bei dem Sie ernsthaft aufhören zu fragen „Ist das gut genug für lokal?" und anfangen zu fragen „Warum zahle ich noch für Cloud-KI?" Überlegene Benchmarks, echte Multimodalität, 262K Kontext, exzellente Coding- und Agent-Leistung — und es läuft auf einer einzigen Consumer-GPU. Wenn Ihnen Datenschutz, Kosten oder schlicht die Hoheit über Ihren KI-Stack wichtig sind, hat dieses Modell die Gleichung verändert.