Qwen3.6 — 27B — Best AI At

Qwen3.6 — 27B

By Alibaba (Qwen Team) · Updated

Was es wirklich ist

Das Qwen-Team hat gerade das Modell veröffentlicht, auf das die lokale KI-Community gewartet hat. Qwen3.6-27B ist ein dichtes 27-Milliarden-Parameter-Modell, das Unmögliches liefert: Es schlägt Alibabas eigenes 397B-Flaggschiff (Qwen3.5-397B-A17B) bei jedem wichtigen agentischen Coding-Benchmark — SWE-bench Verified, SWE-bench Pro, Terminal-Bench 2.0, SkillsBench — und läuft dabei auf einer einzigen GPU der RTX-3090-Klasse.

Das ist kein inkrementelles Update. Allein der Terminal-Bench-2.0-Sprung (41,6 → 59,3) repräsentiert eine 43-prozentige Verbesserung bei praktischen Terminal-Workflows — genau die Art realer Coding-Aufgaben, die bestimmen, ob ein lokales Modell tatsächlich nützlich ist oder nur auf dem Papier glänzt. Dazu kommen natives Bild- und Videoverständnis, eine neue “Thinking Preservation”-Funktion, die Reasoning-Kohärenz über Multi-Turn-Konversationen hinweg aufrechterhält, und dasselbe 262K-Kontextfenster (erweiterbar auf 1M+) — und Sie haben ein Modell, das wirklich neu definiert, was auf Consumer-Hardware möglich ist.

Die Community-Stimmung spricht Bände: r/LocalLLaMA nennt es “einen Wendepunkt für lokale Inferenz” und “die größte Veröffentlichung des Jahres bisher.” Unabhängige Tester berichten, dass es sich bei echten Coding-Projekten spürbar leistungsfähiger anfühlt — nicht nur bei Benchmarks, sondern beim tatsächlichen Einsatz als lokaler Agent für Frontend-Workflows, Repository-Reasoning und iterative Entwicklung. Apache 2.0 lizenziert, GGUF-Quants via Unsloth bereits verfügbar, selber Consumer-GPU-Fußabdruck. Die Ära der Kompromisse bei lokaler KI ist — erneut — vorbei.

Zentrale Stärken

Schlägt ein 397B-Modell mit 27B: SWE-bench Verified 77,2, SWE-bench Pro 53,5, Terminal-Bench 2.0 59,3, SkillsBench Avg5 48,2 — Qwen3.6-27B übertrifft Alibabas eigenes Qwen3.5-397B-A17B (ein 15× größeres Modell) bei jedem wichtigen agentischen Coding-Benchmark. Das ist kein Tippfehler.
Massiver Sprung bei Terminal- und agentischen Workflows: Terminal-Bench 2.0 sprang von 41,6 (Qwen3.5-27B) auf 59,3 — eine Verbesserung um 43 %. SWE-bench Verified stieg von 75,0 auf 77,2. Das sind keine Randgewinne; sie spiegeln einen fundamental leistungsfähigeren Coding-Agent wider.
Native Multimodalität mit Thinking Preservation: Bilder, Video, OCR und Text in einem Modell, plus eine neue Funktion, die Reasoning-Kontext über die Gesprächshistorie hinweg beibehält — für deutlich kohärentere Multi-Turn-Agent-Sessions.
262K nativer Kontext (1M+ erweiterbar): Dasselbe großzügige Kontextfenster wie der Vorgänger, mit verbesserter Qualitätserhaltung über lange Eingaben hinweg. Füttern Sie es mit einer kompletten Codebasis, einem 300-Seiten-PDF oder wochenlangen Gesprächsverläufen.
Apache 2.0 Lizenz + GGUF-Support ab Tag eins: Vollständig offen, kommerziell uneingeschränkt. Unsloth-GGUF-Quants waren innerhalb von Stunden nach Release verfügbar. Läuft komfortabel auf Consumer-GPUs.

Benchmark-Übersicht

Agentisches Coding — SWE-bench Verified 77,2Der Goldstandard-Benchmark für praxisnahes Software-Engineering. Qwen3.6-27B erzielt höhere Werte als Alibabas eigenes 397B-Flaggschiff und kommt geschlossenen Frontier-Modellen gefährlich nahe — bei einem Bruchteil der Größe.
Terminal-Workflows — Terminal-Bench 2.0: 59,3Ein Sprung von 43 % gegenüber Qwen3.5-27Bs 41,6. Dieser Benchmark misst praktische terminalbasierte Entwicklungsaufgaben — genau die Art von Arbeit, die lokale KI-Agenten täglich erledigen.
Reasoning — GPQA Diamond 87,8Reasoning auf Graduiertenniveau, das mit 10× größeren Modellen mithalten kann. Gestiegen von 85,5 bei Qwen3.5-27B — Bestätigung, dass die Verbesserungen nicht auf Coding beschränkt sind.

Ehrliche Einschränkungen

~17–20 GB VRAM in 4-Bit: Gleiche Größenordnung wie Qwen3.5-27B. Exzellent auf 24-GB-Karten (RTX 4090, 5090), aber bei ultraknapper 16-GB-Hardware ohne dedizierte GPU werden kleinere Modelle weiterhin flotter sein.
Ganz frische Veröffentlichung — Quantisierungs-Ökosystem stabilisiert sich noch: Die Unsloth-GGUF-Quants kamen schnell, aber das volle Ökosystem optimierter Formate (AWQ, GPTQ, ExLlamaV2) rollt noch aus. Geben Sie ein paar Tage.
Denk-Modus kann wortreich sein: Die Reasoning-Traces des Modells sind mächtig, bei einfachen Aufgaben aber manchmal übermäßig. Umschaltbar — nutzen Sie den Non-Thinking-Modus für schnelle Anfragen.
Nicht ganz auf Frontier-Closed-Modell-Niveau bei den schwersten Aufgaben: Bei den absolut komplexesten Long-Horizon-Agent-Benchmarks halten Claude Opus und GPT-5.2 noch einen knappen Vorsprung. Bei 95 %+ der realen Arbeit merken Sie das nicht.

Das Fazit: Die lokale KI-Krone wechselt den Besitzer — innerhalb derselben Familie. Qwen3.6-27B nimmt alles, was Qwen3.5-27B zum Kategorie-Führer gemacht hat, und dreht jeden Regler nach oben: dramatisch besseres agentisches Coding (Terminal-Bench +43 %), stärkeres Reasoning (GPQA 87,8), verfeinerte Multimodalität mit Thinking Preservation — und es läuft auf derselben Consumer-GPU. Der Community-Konsens ist sofort und überwältigend — das ist der neue Standard dafür, was lokale KI leisten kann. Wenn Sie bereits Qwen3.5-27B genutzt haben, ist das ein Upgrade ohne Nachdenken. Falls nicht, ist dies Ihr Zeichen zum Anfangen.