Qwen 3.7 Max

Alibaba Cloud · Veröffentlicht 19. Mai 2026

9.4 /10 Gesamtbewertung

Was es wirklich ist

Hier ist, was den 19. Mai 2026 so interessant macht: Alibaba hat ein Modell geliefert, das gar nicht erst versucht, in allem das Beste zu sein — und genau deshalb ist es so gut in der einen Sache, die es tut.

Qwen 3.7 Max ist das Ergebnis, wenn man ein Modell gezielt für das Problem entwirft, das die meisten Coding-Modelle als Nebensache behandeln: Was passiert nach Stunde sechs? Nach Tool Call 500? Nachdem das Modell länger autonom debuggt, kompiliert, testet und iteriert hat als der Arbeitstag der meisten Entwickler?

Die Antwort ist offenbar: Es macht einfach weiter. Die Flagship-Demo — ein 35-stündiger Kernel-Optimierungslauf auf Hardware, die das Modell nie zuvor gesehen hatte — ist nicht nur ein Benchmark-Stunt. Es ist ein Statement darüber, was „agentisches Coding" tatsächlich bedeutet, wenn man aufhört, es als Marketing-Buzzword zu verwenden. 1.158 Tool Calls. 432 Compile-Test-Iterate-Zyklen. Selbstdiagnostizierte Bugs. Und am Ende: ein 10× Speedup gegenüber der Triton-Referenzimplementierung, geliefert ohne dass ein Mensch die Tastatur berührt hat.

Die Benchmarks erzählen eine konsistente Geschichte. SWE-Bench Pro 60,6% setzt es in dasselbe Gespräch wie Claude Opus 4.6 und DeepSeek V4 Pro Max — nicht an der Spitze des Feldes, aber am selben Tisch. Terminal-Bench 2.0 mit 69,7 schlägt tatsächlich DeepSeeks 67,9. Code Arena WebDev zeigt in vorläufigen Ergebnissen ~1541 Elo und übertrifft knapp Claude Opus 4.6s 1538 im Head-to-Head der Webentwicklung.

Aber der wahre Differenzierer ist keine einzelne Zahl — es ist die Architekturentscheidung, auf anhaltende Kohärenz über Marathon-Sitzungen zu optimieren. Die meisten Frontier-Modelle starten stark und bauen nach ein paar hundert Tool Calls ab. Qwen 3.7 Max wurde für das Gegenteil entworfen: konsistente Leistung über Sitzungen hinweg, bei denen andere Modelle längst vergessen hätten, was sie vor drei Stunden eigentlich gemacht haben.

Der Haken? Es ist nur über API verfügbar, und diese langen Sitzungen sind nicht billig. Ein Early Adopter berichtete von $43 Kosten in 15 Minuten intensiven autonomen Codings. Und unabhängige Evaluierungen zeigen mehr Varianz als die offiziellen Benchmarks — Vals AI bewertete es mit 68,8% auf einer SWE-Bench Verified-Teilmenge gegenüber Alibabas behaupteten 80,4%. Die Lücke zwischen „bester Benchmark-Lauf" und „durchschnittlicher Dienstagnachmittag" ist real.

Dennoch: Für Teams, die lange autonome Pipelines betreiben — CI/CD-Optimierung, Multi-Repo-Refactors oder alles, was erfordert, dass ein Modell über Tausende von Schritten kohärent bleibt — ist dies das erste Modell, das tatsächlich für diesen Workflow entworfen wurde, anstatt ihn nachträglich aufgeschraubt zu bekommen.

Zentrale Stärken

35-stündige autonome Sitzungen: Die Headline-Demo: vollständig autonome Kernel- Optimierung auf unbekannter Hardware. 1.158 Tool Calls, 432 Iterationen, selbstdiagnostizierte Kompilierungsfehler und ein 10× geometrisches Mittel an Speedup gegenüber der Triton-Referenz. 35 Stunden lang hat kein Mensch eingegriffen.
SWE-Bench Pro 60,6%: Der Real-World-Softwareentwicklungs-Benchmark — echte GitHub-Issues aus Produktions-Repos. Setzt Qwen 3.7 Max in dieselbe Liga wie Claude Opus 4.6 und DeepSeek V4 Pro Max, deutlich über dem Niveau, auf dem die meisten proprietären Modelle landen.
1M-Token-Kontextfenster: Laden Sie ganze Monorepos, Multi-Datei-Architekturen oder umfangreiche Dokumentationssammlungen. Kombiniert mit schneller Inferenz (210+ Token/Sek.) bewältigt es massive Codebasen ohne die Kontextamnesie, die Modelle mit kürzerem Kontextfenster plagt.
Cross-Harness-Kompatibilität: Funktioniert sofort mit Claude Code, OpenClaw, Qwen Code und jedem OpenAI/Anthropic-kompatiblen Endpoint. Keine eigene Integration nötig — einfach austauschen, und Ihr bestehendes Agent-Scaffolding funktioniert.
Elite-Mathematik-/Reasoning-Grundlage: GPQA Diamond 92,4%, Humanity’s Last Exam 41,4, HMMT 2026 97,1%. Das mathematische Reasoning, das die Codegenerierung untermauert, ist echte Frontier-Klasse — es schreibt nicht nur Code, es denkt über Algorithmen nach.

Benchmark-Übersicht

SWE-Bench Pro — 60,6% Real-World-Softwareentwicklung. Wettbewerbsfähig mit Claude Opus 4.6 und DeepSeek V4 Pro Max bei Produktions-GitHub-Issues. Starkes Ergebnis für einen Agentik-Spezialisten der ersten Generation.
Terminal-Bench 2.0 Terminus — 69,7 Kommandozeilen-Engineering-Aufgaben. Schlägt DeepSeek V4 Pro Max (67,9) und die meisten westlichen Frontier-Modelle. Zeigt echte Kompetenz auf Systemebene.
Code Arena WebDev — ~1541 Elo Head-to-Head-Rankings in der Webentwicklung. Global Top 4 — schlägt Claude Opus 4.6 (1538) in vorläufigen Ergebnissen. Beweist reale Webentwicklungsstärke jenseits synthetischer Benchmarks.

Ehrliche Einschränkungen

Nur API, keine offenen Gewichte: Anders als Kimi K2.6 oder Qwens eigene Open-Source-Modelle ist 3.7 Max proprietär. Sie können es nicht selbst hosten, die Gewichte inspizieren oder offline betreiben. Alibaba Cloud Model Studio oder OpenRouter sind Ihre einzigen Optionen.
Kosten summieren sich schnell: ~$1,25–2,50/M Input, $7,50/M Output. Längere Agent-Sitzungen mit Tausenden von Tool Calls können das Budget schnell aufbrauchen. Caching hilft, aber planen Sie Ihre Token-Budgets sorgfältig für intensiven agentischen Einsatz.
Varianz in der Praxis: Offizielle Benchmarks zeigen nahezu SOTA-Zahlen, aber unabhängige Evaluierungen (Vals AI: 68,8% auf einer SWE-Bench Verified-Teilmenge vs. behaupteten 80,4%) und Nutzerberichte zeigen mehr Inkonsistenz als das Leaderboard suggeriert.
UI/Design-Schwächen: Code Arena WebDev Elo ist Elite (~1541), aber Design Arena Scores (~1310 Elo) zeigen, dass dies ein Engineering-First-Modell ist. Für pixelgenaue Frontend-Arbeit führt Claude Opus 4.7 weiterhin.

Das Fazit: Das Modell, das bewiesen hat, dass agentisches Coding nicht nur ein Feature ist — sondern eine Kategorie. Während Claude und GPT-5.5 Agent-Fähigkeiten auf Allzweckmodelle aufschrauben, wurde Qwen 3.7 Max von Grund auf für die Art von 35-Stunden-Sitzungen mit Tausenden Tool Calls gebaut, bei denen andere Modelle die Kohärenz verlieren würden. Wenn Ihr Workflow Multi-Datei-Refactors, langlebige CI-Pipelines oder autonome Code-Optimierung umfasst, ist dies der Spezialist, den Sie engagieren. Behalten Sie nur Ihre API-Rechnung im Auge.