Kimi K2.6

By Moonshot AI · Updated

Was es wirklich ist

Hier ist eine Zahl, die jeden Cloud-KI-Manager nervös machen sollte: 58,6. Das ist Kimi K2.6s Score auf SWE-Bench Pro — dem Benchmark, der misst, ob eine KI tatsächlich echte Bugs in echten Codebasen fixen kann. Es schlägt GPT-5.4s 57,7. Es schlägt Claude Opus 4.6s 53,4. Und anders als bei diesen Modellen können Sie die vollständigen Gewichte herunterladen und es selbst betreiben.

Veröffentlicht von Moonshot AI am 20. April 2026, ist Kimi K2.6 ein Mixture-of-Experts-Modell mit einer Billion Parametern, das pro Vorwärtsdurchlauf nur 32 Milliarden Parameter aktiviert. Stellen Sie sich ein Unternehmen mit 384 Fachabteilungen vor — für jede Frage kommen nur 8 Experten zusammen, während der Rest bereitsteht. Das Ergebnis ist Frontier-Intelligenz zu einem Bruchteil der Rechenkosten pro Token.

Doch was K2.6 wirklich von früheren Open-Weight-Champions unterscheidet, ist nicht die schiere Größe — es ist, was es kann. Dieses Modell orchestriert Agenten-Schwärme von bis zu 300 Sub-Agenten über 4.000+ koordinierte Schritte. Es verarbeitet Bilder und Video nativ, nicht als nachträglicher Anbau. Es bewältigt 256K Tokens Kontext ohne Qualitätsverlust. Und auf dem umfassenden Intelligence Index von Artificial Analysis erzielt es 54 — Platz 4 insgesamt, nur hinter den drei größten geschlossenen Frontier-Modellen. Kein offenes Modell war je so nah an der Spitze.

Zentrale Stärken

Agentischer Benchmark-Durchmarsch: SWE-Bench Pro 58,6, Terminal-Bench 66,7, BrowseComp 83,2, Toolathlon 50,0 — es konkurriert nicht nur mit geschlossenen Frontier-Modellen beim agentischen Coding, es schlägt sie. Das erste offene Modell, das reale Engineering-Benchmarks konsistent anführt.
Echte multimodale Eingabe: Verarbeitet Bilder und Video nativ neben Text und Code. Screenshots analysieren, visuelle Layouts debuggen, Diagramme verstehen — ein entscheidender Vorteil gegenüber reinen Text-Konkurrenten wie GLM-5.1.
Agenten-Schwarm-Orchestrierung: Unterstützt bis zu 300 Sub-Agenten, die 4.000+ koordinierte Schritte ausführen. Es beantwortet nicht nur Fragen — es orchestriert ganze autonome Workflows, von Deep Research bis zu Multi-Datei-Code-Refactors.
256K Kontextfenster: Ganze Codebasen, massive Dokumentationssets oder mehrstündige Gesprächsverläufe einspeisen. Kombiniert mit LiveCodeBench v6-Score von 89,6 bewältigt es komplexe Langzeit-Coding-Aufgaben mit bemerkenswerter Konsistenz.
Offene Gewichte, modifizierte MIT-Lizenz: Vollständige Gewichte von Hugging Face herunterladen und selbst hosten. Kommerziell nutzbar mit einer einfachen Nennungspflicht für sehr große Deployments (100M+ MAU). Keine Lizenzgebühren, kein API-Lock-in.

Benchmark-Übersicht

SWE-Bench Pro — 58,6Benchmark für reale Softwareentwicklung. Kimi K2.6 schlägt GPT-5.4 (57,7) und Claude Opus 4.6 (53,4). Der höchste Score, den ein Open-Weight-Modell je auf diesem Benchmark erzielt hat.
Artificial Analysis — #4 Gesamt (Index 54)Das führende Open-Weight-Modell im Artificial Analysis Intelligence Index, nur hinter drei geschlossenen Frontier-Modellen (Anthropic, Google, OpenAI bei 57). Halluzinationsrate sank auf 39% von K2.5s 65%.
Architektur — 1T MoE / 32B aktiv384 Experten mit Multi-head Latent Attention. Nur 32B Parameter werden pro Token aktiviert, was es trotz einer Billion Gesamtparameter pro Inferenz effizient macht. Unterstützt vLLM, SGLang und KTransformers.

Ehrliche Einschränkungen

Kein Consumer-GPU-Modell: Eine Billion Gesamtparameter bedeutet ~600–650 GB VRAM bei INT4-Quantisierung. Enterprise-Grade Multi-GPU-Cluster (mehrere H100s) zum Self-Hosting nötig. Die meisten Nutzer werden es per API nutzen — was einen Teil des ‚lokal’-Privatsphäre-Versprechens aushöhlt.
Gelegentliche Politur-Lücken: Die Benchmark-Zahlen sind spektakulär, aber Praxistests beim Vibe-Coding berichten von gelegentlich kaputten UI-Elementen und Ecken, die geschlossene Modelle wie Claude eleganter handhaben.
Hoher Token-Verbrauch: Der Denk-/Reasoning-Modus kann bei langen agentischen Sitzungen schnell Tokens verbrennen. Artificial Analysis brauchte ~160M Reasoning-Tokens für den vollständigen Benchmark — API-Kosten im Auge behalten.
Chinesischer Ökosystem-Vorsprung: Wie andere Modelle chinesischen Ursprungs wachsen englische Dokumentation und westliches Community-Tooling, sind aber noch weniger ausgereift als das chinesischsprachige Ökosystem.

Das Fazit: Das leistungsfähigste Open-Weight-Modell, das je veröffentlicht wurde — und es ist nicht einmal knapp. Wenn Sie Frontier-Level-Coding, agentische Workflows und multimodales Verständnis ohne Bindung an die API eines einzelnen Cloud-Anbieters wollen, macht Kimi K2.6 es möglich. Der Haken ist ehrlich: Sie werden es nicht auf Ihrem Laptop betreiben. Aber Sie können es auf ernsthafter Hardware selbst hosten oder über unglaublich günstige API-Endpunkte nutzen. So oder so — die Open-Weight-Frontier hat gerade einen Sprung gemacht.