Kimi K2.6

By Moonshot AI · Updated

Site officiel

Ce que c'est réellement

Voici un chiffre qui devrait inquiéter tout dirigeant de l’IA cloud : 58,6. C’est le score de Kimi K2.6 sur SWE-Bench Pro — le benchmark qui mesure si une IA peut corriger de vrais bugs dans de vraies bases de code. Il bat GPT-5.4 (57,7) et Claude Opus 4.6 (53,4). Et contrairement à ces modèles, vous pouvez télécharger les poids et le faire tourner vous-même.

Publié par Moonshot AI le 20 avril 2026, Kimi K2.6 est un modèle MoE d’un billion de paramètres qui n’active que 32 milliards par passe. Imaginez 384 départements spécialisés — pour chaque question, 8 experts se réunissent tandis que les autres restent en veille. Intelligence frontière à une fraction du coût.

Ce qui distingue K2.6, ce n’est pas la taille — c’est ce qu’il fait. Essaims de 300 sous-agents, 4 000+ étapes coordonnées. Images et vidéo nativement. 256K tokens de contexte. Indice d’Intelligence AA de 54 — #4 mondial, derrière seulement trois modèles fermés. Aucun modèle ouvert n’a jamais été aussi proche du sommet.

Points Forts

  • Razzia benchmarks agentiques : SWE-Bench Pro 58,6, Terminal-Bench 66,7, BrowseComp 83,2, Toolathlon 50,0 — il bat les modèles frontières fermés en codage agentique. Premier modèle ouvert à mener les benchmarks d’ingénierie réelle.
  • Entrée multimodale native : Images et vidéo nativement aux côtés du texte et code. Captures d’écran, mises en page, diagrammes — avantage crucial sur les concurrents textuels comme GLM-5.1.
  • Essaims d’agents : Jusqu’à 300 sous-agents, 4 000+ étapes coordonnées. Orchestre des workflows autonomes complets, de la recherche au refactoring multi-fichiers.
  • Contexte 256K : Bases de code entières, documentation massive, historiques longs. Score LiveCodeBench v6 de 89,6 pour les tâches complexes de longue durée.
  • Poids ouverts, licence MIT modifiée : Poids complets sur Hugging Face. Commercial avec attribution pour très grands déploiements (100M+ MAU). Pas de redevances.
Aperçu des Benchmarks
  • SWE-Bench Pro — 58,6Benchmark d'ingénierie logicielle réelle. Bat GPT-5.4 (57,7) et Claude Opus 4.6 (53,4). Record open-weight.
  • Artificial Analysis — #4 Général (Indice 54)Leader open-weight sur l'Indice d'Intelligence AA, derrière trois modèles fermés (Anthropic, Google, OpenAI à 57). Hallucination : 39% vs 65% pour K2.5.
  • Architecture — 1T MoE / 32B actifs384 experts avec Multi-head Latent Attention. 32B actifs par token. Supporte vLLM, SGLang et KTransformers.

Limites Honnêtes

  • Pas pour GPU grand public : ~600–650 Go VRAM en INT4. Clusters multi-GPU entreprise (H100) nécessaires. La plupart accéderont via API — annulant la promesse de confidentialité locale.
  • Finition parfois inégale : Les benchmarks sont spectaculaires, mais le vibe-coding réel signale des éléments cassés que Claude gère mieux.
  • Tokens coûteux : Le mode raisonnement brûle vite les tokens. ~160M tokens pour le benchmark AA complet — surveillez les coûts.
  • Écosystème chinois : Documentation anglaise et outils occidentaux en croissance mais moins matures que l’écosystème sinophone.

Le Verdict: Le modèle open-weight le plus capable jamais publié. Codage frontière, workflows agentiques et compréhension multimodale sans verrouillage cloud. Vous ne le ferez pas tourner sur un portable, mais l’auto-hébergement sérieux ou l’API bon marché le rendent accessible. La frontière open-weight vient de bondir.