Qwen3.6 — 27B

By Alibaba (Qwen Team) · Updated

Site officiel

Ce que c'est réellement

L’équipe Qwen vient de sortir le modèle que la communauté IA locale attendait. Qwen3.6-27B est un modèle dense de 27 milliards de paramètres qui accomplit l’impossible : il bat le propre flagship de 397B d’Alibaba (Qwen3.5-397B-A17B) sur chaque benchmark de codage agentique majeur — SWE-bench Verified, SWE-bench Pro, Terminal-Bench 2.0, SkillsBench — tout en tournant sur un seul GPU de classe RTX 3090.

Ce n’est pas une mise à jour incrémentale. Le bond de Terminal-Bench 2.0 à lui seul (41,6 → 59,3) représente une amélioration de 43 % dans les workflows terminaux pratiques — exactement le type de tâches de codage réelles qui déterminent si un modèle local est vraiment utile. Ajoutez la compréhension native d’images et de vidéos, une nouvelle fonctionnalité de « Préservation du Raisonnement » qui maintient la cohérence du raisonnement à travers les conversations multi-tours, et la même fenêtre de contexte native de 262K (extensible à 1M+).

Le sentiment de la communauté parle de lui-même : r/LocalLLaMA le qualifie de « tournant pour l’inférence locale » et de « plus grande sortie de l’année jusqu’ici ». Licence Apache 2.0, quants GGUF déjà disponibles via Unsloth, même empreinte GPU. L’ère des compromis avec l’IA locale est — encore une fois — révolue.

Points Forts

  • Bat un modèle de 397B avec 27B : SWE-bench Verified 77,2, SWE-bench Pro 53,5, Terminal-Bench 2.0 59,3, SkillsBench Avg5 48,2 — Qwen3.6-27B surpasse le propre Qwen3.5-397B-A17B d’Alibaba (un modèle 15× plus gros) sur chaque benchmark de codage agentique majeur.
  • Bond massif dans les workflows terminaux et agentiques : Terminal-Bench 2.0 est passé de 41,6 (Qwen3.5-27B) à 59,3 — une amélioration de 43 %. SWE-bench Verified est passé de 75,0 à 77,2. Ce sont les signes d’un agent de codage fondamentalement plus capable.
  • Multimodal natif avec Préservation du Raisonnement : Images, vidéo, OCR et texte dans un seul modèle, plus une nouvelle fonctionnalité qui conserve le contexte de raisonnement à travers l’historique de conversation.
  • 262K tokens de contexte natif (1M+ extensible) : Même fenêtre de contexte généreuse que son prédécesseur, avec un maintien de qualité amélioré sur les entrées longues.
  • Licence Apache 2.0 + Support GGUF dès le jour un : Entièrement ouvert, sans restriction commerciale. Les quants GGUF Unsloth étaient disponibles en quelques heures après la sortie.
Aperçu des Benchmarks
  • Codage Agentique — SWE-bench Verified 77,2Le benchmark de référence pour l'ingénierie logicielle réelle. Qwen3.6-27B surpasse le propre flagship de 397B d'Alibaba.
  • Workflows Terminal — Terminal-Bench 2.0 : 59,3Un bond de 43 % par rapport au 41,6 de Qwen3.5-27B. Mesure les tâches de développement pratiques en terminal.
  • Raisonnement — GPQA Diamond 87,8Un raisonnement de niveau doctoral compétitif avec des modèles 10× plus grands. En hausse depuis 85,5 sur Qwen3.5-27B.

Limites Honnêtes

  • ~17–20 Go de VRAM en 4 bits : Même ordre de grandeur que Qwen3.5-27B. Excellent sur les cartes 24 Go (RTX 4090, 5090), mais sur du matériel ultra-contraint à 16 Go sans GPU dédié, les modèles plus petits resteront plus réactifs.
  • Sortie très récente — l’écosystème de quantification se stabilise encore : Les quants GGUF Unsloth sont arrivés vite, mais l’écosystème complet de formats optimisés (AWQ, GPTQ, ExLlamaV2) continue de se déployer.
  • Le mode pensée peut être verbeux : Les traces de raisonnement du modèle sont puissantes mais parfois excessives sur les tâches simples. Désactivable — utilisez le mode sans pensée pour les requêtes rapides.
  • Pas tout à fait au niveau des modèles fermés frontier sur les tâches les plus dures : Sur les benchmarks agentiques à long horizon les plus extrêmes, Claude Opus et GPT-5.2 conservent une légère avance. Pour 95 %+ du travail réel, vous ne verrez pas la différence.

Le Verdict: La couronne de l’IA locale change de mains — au sein de la même famille. Qwen3.6-27B prend tout ce qui faisait de Qwen3.5-27B le leader de la catégorie et pousse chaque curseur vers l’avant : codage agentique radicalement amélioré (Terminal-Bench +43 %), raisonnement renforcé (GPQA 87,8), multimodal affiné avec préservation du raisonnement, et ça tourne toujours sur le même GPU grand public. Si vous utilisiez déjà Qwen3.5-27B, cette mise à jour est une évidence. Sinon, c’est votre signal pour commencer.