Qwen3.5 — 27B
By Alibaba (Qwen Team) · Updated
Ce que c'est réellement
L’équipe Qwen d’Alibaba vient de sortir un modèle hybride de 27 milliards de paramètres qui accomplit quelque chose qu’aucun modèle local n’avait véritablement réussi jusqu’ici : rivaliser avec les modèles cloud de pointe en codage, raisonnement et vision — tout en tournant sur un seul GPU grand public de 24 Go. Qwen3.5-27B utilise une architecture hybride inédite (Gated DeltaNet + Mixture-of-Experts épars) qui tire une intelligence remarquable de chaque paramètre. Ce n’est pas un simple modèle texte — il gère nativement les images, la vidéo et l’OCR, parle 201 langues et étend son contexte à plus d’un million de tokens quand nécessaire. Licence Apache 2.0 : la liberté totale « faites-en ce que vous voulez ». L’importance est difficile à surestimer. Pour la première fois, un modèle téléchargeable menace véritablement de remplacer votre abonnement IA cloud pour la plupart des tâches quotidiennes — agents de programmation, analyse de documents, compréhension visuelle, sessions de recherche prolongées — le tout en local, en toute confidentialité, et entièrement gratuit.
Points Forts
- Dominance des benchmarks dans sa catégorie : GPQA Diamond 85,5, SWE-Bench Verified 72,4, LiveCodeBench v6 80,7, MMLU-Pro 86,1 — ce ne sont pas des chiffres « corrects pour du local », ce sont des chiffres « compétitifs avec les modèles frontier fermés ».
- Véritablement multimodal : Texte, vision, vidéo et OCR dans un seul modèle. Analysez des captures d’écran, lisez des documents, visualisez des clips vidéo — pas besoin d’un modèle de vision séparé.
- 262K tokens de contexte natif (1M+ extensible) : Nourrissez-le avec un dépôt de code entier, un PDF de 300 pages ou un fil de conversation de plusieurs semaines. La plupart des modèles locaux décrochent à 32K.
- Excellentes capacités agentiques : TAU2-Bench 79,0, BFCL 68,5 — il gère l’appel d’outils multi-étapes, l’exécution de fonctions et les boucles d’agents autonomes avec une fiabilité qui nécessitait auparavant des API cloud.
- Licence Apache 2.0 : Entièrement ouvert, sans restriction commerciale. Affinez-le, intégrez-le, vendez des produits construits dessus — aucune condition.
- Architecture — Gated DeltaNet + MoE hybrideConception novatrice combinant l'attention linéaire pour la vitesse et les experts épars pour l'intelligence. C'est pourquoi il frappe au-dessus de sa catégorie de 27B.
- Multimodal — Vision + Vidéo + OCR natifsContrairement aux concurrents texte uniquement, Qwen3.5-27B voit. Compréhension d'images, de vidéos et OCR de documents intégrés dès le pré-entraînement — pas ajoutés après coup.
- Contexte — 262K tokens natifsLa plupart des modèles ouverts annoncent 128K et se dégradent au-delà de 32K. Qwen3.5-27B maintient sa qualité sur toute sa fenêtre de 262K, extensible à 1M+ avec YaRN.
Limites Honnêtes
- ~17-18 Go de VRAM en 4 bits : Parfaitement utilisable sur tout GPU de 24 Go (RTX 4090/5090, etc.), mais si votre matériel est très contraint (16 Go totaux, pas de GPU dédié), les modèles plus petits seront plus réactifs.
- Mode raisonnement activé par défaut : Le modèle produit des traces de raisonnement avant de répondre. Facile à désactiver, mais si vous ne le savez pas, votre première sortie semblera étrangement verbeuse.
- Pas tout à fait frontier sur les tâches agentiques les plus complexes : Sur les benchmarks multi-tours les plus exigeants, les modèles cloud comme Claude Opus et GPT-5.2 gardent une avance. Pour 95 % du travail réel, vous ne verrez pas la différence.
- L’installation demande encore un minimum de confort technique : Il vous faudra Ollama, LM Studio ou llama.cpp. C’est de plus en plus facile chaque mois, mais pas encore « double-cliquer et c’est parti ».
Le Verdict: La nouvelle référence de l’IA locale. Qwen3.5-27B est le premier modèle où l’on cesse de se demander « est-ce assez bon pour tourner en local ? » pour commencer à se demander « pourquoi est-ce que je paie encore pour de l’IA cloud ? ». Dominance sur les benchmarks, vraies capacités multimodales, contexte de 262K, excellentes performances en codage et en agents, licence Apache 2.0 — et ça tourne sur un seul GPU grand public. Si la confidentialité, le coût ou simplement la souveraineté de votre pile IA vous importent, c’est le modèle qui a changé la donne.