Qwen3.5 — 27B

By Alibaba (Qwen Team) · Updated

Site officiel

Ce que c'est réellement

L’équipe Qwen d’Alibaba vient de sortir un modèle hybride de 27 milliards de paramètres qui accomplit quelque chose qu’aucun modèle local n’avait véritablement réussi jusqu’ici : rivaliser avec les modèles cloud de pointe en codage, raisonnement et vision — tout en tournant sur un seul GPU grand public de 24 Go. Qwen3.5-27B utilise une architecture hybride inédite (Gated DeltaNet + Mixture-of-Experts épars) qui tire une intelligence remarquable de chaque paramètre. Ce n’est pas un simple modèle texte — il gère nativement les images, la vidéo et l’OCR, parle 201 langues et étend son contexte à plus d’un million de tokens quand nécessaire. Licence Apache 2.0 : la liberté totale « faites-en ce que vous voulez ». L’importance est difficile à surestimer. Pour la première fois, un modèle téléchargeable menace véritablement de remplacer votre abonnement IA cloud pour la plupart des tâches quotidiennes — agents de programmation, analyse de documents, compréhension visuelle, sessions de recherche prolongées — le tout en local, en toute confidentialité, et entièrement gratuit.

Points Forts

  • Dominance des benchmarks dans sa catégorie : GPQA Diamond 85,5, SWE-Bench Verified 72,4, LiveCodeBench v6 80,7, MMLU-Pro 86,1 — ce ne sont pas des chiffres « corrects pour du local », ce sont des chiffres « compétitifs avec les modèles frontier fermés ».
  • Véritablement multimodal : Texte, vision, vidéo et OCR dans un seul modèle. Analysez des captures d’écran, lisez des documents, visualisez des clips vidéo — pas besoin d’un modèle de vision séparé.
  • 262K tokens de contexte natif (1M+ extensible) : Nourrissez-le avec un dépôt de code entier, un PDF de 300 pages ou un fil de conversation de plusieurs semaines. La plupart des modèles locaux décrochent à 32K.
  • Excellentes capacités agentiques : TAU2-Bench 79,0, BFCL 68,5 — il gère l’appel d’outils multi-étapes, l’exécution de fonctions et les boucles d’agents autonomes avec une fiabilité qui nécessitait auparavant des API cloud.
  • Licence Apache 2.0 : Entièrement ouvert, sans restriction commerciale. Affinez-le, intégrez-le, vendez des produits construits dessus — aucune condition.
Aperçu des Benchmarks
  • Architecture — Gated DeltaNet + MoE hybrideConception novatrice combinant l'attention linéaire pour la vitesse et les experts épars pour l'intelligence. C'est pourquoi il frappe au-dessus de sa catégorie de 27B.
  • Multimodal — Vision + Vidéo + OCR natifsContrairement aux concurrents texte uniquement, Qwen3.5-27B voit. Compréhension d'images, de vidéos et OCR de documents intégrés dès le pré-entraînement — pas ajoutés après coup.
  • Contexte — 262K tokens natifsLa plupart des modèles ouverts annoncent 128K et se dégradent au-delà de 32K. Qwen3.5-27B maintient sa qualité sur toute sa fenêtre de 262K, extensible à 1M+ avec YaRN.

Limites Honnêtes

  • ~17-18 Go de VRAM en 4 bits : Parfaitement utilisable sur tout GPU de 24 Go (RTX 4090/5090, etc.), mais si votre matériel est très contraint (16 Go totaux, pas de GPU dédié), les modèles plus petits seront plus réactifs.
  • Mode raisonnement activé par défaut : Le modèle produit des traces de raisonnement avant de répondre. Facile à désactiver, mais si vous ne le savez pas, votre première sortie semblera étrangement verbeuse.
  • Pas tout à fait frontier sur les tâches agentiques les plus complexes : Sur les benchmarks multi-tours les plus exigeants, les modèles cloud comme Claude Opus et GPT-5.2 gardent une avance. Pour 95 % du travail réel, vous ne verrez pas la différence.
  • L’installation demande encore un minimum de confort technique : Il vous faudra Ollama, LM Studio ou llama.cpp. C’est de plus en plus facile chaque mois, mais pas encore « double-cliquer et c’est parti ».

Le Verdict: La nouvelle référence de l’IA locale. Qwen3.5-27B est le premier modèle où l’on cesse de se demander « est-ce assez bon pour tourner en local ? » pour commencer à se demander « pourquoi est-ce que je paie encore pour de l’IA cloud ? ». Dominance sur les benchmarks, vraies capacités multimodales, contexte de 262K, excellentes performances en codage et en agents, licence Apache 2.0 — et ça tourne sur un seul GPU grand public. Si la confidentialité, le coût ou simplement la souveraineté de votre pile IA vous importent, c’est le modèle qui a changé la donne.