Qwen 3.7 Max

Alibaba Cloud · Publié 19 mai 2026

9.4 /10 Note globale

Ce que c'est réellement

Voici ce qui est fascinant à propos du 19 mai 2026 : Alibaba a livré un modèle qui n’essaie pas d’être le meilleur en tout — et c’est peut-être exactement la raison pour laquelle il est si bon dans la seule chose qu’il fait.

Qwen 3.7 Max, c’est ce qui arrive quand vous concevez un modèle spécifiquement pour le problème que la plupart des modèles de programmation traitent comme un détail : que se passe-t-il après la sixième heure ? Après le 500e appel d’outil ? Après que le modèle a débogué, compilé, testé et itéré de manière autonome pendant plus longtemps que la journée de travail de la plupart des développeurs ?

La réponse, apparemment, c’est qu’il continue. La démo phare — une session d’optimisation de noyau de 35 heures sur du matériel que le modèle n’avait jamais vu — n’est pas qu’un coup de benchmark. C’est une déclaration sur ce que « codage agentique » signifie vraiment quand on arrête de l’utiliser comme un mot à la mode marketing. 1 158 appels d’outils. 432 cycles de compilation-test-itération. Des bugs auto-diagnostiqués. Et à l’arrivée : une accélération de 10× par rapport à l’implémentation de référence Triton, livrée sans qu’un seul humain ne touche le clavier.

Les benchmarks racontent une histoire cohérente. SWE-Bench Pro à 60,6 % le place dans la même conversation que Claude Opus 4.6 et DeepSeek V4 Pro Max — pas en tête du peloton, mais assis à la même table. Terminal-Bench 2.0 à 69,7 bat effectivement le 67,9 de DeepSeek. Les résultats préliminaires de Code Arena WebDev affichent ~1541 Elo, devançant les 1538 de Claude Opus 4.6 en développement web en tête-à-tête.

Mais le véritable facteur de différenciation n’est pas un chiffre isolé — c’est le choix architectural d’optimiser pour une cohérence soutenue sur des sessions marathon. La plupart des modèles frontière démarrent fort puis se dégradent après quelques centaines d’appels d’outils. Qwen 3.7 Max a été conçu pour l’inverse : des performances constantes sur des sessions qui feraient oublier aux autres modèles ce qu’ils étaient en train de faire trois heures plus tôt.

Le hic ? C’est API uniquement, et ces sessions prolongées ne sont pas bon marché. Un early adopter a signalé avoir dépensé 43 $ en 15 minutes de codage autonome intensif. Et les évaluations indépendantes montrent plus de variance que les benchmarks officiels — Vals AI lui attribue 68,8 % sur un sous-ensemble SWE-Bench Verified contre les 80,4 % annoncés par Alibaba. L’écart entre « meilleure exécution de benchmark » et « mardi après-midi ordinaire » est bien réel.

Malgré tout, pour les équipes qui exécutent de longs pipelines autonomes — optimisation CI/CD, refactorisations multi-dépôts, ou tout ce qui exige qu’un modèle reste cohérent sur des milliers d’étapes — c’est le premier modèle qui a été véritablement conçu pour ce workflow plutôt que de l’avoir greffé après coup.

Points Forts

Sessions autonomes de 35 heures : La démo phare : optimisation de noyau entièrement autonome sur du matériel inconnu. 1 158 appels d’outils, 432 itérations, auto-diagnostic des bugs de compilation, et livraison d’une accélération de 10× en moyenne géométrique par rapport à la référence Triton. Aucun humain n’y a touché pendant 35 heures d’affilée.
SWE-Bench Pro 60,6 % : Le benchmark d’ingénierie logicielle en conditions réelles — de véritables issues GitHub provenant de dépôts en production. Place Qwen 3.7 Max dans la même catégorie que Claude Opus 4.6 et DeepSeek V4 Pro Max, bien au-dessus de la plupart des modèles propriétaires.
Fenêtre de contexte de 1M de tokens : Chargez des monorepos entiers, des architectures multi-fichiers ou des ensembles de documentation volumineux. Combiné avec une inférence rapide (210+ tokens/sec), il gère des bases de code massives sans l’amnésie contextuelle qui afflige les modèles à contexte plus court.
Compatibilité multi-harness : Fonctionne directement avec Claude Code, OpenClaw, Qwen Code et tout endpoint compatible OpenAI/Anthropic. Aucune intégration personnalisée nécessaire — remplacez-le, et votre scaffolding d’agent existant fonctionne tout simplement.
Socle élite en maths/raisonnement : GPQA Diamond 92,4 %, Humanity’s Last Exam 41,4, HMMT 2026 97,1 %. Le raisonnement mathématique qui sous-tend la génération de code est véritablement de classe frontière — il ne se contente pas d’écrire du code, il raisonne sur les algorithmes.

Aperçu des Benchmarks

SWE-Bench Pro — 60,6 % Ingénierie logicielle en conditions réelles. Compétitif avec Claude Opus 4.6 et DeepSeek V4 Pro Max sur des issues GitHub en production. Performance solide pour un spécialiste agentique de première génération.
Terminal-Bench 2.0 Terminus — 69,7 Tâches d'ingénierie en ligne de commande. Bat DeepSeek V4 Pro Max (67,9) et la plupart des modèles frontière occidentaux. Démontre une véritable compétence en programmation système.
Code Arena WebDev — ~1541 Elo Classement en tête-à-tête pour le développement web. Top 4 mondial — bat Claude Opus 4.6 (1538) dans les résultats préliminaires. Prouve de réelles compétences en développement web au-delà des benchmarks synthétiques.

Limites Honnêtes

API uniquement, pas de poids ouverts : Contrairement à Kimi K2.6 ou aux propres modèles open-source de Qwen, le 3.7 Max est propriétaire. Vous ne pouvez pas l’auto-héberger, inspecter les poids ou l’utiliser hors ligne. Alibaba Cloud Model Studio ou OpenRouter sont vos seules options.
Les coûts s’accumulent vite : ~1,25–2,50 $/M en entrée, 7,50 $/M en sortie. Les sessions agentiques prolongées avec des milliers d’appels d’outils peuvent brûler votre budget rapidement. Le caching aide, mais planifiez soigneusement vos budgets de tokens pour une utilisation agentique intensive.
Variance en conditions réelles : Les benchmarks officiels affichent des scores proches du SOTA, mais les évaluations indépendantes (Vals AI : 68,8 % sur un sous-ensemble SWE-Bench Verified contre 80,4 % annoncés) et les retours utilisateurs montrent plus d’incohérence que le classement ne le suggère.
Lacunes UI/Design : L’Elo Code Arena WebDev est élite (~1541), mais les scores Design Arena (~1310 Elo) révèlent un modèle orienté ingénierie avant tout. Pour du travail frontend au pixel près, Claude Opus 4.7 reste en tête.

Le Verdict: Le modèle qui a prouvé que le codage agentique n’est pas qu’une fonctionnalité — c’est une catégorie. Là où Claude et GPT-5.5 greffent des capacités d’agent sur des modèles généralistes, Qwen 3.7 Max a été conçu dès le départ pour les sessions de 35 heures et les milliers d’appels d’outils qui feraient perdre la cohérence à d’autres modèles. Si votre workflow implique des refactorisations multi-fichiers, des pipelines CI de longue durée ou de l’optimisation de code autonome, c’est le spécialiste qu’il vous faut. Surveillez simplement votre facture API.