Qwen 3.7 Max
Alibaba Cloud · Lanzado 19 de mayo de 2026
Lo que realmente es
Esto es lo interesante del 19 de mayo de 2026: Alibaba lanzó un modelo que no intenta ser el mejor en todo — y eso podría ser exactamente la razón por la que es tan bueno en lo único que hace.
Qwen 3.7 Max es lo que sucede cuando diseñas un modelo específicamente para el problema que la mayoría de los modelos de codificación tratan como algo secundario: ¿qué pasa después de la hora seis? ¿Después de la llamada a herramienta número 500? ¿Después de que el modelo ha estado depurando, compilando, probando e iterando de forma autónoma durante más tiempo que la jornada laboral de la mayoría de los desarrolladores?
La respuesta, aparentemente, es que sigue adelante. La demo estrella — una ejecución de optimización de kernel de 35 horas en hardware que el modelo nunca había visto — no es solo un truco de benchmark. Es una declaración sobre lo que realmente significa “codificación agéntica” cuando dejas de usarlo como un buzzword de marketing. 1,158 llamadas a herramientas. 432 ciclos de compilar-probar-iterar. Autodiagnóstico de errores. Y al final: una aceleración de 10× sobre la implementación de referencia de Triton, entregada sin que un solo humano tocara el teclado.
Los benchmarks cuentan una historia consistente. SWE-Bench Pro 60.6% lo pone en la misma conversación que Claude Opus 4.6 y DeepSeek V4 Pro Max — no liderando el grupo, pero sentado en la misma mesa. Terminal-Bench 2.0 con 69.7 de hecho supera el 67.9 de DeepSeek. Los resultados preliminares de Code Arena WebDev muestran ~1541 Elo, superando por poco el 1538 de Claude Opus 4.6 en desarrollo web head-to-head.
Pero el verdadero diferenciador no es ningún número individual — es la decisión arquitectónica de optimizar para coherencia sostenida durante sesiones maratónicas. La mayoría de los modelos frontera comienzan fuerte y se degradan después de unos cientos de llamadas a herramientas. Qwen 3.7 Max fue diseñado para lo contrario: rendimiento consistente a lo largo de sesiones que harían que otros modelos olvidaran lo que estaban haciendo tres horas atrás.
¿El inconveniente? Es solo API, y esas sesiones extendidas no son baratas. Un usuario temprano reportó haber gastado $43 en 15 minutos de codificación autónoma intensiva. Y las evaluaciones independientes muestran más varianza que los benchmarks oficiales — Vals AI lo puntuó en 68.8% en un subconjunto de SWE-Bench Verified versus el 80.4% declarado por Alibaba. La brecha entre “la mejor ejecución de benchmark” y “un martes por la tarde cualquiera” es real.
Aun así, para equipos que ejecutan pipelines autónomos de larga duración — optimización de CI/CD, refactorizaciones multi-repositorio o cualquier cosa que requiera que un modelo mantenga la coherencia a través de miles de pasos — este es el primer modelo que fue realmente diseñado para ese flujo de trabajo en lugar de tenerlo añadido como parche.
Puntos fuertes
- Sesiones autónomas de 35 horas: La demo estrella: optimización de kernel completamente autónoma en hardware desconocido. 1,158 llamadas a herramientas, 432 iteraciones, autodiagnóstico de errores de compilación, y entregó una aceleración de 10× en media geométrica sobre la referencia Triton. Ningún humano lo tocó durante 35 horas seguidas.
- SWE-Bench Pro 60.6%: El benchmark de ingeniería de software del mundo real — issues reales de GitHub en repositorios de producción. Coloca a Qwen 3.7 Max en el mismo nivel que Claude Opus 4.6 y DeepSeek V4 Pro Max, muy por encima de donde aterrizan la mayoría de los modelos propietarios.
- Ventana de contexto de 1M de tokens: Carga monorepos enteros, arquitecturas multi-archivo o conjuntos extensos de documentación. Combinado con inferencia rápida (210+ tokens/seg), maneja bases de código masivas sin la amnesia de contexto que afecta a los modelos con contexto más corto.
- Compatibilidad multi-framework: Funciona directamente con Claude Code, OpenClaw, Qwen Code y cualquier endpoint compatible con OpenAI/Anthropic. Sin necesidad de integración personalizada — intercámbialo y tu scaffolding de agentes existente simplemente funciona.
- Razonamiento matemático de élite: GPQA Diamond 92.4%, Humanity’s Last Exam 41.4, HMMT 2026 97.1%. El razonamiento matemático que sustenta la generación de código es genuinamente de clase frontera — no solo escribe código, razona sobre algoritmos.
-
SWE-Bench Pro — 60.6% Ingeniería de software del mundo real. Competitivo con Claude Opus 4.6 y DeepSeek V4 Pro Max en issues de producción de GitHub. Resultado sólido para un especialista agéntico de primera generación.
-
Terminal-Bench 2.0 Terminus — 69.7 Tareas de ingeniería en línea de comandos. Supera a DeepSeek V4 Pro Max (67.9) y a la mayoría de los modelos frontera occidentales. Demuestra competencia genuina en codificación a nivel de sistemas.
-
Code Arena WebDev — ~1541 Elo Rankings head-to-head de desarrollo web. Top 4 global — supera a Claude Opus 4.6 (1538) en resultados preliminares. Demuestra habilidades reales en desarrollo web más allá de benchmarks sintéticos.
Limitaciones honestas
- Solo API, sin pesos abiertos: A diferencia de Kimi K2.6 o los propios modelos open-source de Qwen, 3.7 Max es propietario. No puedes alojarlo tú mismo, inspeccionar los pesos ni ejecutarlo offline. Alibaba Cloud Model Studio u OpenRouter son tus únicas opciones.
- El costo se acumula rápido: ~$1.25–2.50/M de entrada, $7.50/M de salida. Las sesiones extendidas de agentes con miles de llamadas a herramientas pueden quemar tu presupuesto rápidamente. El caching ayuda, pero planifica tus presupuestos de tokens cuidadosamente para uso agéntico intensivo.
- Varianza en el mundo real: Los benchmarks oficiales muestran números casi SOTA, pero las evaluaciones independientes (Vals AI: 68.8% en un subconjunto de SWE-Bench Verified vs. 80.4% declarado) y los reportes de usuarios muestran más inconsistencia de lo que sugiere el leaderboard.
- Debilidades en UI/diseño: El Elo en Code Arena WebDev es de élite (~1541), pero las puntuaciones en Design Arena (~1310 Elo) revelan que este es un modelo orientado a ingeniería. Para trabajo frontend pixel-perfect, Claude Opus 4.7 sigue liderando.
El Veredicto: El modelo que demostró que la codificación agéntica no es solo una característica — es una categoría. Mientras Claude y GPT-5.5 agregan capacidades de agente a modelos de propósito general, Qwen 3.7 Max fue construido desde cero para el tipo de sesiones de 35 horas y miles de llamadas a herramientas que harían perder coherencia a otros modelos. Si tu flujo de trabajo involucra refactorizaciones multi-archivo, pipelines de CI de larga duración u optimización autónoma de código, este es el especialista que contratas. Solo vigila tu factura de API.