Qwen3.6 — 27B

By Alibaba (Qwen Team) · Updated

Sitio web oficial

Lo que realmente es

El equipo Qwen acaba de lanzar el modelo que la comunidad de IA local estaba esperando. Qwen3.6-27B es un modelo denso de 27 mil millones de parámetros que entrega lo que suena imposible: supera al propio buque insignia de 397B de Alibaba (Qwen3.5-397B-A17B) en cada benchmark importante de coding agéntico — SWE-bench Verified, SWE-bench Pro, Terminal-Bench 2.0, SkillsBench — mientras funciona en una sola GPU de la clase RTX 3090.

Esto no es una actualización incremental. Solo el salto en Terminal-Bench 2.0 (41,6 → 59,3) representa una mejora del 43 % en flujos de trabajo de terminal prácticos — el tipo de tareas de programación del mundo real que determinan si un modelo local es realmente útil o solo bonito en los benchmarks. Añade comprensión nativa de visión y vídeo, una nueva función de «Preservación del Pensamiento» que mantiene la coherencia del razonamiento en conversaciones multi-turno, y la misma ventana de contexto nativa de 262K (ampliable a 1M+).

El sentimiento de la comunidad cuenta la historia: r/LocalLLaMA lo llama «un punto de inflexión para la inferencia local» y «el lanzamiento más grande del año hasta ahora.» Licencia Apache 2.0, quants GGUF ya disponibles vía Unsloth, mismo perfil de GPU. La era de los compromisos con la IA local terminó — otra vez.

Puntos fuertes

  • Supera a un modelo de 397B con 27B: SWE-bench Verified 77,2, SWE-bench Pro 53,5, Terminal-Bench 2.0 59,3, SkillsBench Avg5 48,2 — Qwen3.6-27B supera al propio Qwen3.5-397B-A17B de Alibaba (un modelo 15× más grande) en cada benchmark importante de coding agéntico.
  • Salto masivo en flujos de trabajo de terminal y agénticos: Terminal-Bench 2.0 saltó de 41,6 (en Qwen3.5-27B) a 59,3 — una mejora del 43 %. SWE-bench Verified pasó de 75,0 a 77,2. Reflejan un agente de código fundamentalmente más capaz.
  • Multimodal nativo con Preservación del Pensamiento: Imágenes, vídeo, OCR y texto en un modelo, más una nueva función que retiene el contexto de razonamiento a lo largo del historial de la conversación.
  • 262K de contexto nativo (1M+ ampliable): La misma ventana de contexto generosa que su predecesor, con mejor mantenimiento de calidad en entradas largas.
  • Licencia Apache 2.0 + Soporte GGUF desde el día uno: Totalmente abierto, sin restricciones comerciales. Los quants GGUF de Unsloth estuvieron disponibles en horas tras el lanzamiento.
Resumen de Benchmarks
  • Coding Agéntico — SWE-bench Verified 77,2El benchmark de referencia para ingeniería de software del mundo real. Qwen3.6-27B puntúa más alto que el propio buque insignia de 397B de Alibaba.
  • Flujos de Terminal — Terminal-Bench 2.0: 59,3Un salto del 43 % desde el 41,6 de Qwen3.5-27B. Mide tareas de desarrollo prácticas basadas en terminal.
  • Razonamiento — GPQA Diamond 87,8Razonamiento a nivel de posgrado que compite con modelos 10× más grandes. Subió desde 85,5 en Qwen3.5-27B.

Limitaciones honestas

  • ~17–20 GB de VRAM en 4 bits: Mismo rango que Qwen3.5-27B. Excelente en tarjetas de 24 GB (RTX 4090, 5090), pero si tienes hardware ultra-limitado de 16 GB sin GPU dedicada, modelos más pequeños seguirán sintiéndose más ágiles.
  • Lanzamiento muy reciente — el ecosistema de cuantización aún se estabiliza: Los quants GGUF de Unsloth salieron rápido, pero el ecosistema completo de formatos optimizados (AWQ, GPTQ, ExLlamaV2) aún está desplegándose.
  • El modo de pensamiento puede ser extenso: Las trazas de razonamiento son poderosas pero a veces excesivas en tareas simples. Desactivable — usa el modo sin pensamiento para consultas rápidas.
  • No del todo al nivel de modelos cerrados frontier en las tareas más difíciles: En los benchmarks agénticos de horizonte largo más extremos, Claude Opus y GPT-5.2 aún mantienen una ligera ventaja. Para el 95 %+ del trabajo real, no lo notarás.

El Veredicto: La corona del IA local cambia de manos — dentro de la misma familia. Qwen3.6-27B toma todo lo que hizo de Qwen3.5-27B el líder de la categoría y empuja cada indicador hacia adelante: coding agéntico dramáticamente mejor (Terminal-Bench +43 %), razonamiento más fuerte (GPQA 87,8), multimodal refinado con preservación del pensamiento, y sigue corriendo en la misma GPU de consumidor. Si ya estabas ejecutando Qwen3.5-27B, esta mejora es obvia. Si no, esta es tu señal para empezar.