Qwen3.5 — 27B

By Alibaba (Qwen Team) · Updated

Sitio web oficial

Lo que realmente es

El equipo Qwen de Alibaba acaba de lanzar un modelo híbrido de 27 mil millones de parámetros que logra algo que ningún modelo local había conseguido de forma convincente: competir con modelos frontier exclusivos de la nube en programación, razonamiento y tareas de visión, mientras funciona en una sola GPU de consumidor de 24 GB. Qwen3.5-27B usa una arquitectura híbrida novedosa (Gated DeltaNet combinada con Mixture-of-Experts dispersa) que extrae una inteligencia notable de cada parámetro. No es solo un modelo de texto: procesa nativamente imágenes, vídeo y OCR, habla 201 idiomas y se extiende a más de un millón de tokens de contexto cuando lo necesitas. La importancia es difícil de exagerar. Por primera vez, un solo modelo descargable amenaza genuinamente tu suscripción de IA en la nube para la mayoría del trabajo diario — agentes de código, análisis de documentos, comprensión visual, sesiones de investigación largas — todo local, todo privado, todo gratis. Licencia Apache 2.0, que significa la misma libertad de “haz lo que quieras”. En Reddit r/LocalLLaMA lo llaman “el nuevo compañero diario” — y por una vez, el hype está justificado.

Puntos fuertes

  • Dominio de benchmarks en su clase: GPQA Diamond 85.5, SWE-Bench Verified 72.4, LiveCodeBench v6 80.7, MMLU-Pro 86.1 — no son números “buenos para local”, son números “competitivos con modelos frontier cerrados”.
  • Multimodal de verdad: Texto, visión, vídeo y OCR en un solo modelo. Analiza capturas de pantalla, lee documentos, mira videoclips — sin necesidad de un modelo de visión separado.
  • 262K de contexto nativo (1M+ ampliable): Aliméntalo con un código base entero, un PDF de 300 páginas o un hilo de conversación de semanas. La mayoría de modelos locales se quedan en 32K.
  • Capacidades agénticas excelentes: TAU2-Bench 79.0, BFCL 68.5 — maneja tool-calling de múltiples pasos, ejecución de funciones y bucles autónomos de agente con una fiabilidad que antes solo existía en APIs de la nube.
  • Licencia Apache 2.0: Totalmente abierta, sin restricciones comerciales. Haz fine-tuning, intégralo, vende productos basados en él — sin condiciones.
Resumen de Benchmarks
  • Arquitectura — Hybrid Gated DeltaNet + MoEDiseño novedoso que combina atención lineal para velocidad con expertos dispersos para inteligencia. Por esto golpea por encima de su categoría de 27B.
  • Multimodal — Visión + Vídeo + OCR nativosA diferencia de competidores solo texto, Qwen3.5-27B puede ver. Comprensión de imágenes, vídeo y OCR de documentos integrados desde el preentrenamiento.
  • Contexto — 262K tokens nativosLa mayoría de modelos abiertos dicen 128K y se degradan severamente pasados los 32K. Qwen3.5-27B mantiene la calidad en toda su ventana de 262K, ampliable a 1M+ con escalado YaRN.

Limitaciones honestas

  • Necesita ~17–18 GB de VRAM en 4 bits: Funciona muy bien en cualquier GPU de 24 GB (RTX 4090, 5090, etc.), pero si tienes hardware ultra-limitado — 16 GB totales, sin GPU dedicada — modelos más pequeños serán más ágiles.
  • Modo de pensamiento activo por defecto: El modelo produce trazas de razonamiento antes de responder. Fácil de desactivar, pero si no lo sabes, la primera salida parecerá extrañamente larga.
  • No del todo frontier en las tareas agénticas más difíciles: En los benchmarks multi-turno más complejos, modelos cloud como Claude Opus y GPT-5.2 aún llevan ventaja. Para el 95% del trabajo real, no lo notarás.
  • El setup requiere algo de comodidad técnica: Necesitarás Ollama, LM Studio o llama.cpp. Cada mes es más fácil, pero todavía no es “doble clic y listo”.

El Veredicto: El nuevo estándar de la IA local. Qwen3.5-27B es el primer modelo donde dejas de preguntar “¿es suficiente para ejecutar localmente?” y empiezas a preguntar “¿por qué sigo pagando por IA en la nube?” Benchmarks superiores, capacidades multimodales reales, 262K de contexto, excelente rendimiento en programación y agentes — y funciona en una sola GPU de consumidor. Si te importa la privacidad, el coste o simplemente poseer tu stack de IA, este es el modelo que cambió la ecuación.