Kimi K2.6

By Moonshot AI · Updated

Lo que realmente es

Aquí hay un número que debería incomodar a todo ejecutivo de IA en la nube: 58,6. Esa es la puntuación de Kimi K2.6 en SWE-Bench Pro — el benchmark que mide si una IA puede realmente arreglar bugs reales en bases de código reales. Supera los 57,7 de GPT-5.4. Supera los 53,4 de Claude Opus 4.6. Y a diferencia de esos modelos, puedes descargar los pesos completos y ejecutarlo tú mismo.

Lanzado por Moonshot AI el 20 de abril de 2026, Kimi K2.6 es un modelo Mixture-of-Experts de un billón de parámetros que activa solo 32 mil millones por paso. Imagina una empresa con 384 departamentos especializados — para cada pregunta, solo 8 expertos se reúnen para responder mientras el resto permanece en espera. El resultado es inteligencia de nivel frontier a una fracción del costo computacional por token.

Pero lo que hace a K2.6 genuinamente diferente de los anteriores campeones de pesos abiertos no es el tamaño bruto — es lo que puede hacer. Este modelo orquesta enjambres de agentes de hasta 300 sub-agentes a través de 4.000+ pasos coordinados. Procesa imágenes y video nativamente, no como un añadido posterior. Maneja 256K tokens de contexto sin degradación. Y en el comprehensivo Índice de Inteligencia de Artificial Analysis, puntúa 54 — colocándose #4 en general, solo detrás de los tres modelos frontier cerrados más grandes. Ningún modelo abierto ha estado nunca tan cerca de la cima.

Puntos fuertes

Barrida de benchmarks agénticos: SWE-Bench Pro 58,6, Terminal-Bench 66,7, BrowseComp 83,2, Toolathlon 50,0 — no solo compite con modelos frontier cerrados en codificación agéntica, los supera. El primer modelo abierto que lidera consistentemente benchmarks de ingeniería del mundo real.
Entrada multimodal real: Procesa imágenes y video nativamente junto con texto y código. Analiza capturas de pantalla, depura diseños visuales, comprende diagramas — una ventaja crucial sobre competidores solo-texto como GLM-5.1.
Orquestación de enjambres de agentes: Soporta hasta 300 sub-agentes ejecutando 4.000+ pasos coordinados. No solo responde preguntas — orquesta flujos de trabajo autónomos completos, desde investigación profunda hasta refactorizaciones de código multi-archivo.
Ventana de contexto de 256K: Alimenta bases de código enteras, conjuntos masivos de documentación o historiales de conversación de varias horas. Combinado con su puntuación LiveCodeBench v6 de 89,6, maneja tareas de codificación complejas y de largo horizonte con consistencia notable.
Pesos abiertos, licencia MIT modificada: Descarga los pesos completos de Hugging Face y autoaloja. Uso comercial con un simple requisito de atribución para despliegues muy grandes (100M+ MAU). Sin regalías, sin dependencia de API.

Resumen de Benchmarks

SWE-Bench Pro — 58,6Benchmark de ingeniería de software real. Kimi K2.6 supera a GPT-5.4 (57,7) y Claude Opus 4.6 (53,4). La puntuación más alta que un modelo de pesos abiertos haya logrado en este benchmark.
Artificial Analysis — #4 General (Índice 54)El modelo de pesos abiertos líder en el Índice de Inteligencia de Artificial Analysis, solo detrás de tres modelos frontier cerrados (Anthropic, Google, OpenAI en 57). La tasa de alucinación bajó al 39% desde el 65% de K2.5.
Arquitectura — 1T MoE / 32B activos384 expertos con Multi-head Latent Attention. Solo 32B parámetros se activan por token, haciéndolo eficiente por inferencia a pesar del billón de parámetros totales. Soporta vLLM, SGLang y KTransformers.

Limitaciones honestas

No es un modelo para GPU de consumo: Un billón de parámetros totales significa ~600–650 GB de VRAM con cuantización INT4. Necesitas clústeres multi-GPU empresariales (múltiples H100) para autoalojar. La mayoría de usuarios accederá vía API — lo que anula parte de la promesa de privacidad ’local'.
Brechas de pulido ocasionales: Los números de benchmark son espectaculares, pero las pruebas de vibe-coding en el mundo real reportan elementos de interfaz rotos y asperezas que modelos cerrados como Claude manejan con más elegancia.
Alto consumo de tokens: El modo de pensamiento/razonamiento puede quemar tokens rápidamente en sesiones agénticas largas. Artificial Analysis necesitó ~160M tokens de razonamiento para su benchmark completo — vigila tus costos de API.
Sesgo del ecosistema chino: Como otros modelos de origen chino, la documentación en inglés y las herramientas de comunidad occidental están creciendo pero aún son menos maduras que el ecosistema en idioma chino.

El Veredicto: El modelo de pesos abiertos más capaz jamás lanzado — y no es ni de cerca. Si te importa la codificación a nivel frontier, flujos de trabajo agénticos y comprensión multimodal sin estar atado a la API de un solo proveedor cloud, Kimi K2.6 lo hace posible. La limitación es honesta: no lo ejecutarás en tu portátil. Pero puedes autoalojarlo en hardware serio o usarlo vía endpoints de API increíblemente baratos. De cualquier forma, la frontera de pesos abiertos acaba de dar un salto.