Grok Imagine Video 1.5
xAI · Lanzado 31 de mayo de 2026
Lo que realmente es
Grok Imagine Video 1.5 de xAI es lo que ocurre cuando lanzas 110.000 GPUs al problema de hacer que la generación de vídeo sea rápida, barata y realmente buena. Lanzado discretamente el 31 de mayo de 2026 como Preview, inmediatamente se catapultó a la cima del leaderboard Image-to-Video de Arena.ai — la prueba de sabor a ciegas que más importa — derrotando a Seedance 2.0, Veo 3.1 y a todos los demás contendientes en votaciones de preferencia humana directa.
El modelo funciona sobre el motor autoregresivo Aurora de xAI y soporta tres modos principales: text-to-video, image-to-video (su punto más fuerte) y generación condicionada por referencia para mantener la consistencia visual. El audio nativo no está pegado con cinta adhesiva — está integrado de fábrica, generando diálogos con lip-sync, paisajes sonoros ambientales y música en el mismo forward pass que los visuales. La versión 1.5 mejoró específicamente la naturalidad de los diálogos y la integración del audio de fondo respecto al lanzamiento 1.0.
Pero el titular de verdad es el precio: a $0.06–$0.08 por segundo, Grok Imagine Video 1.5 cuesta una fracción de lo que cobran Seedance ($0.30+/s) o Sora 2 Pro ($0.70/s) — y el audio viene incluido. Para creadores que necesitan iterar rápido y producir en volumen, las cuentas son irresistibles. El acceso está disponible a través de la API de xAI, el chatbot Grok (niveles SuperGrok desde $10–$300/mes) y plataformas de terceros como Fal.ai, Replicate y OpenRouter.
Puntos fuertes
- #1 en Arena.ai Image-to-Video: Lidera el leaderboard de pruebas ciegas comunitarias más relevante con 1,473 Elo de más de 5.500 votos — por poco delante de Seedance 2.0 (1,467) y muy por encima de las variantes de Veo 3.1. El modelo que la gente elige cuando no puede ver la etiqueta.
- Generación de audio nativa: Produce diálogos sincronizados con lip-sync preciso, sonidos ambientales, música y efectos de sonido en el mismo pase de generación. La versión 1.5 mejoró la naturalidad respecto a la 1.0 con mejor integración de música de fondo.
- Mejor relación precio/rendimiento: A $0.06–$0.08 por segundo ($3.60–$4.80/min), es dramáticamente más barato que Seedance ($0.30+/s), Sora 2 Pro ($0.70/s) y competitivo con Kling — incluyendo audio nativo sin coste adicional.
- Velocidad de generación fulminante: Los clips se renderizan en 5–30 segundos según la complejidad, ideal para iteración creativa rápida. Construido sobre el motor Aurora de xAI ejecutándose en 110.000 GPUs NVIDIA GB200.
- Ecosistema de API flexible: Disponible a través de la REST API de xAI (console.x.ai), además de Fal.ai, Replicate, OpenRouter y WaveSpeedAI. Siete relaciones de aspecto soportadas (16:9, 9:16, 1:1, 4:3, 3:4, 3:2, 2:3).
-
Arena.ai Image-to-Video — #1 (1,473 Elo) Lidera el leaderboard más relevante de preferencia humana ciega con más de 5.500 votos. Superó a Seedance 2.0 por 6 puntos Elo y a la versión anterior de Grok por 52 puntos. El estándar de oro para la preferencia del mundo real.
-
Velocidad de generación — 5–30 segundos Entre los modelos de vídeo frontier más rápidos. Impulsado por el motor autoregresivo Aurora de xAI sobre 110K GPUs GB200. Permite una iteración creativa rápida que los modelos más lentos no pueden igualar.
-
Eficiencia de costes — $0.06–$0.08/seg Mejor relación precio/rendimiento en la categoría de vídeo frontier. 480p a $0.06/seg, 720p a $0.08/seg, con audio nativo incluido. Los competidores cobran 4–10x más por calidad comparable.
Limitaciones honestas
- Techo de 720p: La resolución máxima de salida es 720p a 24fps — donde Kling 3.0 ofrece 4K a 60fps. Suficiente para redes sociales y prototipado, pero insuficiente para producción cinematográfica.
- Solo clips cortos: Duración máxima de 6–15 segundos. Sin storyboarding multi-toma ni secuenciación de escenas — cada generación es independiente. Las narrativas más largas requieren ensamblaje manual.
- Moderación de contenido agresiva: Incluso prompts claramente inofensivos a veces activan los filtros de contenido. Los creadores profesionales reportan frustración por la aplicación inconsistente.
- Limitaciones del Preview: La limitación dinámica reduce los límites de generación durante picos de demanda. Los costes de créditos han aumentado desde el lanzamiento. La economía de la plataforma sigue evolucionando.
El Veredicto: El modelo de vídeo frontier con mejor relación calidad-precio ahora mismo — y el que la gente real elige en pruebas ciegas. Grok Imagine Video 1.5 no reemplazará el control multi-toma a nivel de director de Seedance 2.0 ni la salida cinematográfica 4K de Kling, pero no necesita hacerlo. Para prototipado creativo rápido, contenido para redes sociales y cualquiera que quiera calidad líder en Arena sin precios líder en Arena, es la elección obvia. Aún en Preview, así que esperemos aristas — pero la trayectoria es inconfundible.