Filtre Tous Écosystème Quotidien Génération d'Images Programmation Créateurs d'Applications Recherche Architectes Numériques Mentors Académiques Vidéo Musique et Voix IA Locale / Privée Génération d'Images Locale Génération Vidéo Locale Agents IA

Grok Imagine Video 1.5

xAI · Publié 31 mai 2026

8.8 /10 Note globale
Site officiel

Ce que c'est réellement

Grok Imagine Video 1.5 de xAI, c’est ce qui arrive quand on lance 110 000 GPU sur le défi de rendre la génération vidéo rapide, abordable et véritablement convaincante. Déployé discrètement le 31 mai 2026 en tant que Preview, il s’est aussitôt hissé en tête du classement Arena.ai Image-to-Video — le test à l’aveugle qui compte vraiment — en battant Seedance 2.0, Veo 3.1 et tous les autres prétendants dans des votes de préférence humaine en face à face.

Le modèle tourne sur le moteur autorégressif Aurora de xAI et propose trois modes principaux : texte-vers-vidéo, image-vers-vidéo (son point fort), et génération conditionnée par référence pour maintenir une cohérence visuelle. L’audio natif n’est pas greffé après coup — il est intégré nativement, générant des dialogues avec lip-sync, des paysages sonores ambiants et de la musique dans le même passage de calcul que les visuels. La version 1.5 a spécifiquement amélioré le naturel des dialogues et l’intégration de l’audio d’ambiance par rapport à la version 1.0.

Mais le vrai titre, c’est le prix. À 0,06–0,08 $ par seconde, Grok Imagine Video 1.5 coûte une fraction de ce que facturent Seedance (0,30+ $/s) ou Sora 2 Pro (0,70 $/s) — et l’audio est inclus. Pour les créateurs qui ont besoin d’itérer vite et de produire en volume, le calcul est imparable. L’accès se fait via l’API de xAI, le chatbot Grok (formules SuperGrok de 10 à 300 $/mois), et des plateformes tierces comme Fal.ai, Replicate et OpenRouter.

Points Forts

  • N°1 sur Arena.ai en Image-to-Video : Domine le classement communautaire à l’aveugle le plus pertinent avec 1 473 Elo sur plus de 5 500 votes — légèrement devant Seedance 2.0 (1 467) et nettement au-dessus des variantes Veo 3.1. Le modèle que les gens choisissent quand ils ne voient pas l’étiquette.
  • Génération audio native : Produit des dialogues synchronisés avec un lip-sync précis, des ambiances sonores, de la musique et des effets sonores dans le même passage de génération. La version 1.5 a amélioré le naturel par rapport à la 1.0, avec une meilleure intégration de la musique d’ambiance.
  • Meilleur rapport qualité/prix : À 0,06–0,08 $ par seconde (3,60–4,80 $/min), c’est considérablement moins cher que Seedance (0,30+ $/s), Sora 2 Pro (0,70 $/s), et compétitif avec Kling — tout en incluant l’audio natif sans surcoût.
  • Vitesse de génération fulgurante : Les clips sont rendus en 5 à 30 secondes selon la complexité, idéal pour une itération créative rapide. Construit sur le moteur autorégressif Aurora de xAI, déployé sur 110 000 GPU NVIDIA GB200.
  • Écosystème API flexible : Disponible via l’API REST de xAI (console.x.ai), ainsi que Fal.ai, Replicate, OpenRouter et WaveSpeedAI. Sept ratios d’image pris en charge (16:9, 9:16, 1:1, 4:3, 3:4, 3:2, 2:3).
Aperçu des Benchmarks
  • Arena.ai Image-to-Video — #1 (1,473 Elo) Domine le classement aveugle de préférence humaine le plus pertinent avec plus de 5 500 votes. Devance Seedance 2.0 de 6 points Elo et la version précédente de Grok de 52 points. La référence absolue en matière de préférence réelle.
  • Vitesse de génération — 5–30 secondes Parmi les modèles vidéo de pointe les plus rapides. Propulsé par le moteur autorégressif Aurora de xAI sur 110 000 GPU GB200. Permet une itération créative rapide que les modèles plus lents ne peuvent égaler.
  • Rapport coût/efficacité — $0.06–$0.08/sec Meilleur rapport qualité/prix dans la catégorie vidéo de pointe. 480p à 0,06 $/sec, 720p à 0,08 $/sec, audio natif inclus. Les concurrents facturent 4 à 10 fois plus pour une qualité comparable.

Limites Honnêtes

  • Plafond à 720p : La résolution maximale est de 720p à 24fps — alors que Kling 3.0 propose de la 4K à 60fps. Suffisant pour les réseaux sociaux et le prototypage ; insuffisant pour une production cinématographique.
  • Clips courts uniquement : Durée maximale de 6 à 15 secondes. Pas de storyboarding multi-plans ni d’enchaînement de scènes — chaque génération est autonome. Les récits plus longs nécessitent un assemblage manuel.
  • Modération de contenu agressive : Même des prompts clairement inoffensifs déclenchent parfois les filtres de contenu. Les créateurs professionnels signalent leur frustration face à une application incohérente.
  • Limitations de la Preview : Un throttling dynamique réduit les limites de génération aux heures de pointe. Les coûts en crédits ont augmenté depuis le lancement. L’économie de la plateforme est encore en évolution.

Le Verdict: Le modèle vidéo de pointe offrant le meilleur rapport qualité/prix à l’heure actuelle — et celui que les vrais utilisateurs choisissent dans les tests à l’aveugle. Grok Imagine Video 1.5 ne remplacera pas le contrôle multi-plans de niveau réalisateur de Seedance 2.0, ni le rendu cinématographique 4K de Kling, mais ce n’est pas son ambition. Pour le prototypage créatif rapide, le contenu pour les réseaux sociaux, et tous ceux qui veulent une qualité de tête de classement sans les prix qui vont avec, c’est le choix évident. Encore en Preview, donc attendez-vous à quelques aspérités — mais la trajectoire est indéniable.