LTX Video 2.3

Lightricks · Publié May 2026

8.5 /10 Note globale

Ce que c'est réellement

LTX Video 2.3, c’est ce qui se passe quand une entreprise se demande : « Et si le modèle vidéo pouvait aussi entendre ? » Lightricks — l’entreprise israélienne derrière l’éditeur photo Facetune qui a lancé mille polémiques Instagram — a construit un modèle de diffusion vidéo de 22 milliards de paramètres qui fait quelque chose qu’aucun autre modèle exécutable localement ne sait faire : il génère vidéo et audio synchronisés en une seule passe.

Réfléchissez à ce que ça signifie. Vous tapez un prompt décrivant une scène — une averse frappant un toit en tôle, un personnage livrant un monologue, une guitare grattée dans un café — et le modèle génère non seulement la vidéo mais aussi le son. La pluie qui crépite. La voix qui parle. La guitare qui résonne. En une seule génération. Pas de modèle audio séparé. Pas de synchronisation manuelle. Pas de prières pour que les mouvements des lèvres correspondent vaguement à une piste vocale générée séparément.

Le modèle est décliné en trois saveurs : Dev (équilibre qualité/vitesse), Distilled (optimisé pour l’itération rapide) et Pro (qualité maximale, patience maximale requise). Les trois génèrent en 1080p natif avec upscaling vers le 4K disponible, et les trois supportent des clips jusqu’à 20 secondes — généreux selon les standards des modèles locaux. L’avantage de vitesse par rapport aux concurrents comme Wan 2.1 est significatif, surtout avec la variante Distilled, qui rend le cycle rapide prompt-ajustement-régénération vraiment praticable.

Un détail véritablement intéressant : Lightricks a obtenu ses données d’entraînement sous licence auprès de Getty Images et Shutterstock plutôt que de racler Internet. Cela ne vous rend pas juridiquement invincible — le droit d’auteur autour de l’entraînement IA est encore en train de s’écrire dans les tribunaux du monde entier — mais ça réduit significativement la surface de risque pour un usage commercial. C’est la différence entre construire sa maison sur un terrain qu’on a acheté versus un terrain dont on est à peu près sûr que personne ne le possède.

Maintenant, la section honnêteté. La licence n’est pas Apache 2.0. C’est une licence personnalisée Lightricks qui est gratuite pour les particuliers et les entreprises avec moins de 10 millions de dollars de chiffre d’affaires annuel. Au-dessus de cette ligne, il faut un accord commercial. Pour la plupart des créateurs indépendants et petits studios, cette distinction est théorique — vous êtes couverts. Mais si vous construisez un produit dans une startup bien financée ou une grande entreprise, ça compte. La licence Apache 2.0 de Wan 2.1 n’a pas ce plafond. Lisez la licence. Lisez-la vraiment.

Points Forts

Génération audio-vidéo native : C’est la fonctionnalité phare et elle est véritablement unique parmi les modèles locaux. LTX Video 2.3 génère des dialogues synchronisés, de la musique, du son ambiant et des effets sonores en même temps que la vidéo en une seule passe. Pas de modèle audio séparé, pas d’étape de synchronisation en post-production.
Leader en vitesse : Nettement plus rapide que Wan 2.1 et les autres modèles locaux frontier à qualité comparable. La variante Distilled est optimisée pour l’itération rapide — utile quand vous expérimentez des prompts et avez besoin de boucles de retour rapides.
1080p natif, jusqu’à 4K : Génère en 1080p nativement, avec un upscaling intégré jusqu’au 4K. La plupart des modèles locaux concurrents plafonnent à 720p sans upscalers externes.
Données d’entraînement sous licence : Entraîné sur du contenu sous licence de Getty Images et Shutterstock. Cela ne vous rend pas juridiquement invincible, mais ça réduit significativement le risque de droit d’auteur par rapport aux modèles entraînés sur des vidéos raclées sur Internet.
Plusieurs variantes de modèle : Choisissez entre Dev (équilibrée), Distilled (rapide) et Pro (qualité maximale) selon votre matériel et vos besoins de qualité. Supporte la sortie en 24fps et 48fps.
Jusqu’à 20 secondes par clip : Génère des clips allant jusqu’à 20 secondes — plus long que la limite de 5 à 10 secondes de la plupart des concurrents — réduisant le besoin d’assemblage multi-shot.

Aperçu des Benchmarks

Vitesse de génération — La plus rapide de sa catégorie La variante Distilled produit de la vidéo de qualité frontier nettement plus vite que Wan 2.1 14B et les autres modèles locaux comparables. L'avantage de vitesse est le plus prononcé sur les GPU grand public où chaque seconde de génération compte.
Architecture audio-vidéo — Unique (local) Le seul modèle exécutable localement avec une génération audio-vidéo native en une seule passe. Les modèles locaux concurrents nécessitent une génération audio séparée et une synchronisation manuelle. Seedance 2.0 offre une capacité similaire mais est uniquement cloud.
Provenance des données d'entraînement — Sous licence Données d'entraînement sous licence de Getty Images et Shutterstock. Parmi les modèles vidéo frontier, c'est la provenance de données d'entraînement la plus transparente et juridiquement défendable, réduisant le risque de droit d'auteur en aval pour les utilisateurs commerciaux.

Limites Honnêtes

La licence n’est PAS véritablement ouverte : C’est important et nous serons directs. La licence Lightricks est gratuite pour les particuliers et les entreprises gagnant moins de 10 M$ par an. Si votre entreprise gagne plus, il vous faut un accord commercial séparé. Ce n’est PAS Apache 2.0. Si la liberté commerciale sans restriction compte pour vous, la licence Apache 2.0 de Wan 2.1 est le choix le plus sûr.
22B de paramètres exigent du matériel sérieux : Minimum 12 Go de VRAM pour l’inférence quantifiée, 18 Go en FP8, 32 Go+ pour la qualité en pleine précision. C’est une RTX 4090 au minimum pour de bons résultats. Le « local » de la génération vidéo locale vient avec une facture matérielle.
Modèle plus récent, communauté plus petite : Publié en mai 2026, LTX Video 2.3 a un écosystème croissant mais nettement plus petit que celui de Wan 2.1. Moins de nodes ComfyUI, moins de tutoriels, moins de LoRAs communautaires. Ça s’améliorera avec le temps, mais pour l’instant Wan a une longueur d’avance considérable.
Qualité audio variable : Si la génération audio-vidéo native est architecturalement impressionnante, la qualité audio — surtout pour les dialogues — n’est pas encore au niveau des modèles dédiés de text-to-speech. C’est mieux que rien et ça progresse rapidement, mais n’attendez pas du doublage hollywoodien.

Le Verdict: LTX Video 2.3 est le modèle que vous choisissez quand la vitesse et l’audio comptent plus que la taille de la communauté et la pureté de la licence. La génération audio-vidéo native est une véritable prouesse technique — entendre un personnage généré parler réellement, avec un son ambiant qui correspond à la scène, en une seule passe de génération, sur votre propre matériel, c’est un de ces moments où le futur arrive discrètement. Les données d’entraînement sous licence sont un différenciateur intelligent pour quiconque s’inquiète du droit d’auteur. Mais soyons honnêtes sur le compromis : la licence a un plafond de revenus qu’Apache 2.0 n’a pas, et l’écosystème communautaire rattrape encore Wan 2.1. Si vous êtes un créateur individuel ou un petit studio, c’est sans doute le modèle vidéo local le plus performant disponible aujourd’hui. Si vous êtes une grande entreprise, lisez d’abord la licence.