LTX Video 2.3

Lightricks · Veröffentlicht Mai 2026

8.5 /10 Gesamtbewertung

Was es wirklich ist

LTX Video 2.3 ist das, was passiert, wenn ein Unternehmen fragt: „Was wäre, wenn das Videomodell auch hören könnte?" Lightricks — das israelische Unternehmen hinter dem Facetune-Fotoeditor, der tausend Instagram-Kontroversen ausgelöst hat — hat ein 22-Milliarden-Parameter-Video-Diffusionsmodell gebaut, das etwas kann, was kein anderes lokal lauffähiges Modell schafft: Es generiert Video und synchronisiertes Audio in einem einzigen Vorwärtsdurchlauf.

Denk mal darüber nach, was das bedeutet. Du tippst einen Prompt ein, der eine Szene beschreibt — ein Regensturm, der auf ein Blechdach prasselt, eine Figur, die einen Monolog hält, eine Gitarre, die in einem Café gespielt wird — und das Modell generiert nicht nur das Video, sondern den Ton. Regen prasselt. Stimme spricht. Gitarre klingt. In einer Generierung. Kein separates Audiomodell. Keine manuelle Synchronisation. Kein Beten, dass die Lippenbewegungen ungefähr zu einer separat generierten Tonspur passen.

Das Modell kommt in drei Varianten: Dev (ausgewogene Qualität und Geschwindigkeit), Distilled (optimiert für schnelle Iteration) und Pro (maximale Qualität, maximale Geduld erforderlich). Alle drei generieren nativ in 1080p mit Upscaling auf 4K, und alle drei unterstützen Clips bis zu 20 Sekunden — großzügig nach lokalen Modell-Maßstäben. Der Geschwindigkeitsvorteil gegenüber Konkurrenten wie Wan 2.1 ist erheblich, besonders mit der Distilled-Variante, die den schnellen Prompt-Anpassen-Neugenerieren-Zyklus tatsächlich praktikabel macht.

Ein wirklich interessantes Detail: Lightricks hat ihre Trainingsdaten von Getty Images und Shutterstock lizenziert, anstatt das offene Internet abzugrasen. Das macht dich nicht rechtlich unbesiegbar — das Urheberrecht rund um KI-Training wird noch in Gerichtssälen weltweit geschrieben — aber es reduziert die Risikofläche für kommerzielle Nutzung deutlich. Es ist der Unterschied zwischen einem Haus auf Land zu bauen, das du gekauft hast, versus Land, von dem du ziemlich sicher bist, dass es niemandem gehört.

Jetzt der Ehrlichkeits-Abschnitt. Die Lizenz ist nicht Apache 2.0. Es ist eine benutzerdefinierte Lightricks-Lizenz, die für Privatpersonen und Unternehmen mit weniger als 10 Millionen Dollar Jahresumsatz kostenlos ist. Über dieser Linie brauchst du eine kommerzielle Vereinbarung. Für die meisten unabhängigen Kreativen und kleinen Studios ist dieser Unterschied akademisch — du bist abgedeckt. Aber wenn du ein Produkt bei einem gut finanzierten Startup oder in einem Großunternehmen baust, ist das relevant. Wan 2.1s Apache 2.0 Lizenz hat keine solche Obergrenze. Lies die Lizenz. Lies sie wirklich.

Zentrale Stärken

Native Audio-Video-Generierung: Das ist die Hauptfunktion und sie ist wirklich einzigartig unter lokalen Modellen. LTX Video 2.3 erzeugt synchronisierten Dialog, Musik, Umgebungsgeräusche und Soundeffekte zusammen mit dem Video in einem einzigen Durchlauf. Kein separates Audiomodell, kein nachträglicher Synchronisationsschritt.
Geschwindigkeitsführer: Deutlich schneller als Wan 2.1 und andere führende lokale Modelle bei vergleichbarer Qualität. Die Distilled-Variante ist für schnelle Iteration optimiert — nützlich, wenn du mit Prompts experimentierst und schnelle Feedback-Schleifen brauchst.
Native 1080p, bis zu 4K: Generiert nativ in 1080p, mit integriertem Upscaling auf 4K. Die meisten konkurrierenden lokalen Modelle schaffen maximal 720p ohne externe Upscaler.
Lizenzierte Trainingsdaten: Trainiert mit Inhalten, die von Getty Images und Shutterstock lizenziert wurden. Das macht dich nicht rechtlich unverwundbar, reduziert aber das Urheberrechtsrisiko im Vergleich zu Modellen, die auf aus dem Internet zusammengekratzten Videos trainiert wurden, deutlich.
Mehrere Modellvarianten: Wähle zwischen Dev (ausgewogen), Distilled (schnell) und Pro (maximale Qualität) je nach Hardware und Qualitätsanspruch. Unterstützt 24fps und 48fps Ausgabe.
Bis zu 20 Sekunden pro Clip: Generiert Clips bis zu 20 Sekunden Länge — länger als die 5-10-Sekunden-Grenze der meisten Konkurrenten — was den Bedarf an Multi-Shot- Zusammenschnitten reduziert.

Benchmark-Übersicht

Generierungsgeschwindigkeit — Schnellster der Klasse Die Distilled-Variante produziert Spitzenqualitäts-Video deutlich schneller als Wan 2.1 14B und andere vergleichbare lokale Modelle. Der Geschwindigkeitsvorteil zeigt sich am deutlichsten auf Consumer-GPUs, wo jede Sekunde Generierungszeit zählt.
Audio-Video-Architektur — Einzigartig (lokal) Das einzige lokal lauffähige Modell mit nativer Audio-Video-Generierung in einem Durchlauf. Konkurrierende lokale Modelle erfordern separate Audiogenerierung und manuelle Synchronisation. Seedance 2.0 bietet ähnliche Fähigkeiten, ist aber nur in der Cloud verfügbar.
Herkunft der Trainingsdaten — Lizenziert Trainingsdaten lizenziert von Getty Images und Shutterstock. Unter den führenden Videomodellen ist dies die transparenteste und rechtlich verteidigungsfähigste Herkunft der Trainingsdaten, was das nachgelagerte Urheberrechtsrisiko für kommerzielle Nutzer reduziert.

Ehrliche Einschränkungen

Lizenz ist NICHT wirklich offen: Das ist wichtig und wir sagen es direkt. Die Lightricks- Lizenz ist kostenlos für Privatpersonen und Unternehmen mit unter 10 Mio. $ Jahresumsatz. Wenn dein Unternehmen mehr verdient, brauchst du eine separate kommerzielle Vereinbarung. Das ist NICHT Apache 2.0. Wenn uneingeschränkte kommerzielle Freiheit für dich wichtig ist, ist Wan 2.1s Apache 2.0 Lizenz die sicherere Wahl.
22B Parameter erfordern ernsthafte Hardware: Mindestens 12GB VRAM für quantisierte Inferenz, 18GB für FP8, 32GB+ für volle Präzisionsqualität. Das ist mindestens eine RTX 4090 für gute Ergebnisse. Das ‘Lokal’ in lokaler Videogenerierung kommt mit einer Hardware-Rechnung.
Neueres Modell, kleinere Community: Im Mai 2026 veröffentlicht, hat LTX Video 2.3 ein wachsendes, aber deutlich kleineres Ökosystem als Wan 2.1. Weniger ComfyUI-Nodes, weniger Tutorials, weniger Community-LoRAs. Das wird sich mit der Zeit verbessern, aber aktuell hat Wan einen erheblichen Vorsprung.
Qualität der Audiogenerierung schwankt: Obwohl die native Audio-Video-Generierung architektonisch beeindruckend ist, erreicht die Audioqualität — besonders bei Dialog — noch nicht das Niveau dedizierter Text-to-Speech-Modelle. Es ist besser als nichts und verbessert sich schnell, aber erwarte keine Hollywood-Sprachschauspielerei.

Das Fazit: LTX Video 2.3 ist das Modell, das du wählst, wenn Geschwindigkeit und Audio wichtiger sind als Community-Größe und Lizenz-Reinheit. Die native Audio-Video-Generierung ist eine echte technische Leistung — eine generierte Figur tatsächlich sprechen zu hören, mit Umgebungsgeräuschen, die zur Szene passen, in einem einzigen Generierungsdurchlauf, auf deiner eigenen Hardware — das ist einer dieser Momente, in denen die Zukunft leise ankommt. Die lizenzierten Trainingsdaten sind ein kluges Unterscheidungsmerkmal für alle, die sich um Urheberrecht sorgen. Aber seien wir ehrlich über den Kompromiss: Die Lizenz hat eine Umsatzdecke, die Apache 2.0 nicht hat, und das Community-Ökosystem holt noch zu Wan 2.1 auf. Wenn du ein individueller Creator oder ein kleines Studio bist, ist dies wohl das leistungsfähigste lokale Videomodell, das heute verfügbar ist. Wenn du ein großes Unternehmen bist, lies zuerst die Lizenz.