LTX Video 2.3

Lightricks · Lanzado May 2026

8.5 /10 Puntuación general

Lo que realmente es

LTX Video 2.3 es lo que pasa cuando una empresa se pregunta: “¿Y si el modelo de vídeo también pudiera escuchar?” Lightricks — la empresa israelí detrás del editor fotográfico Facetune que lanzó mil controversias en Instagram — construyó un modelo de difusión de vídeo de 22 mil millones de parámetros que hace algo que ningún otro modelo ejecutable localmente puede hacer: genera vídeo y audio sincronizado en una sola pasada directa.

Piensa en lo que eso significa. Escribes un prompt describiendo una escena — una tormenta golpeando un tejado de chapa, un personaje recitando un monólogo, una guitarra sonando en una cafetería — y el modelo genera no solo el vídeo sino el sonido. Lluvia repiqueteando. Voz hablando. Guitarra resonando. En una sola generación. Sin modelo de audio separado. Sin sincronización manual. Sin rezar para que los movimientos labiales coincidan vagamente con una pista de voz generada por separado.

El modelo viene en tres sabores: Dev (calidad y velocidad equilibradas), Distilled (optimizada para iteración rápida) y Pro (máxima calidad, máxima paciencia requerida). Las tres generan a 1080p nativo con escalado a 4K disponible, y las tres soportan clips de hasta 20 segundos — generoso para los estándares de modelos locales. La ventaja de velocidad sobre competidores como Wan 2.1 es significativa, especialmente con la variante Distilled, que hace que el ciclo rápido de prompt-ajuste-regeneración sea realmente práctico.

Un detalle genuinamente interesante: Lightricks licenció sus datos de entrenamiento de Getty Images y Shutterstock en lugar de recopilarlos de internet abierto. Esto no te hace legalmente invencible — la legislación sobre derechos de autor en el entrenamiento de IA aún se está escribiendo en tribunales de todo el mundo — pero sí reduce significativamente la superficie de riesgo para uso comercial. Es la diferencia entre construir tu casa en un terreno que compraste y uno que estás bastante seguro de que nadie posee.

Ahora, la sección de honestidad. La licencia no es Apache 2.0. Es una licencia personalizada de Lightricks que es gratuita para particulares y empresas con menos de 10 millones de dólares de facturación anual. Por encima de esa línea, necesitas un acuerdo comercial. Para la mayoría de creadores independientes y estudios pequeños, esta distinción es académica — estás cubierto. Pero si estás construyendo un producto en una startup bien financiada o en una empresa grande, esto importa. La licencia Apache 2.0 de Wan 2.1 no tiene ese techo. Lee la licencia. De verdad, léela.

Puntos fuertes

Generación nativa de audio-vídeo: Esta es la característica estrella y es genuinamente única entre los modelos locales. LTX Video 2.3 genera diálogos sincronizados, música, sonido ambiental y efectos de sonido junto con el vídeo en una sola pasada directa. Sin modelo de audio separado, sin paso de post-sincronización.
Líder en velocidad: Significativamente más rápido que Wan 2.1 y otros modelos locales de frontera a calidad comparable. La variante Distilled está optimizada para iteración rápida — útil cuando estás experimentando con prompts y necesitas ciclos de feedback ágiles.
1080p nativo, hasta 4K: Genera a 1080p de forma nativa, con escalado integrado hasta 4K. La mayoría de modelos locales competidores se quedan en 720p sin escaladores externos.
Datos de entrenamiento licenciados: Entrenado con contenido licenciado de Getty Images y Shutterstock. Esto no te hace legalmente invencible, pero reduce significativamente el riesgo de derechos de autor comparado con modelos entrenados con vídeo recopilado de internet.
Múltiples variantes de modelo: Elige entre Dev (equilibrada), Distilled (rápida) y Pro (máxima calidad) según tu hardware y necesidades de calidad. Soporta salida a 24fps y 48fps.
Hasta 20 segundos por clip: Genera clips de hasta 20 segundos — más largo que el límite de 5-10 segundos de la mayoría de competidores — reduciendo la necesidad de unir múltiples tomas.

Resumen de Benchmarks

Generation speed — Fastest in class La variante Distilled produce vídeo de calidad frontera significativamente más rápido que Wan 2.1 14B y otros modelos locales comparables. La ventaja de velocidad es más pronunciada en GPUs de consumo, donde cada segundo de tiempo de generación cuenta.
Audio-video architecture — Unique (local) El único modelo ejecutable localmente con generación nativa de audio-vídeo en una sola pasada. Los modelos locales competidores requieren generación de audio separada y sincronización manual. Seedance 2.0 ofrece capacidades similares pero solo en la nube.
Training data provenance — Licensed Datos de entrenamiento licenciados de Getty Images y Shutterstock. Entre los modelos de vídeo de frontera, esta es la procedencia de datos de entrenamiento más transparente y legalmente defendible, reduciendo el riesgo de derechos de autor para usuarios comerciales.

Limitaciones honestas

La licencia NO es verdaderamente abierta: Esto es importante y vamos a ser directos. La licencia de Lightricks es gratuita para particulares y empresas que facturan menos de 10M$ al año. Si tu empresa factura más, necesitas un acuerdo comercial aparte. Esto NO es Apache 2.0. Si la libertad comercial sin restricciones te importa, la licencia Apache 2.0 de Wan 2.1 es la opción más segura.
22B parámetros exigen hardware serio: Mínimo 12GB de VRAM para inferencia cuantizada, 18GB para FP8, 32GB+ para calidad en precisión completa. Eso es una RTX 4090 como mínimo para buenos resultados. Lo de ’local’ en generación local de vídeo viene con una factura de hardware.
Modelo más nuevo, comunidad más pequeña: Lanzado en mayo de 2026, LTX Video 2.3 tiene un ecosistema creciente pero significativamente menor que el de Wan 2.1. Menos nodos de ComfyUI, menos tutoriales, menos LoRAs comunitarios. Mejorará con el tiempo, pero ahora mismo Wan lleva una ventaja considerable.
La calidad del audio generado varía: Aunque la generación nativa de audio-vídeo es arquitectónicamente impresionante, la calidad del audio — especialmente para diálogos — aún no está al nivel de los modelos dedicados de texto a voz. Es mejor que nada y mejora rápidamente, pero no esperes actuaciones de voz de Hollywood.

El Veredicto: LTX Video 2.3 es el modelo que eliges cuando la velocidad y el audio importan más que el tamaño de la comunidad y la pureza de la licencia. La generación nativa de audio-vídeo es un logro técnico genuino — escuchar a un personaje generado hablar realmente, con sonido ambiental que coincide con la escena, en una sola pasada de generación, en tu propio hardware, es uno de esos momentos en los que el futuro llega en silencio. Los datos de entrenamiento licenciados son un diferenciador inteligente para cualquiera preocupado por los derechos de autor. Pero seamos honestos sobre la contrapartida: la licencia tiene un techo de ingresos que Apache 2.0 no tiene, y el ecosistema comunitario aún está alcanzando a Wan 2.1. Si eres un creador individual o un estudio pequeño, este es posiblemente el modelo local de vídeo más capaz disponible hoy. Si eres una empresa grande, lee la licencia primero.