LTX Video 2.3
Lightricks · Выпущено Май 2026 г.
Что это на самом деле
LTX Video 2.3 — это то, что происходит, когда компания спрашивает: “А что, если видеомодель могла бы еще и слышать?” Lightricks — израильская компания, стоящая за фоторедактором Facetune, который вызвал тысячу споров в Instagram — создала диффузионную видеомодель с 22 миллиардами параметров, которая делает то, чего не может ни одна другая запускаемая локально модель: она генерирует видео и синхронизированный звук за один прямой проход.
Подумайте о том, что это значит. Вы вводите промпт, описывающий сцену — ливень, бьющий по жестяной крыше, персонаж, произносящий монолог, бренчание гитары в кофейне — и модель генерирует не только видео, но и звук. Стук дождя. Говорящий голос. Резонирующая гитара. За одну генерацию. Никакой отдельной звуковой модели. Никакой ручной синхронизации. И не нужно молиться о том, чтобы движения губ хотя бы отдаленно совпадали с отдельно сгенерированной голосовой дорожкой.
Модель выпускается в трех вариантах: Dev (сбалансированное качество и скорость), Distilled (оптимизирована для быстрых итераций) и Pro (максимальное качество, требуется максимальное терпение). Все три генерируют в нативном разрешении 1080p с доступным апскейлингом до 4K, и все три поддерживают клипы продолжительностью до 20 секунд — что щедро по стандартам локальных моделей. Преимущество в скорости перед конкурентами вроде Wan 2.1 существенно, особенно с вариантом Distilled, что делает быстрый цикл «промпт-правка-повторная генерация» действительно практичным.
Одна по-настоящему интересная деталь: Lightricks лицензировала свои обучающие данные у Getty Images и Shutterstock, а не занималась скрапингом открытого интернета. Это не делает вас юридически неуязвимым — законы об авторских правах вокруг ИИ-обучения все еще пишутся в залах судов по всему миру — но это действительно снижает поверхность риска для коммерческого использования. Это разница между строительством дома на земле, которую вы купили, и земле, которая, как вы абсолютно уверены, никому не принадлежит.
А теперь раздел честности. Лицензия не является Apache 2.0. Это пользовательская лицензия Lightricks, бесплатная для частных лиц и компаний с годовым доходом менее $10 миллионов. Выше этой черты вам понадобится коммерческое соглашение. Для большинства независимых авторов и небольших студий это различие академическое — вы защищены. Но если вы создаете продукт в хорошо финансируемом стартапе или на предприятии, это имеет значение. У лицензия Apache 2.0 от Wan 2.1 нет такого потолка. Прочитайте лицензию. Действительно прочитайте ее.
Ключевые преимущества
- Нативная аудио-видео генерация: Это главная функция, и она действительно уникальна среди локальных моделей. LTX Video 2.3 генерирует синхронизированный диалог, музыку, фоновый шум и звуковые эффекты вместе с видео за один проход вперед. Никакой отдельной звуковой модели, никакого этапа синхронизации при постобработке.
- Лидер по скорости: Значительно быстрее, чем Wan 2.1 и другие передовые локальные модели при сопоставимом качестве. Вариант Distilled оптимизирован для быстрых итераций — полезно, когда вы экспериментируете с промптами и нуждаетесь в быстром цикле обратной связи.
- Нативное 1080p, до 4K: Генерирует в 1080p нативно, со встроенным апскейлингом до 4K. Большинство конкурирующих локальных моделей ограничиваются 720p без внешних апскейлеров.
- Лицензированные обучающие данные: Обучена на контенте, лицензированном у Getty Images и Shutterstock. Это не делает вас юридически неуязвимым, но значительно снижает риск авторских прав по сравнению с моделями, обученными на видео, собранном из интернета.
- Несколько вариантов модели: Выбирайте между вариантами Dev (сбалансированный), Distilled (быстрый) и Pro (максимальное качество) в зависимости от вашего оборудования и требований к качеству. Поддерживает вывод 24fps и 48fps.
- До 20 секунд на клип: Генерирует клипы длиной до 20 секунд — длиннее, чем лимит в 5-10 секунд у большинства конкурентов — уменьшая необходимость многокадрового склеивания.
-
Скорость генерации — Самая быстрая в своем классе Вариант Distilled создает видео передового качества значительно быстрее, чем Wan 2.1 14B и другие сопоставимые локальные модели. Преимущество в скорости наиболее заметно на потребительских графических процессорах, где важна каждая секунда времени генерации.
-
Аудио-видео архитектура — Уникальная (локально) Единственная запускаемая локально модель с нативной аудио-видео генерацией за один проход. Конкурирующие локальные модели требуют отдельной генерации звука и ручной синхронизации. Seedance 2.0 предлагает аналогичные возможности, но работает только в облаке.
-
Происхождение обучающих данных — Лицензировано Обучающие данные лицензированы у Getty Images и Shutterstock. Среди передовых видеомоделей это самое прозрачное и юридически оправданное происхождение данных для обучения, снижающее последующий риск нарушения авторских прав для коммерческих пользователей.
Честные ограничения
- Лицензия НЕ является по-настоящему открытой: Это важно, и мы будем с этим откровенны. Лицензия Lightricks бесплатна для частных лиц и компаний, зарабатывающих менее $10 млн в год. Если ваша компания зарабатывает больше, вам потребуется отдельное коммерческое соглашение. Это НЕ Apache 2.0. Если для вас важна неограниченная коммерческая свобода, более безопасным выбором будет лицензия Apache 2.0 у Wan 2.1.
- 22B параметров требуют серьезного оборудования: Минимум 12 ГБ видеопамяти (VRAM) для квантованного вывода, 18 ГБ для FP8, 32+ ГБ для качества полной точности. Это минимум RTX 4090 для хороших результатов. «Локальная» часть в локальной генерации видео поставляется с чеком за оборудование.
- Более новая модель, меньшее сообщество: Выпущенная в мае 2026 года, LTX Video 2.3 имеет растущую, но значительно меньшую экосистему, чем Wan 2.1. Меньше узлов ComfyUI, меньше обучающих материалов, меньше LoRA от сообщества. Со временем это улучшится, но прямо сейчас у Wan существенная фора.
- Качество генерации звука варьируется: В то время как нативная аудио-видео генерация архитектурно впечатляет, качество звука — особенно для диалогов — еще не находится на уровне специализированных моделей text-to-speech. Это лучше, чем ничего, и быстро улучшается, но не ждите голливудской озвучки.
Вердикт: LTX Video 2.3 — это модель, которую вы выбираете, когда скорость и звук важнее, чем размер сообщества и чистота лицензирования. Нативная аудио-видео генерация — это настоящее техническое достижение: услышать, как сгенерированный персонаж действительно говорит, с фоновым звуком, соответствующим сцене, за один проход генерации, на вашем собственном оборудовании — это один из тех моментов, когда будущее наступает тихо. Лицензированные данные для обучения — умное отличие для всех, кто беспокоится об авторских правах. Но давайте будем честны относительно компромисса: у лицензии есть потолок дохода, которого нет у Apache 2.0, а экосистема сообщества все еще догоняет Wan 2.1. Если вы индивидуальный творец или небольшая студия, это, пожалуй, самая способная локальная видеомодель, доступная сегодня. Если вы крупная компания — сначала прочтите лицензию.