Как написать хороший промпт для LTX-2.3 (видео со звуком)
2 июля 2026 г.
Промптинг для видеомодели — это не то же самое, что промптинг для модели изображений. В SDXL ты описываешь застывший момент. В LTX-2.3 ты описываешь движущийся кадр со звуком, поэтому две вещи, о которых ты раньше никогда не думал, вдруг становятся ключевыми: движение и аудио. Сделай их правильно, и твои клипы будут выглядеть осмысленно; проигнорируй их, и получишь застывшее немое слайд-шоу. Это руководство покажет, как писать промпты для LTX-2.3, которые действительно двигаются и звучат как надо.
Главная ошибка, которую нужно избегать: промптить как для изображения
Самая распространённая ошибка начинающих — описывать сцену вместо кадра. "Женщина в красном платье в кафе" — это промпт для изображения. LTX-2.3 что-то сгенерирует, но без указания движения ей придётся угадывать, и обычно она угадывает по минимуму (лёгкое движение головы, мерцание). В итоге получается почти неподвижный клип.
Исправь это, всегда отвечая на три вопроса, которые модель не может вывести из статичного описания:
- Что движется? (субъект, камера или оба)
- Как ведёт себя камера? (статичная, панорама, долли, с рук)
- Что мы слышим? (атмосфера, голос, звуковые эффекты)
Формула промпта, которая работает
Представь промпт для LTX-2.3 как шесть слотов. Не обязательно заполнять все шесть каждый раз, но чем больше ты заполняешь, тем больше контроля получаешь:
Субъект + Действие/Движение + Камера + Место/Освещение + Стиль + Аудио
Пример по слотам:
Молодая женщина в красном платье (субъект) поворачивается к камере и улыбается (действие), медленный долли вперёд (камера), тёплый золотой свет заходящего солнца через окно (место/освещение), кинематографично, мелкая глубина резкости (стиль), мягкий фоновый шум комнаты с еле слышным потрескиванием винила (аудио).
Одно предложение говорит LTX-2.3, что происходит, как это снято и как это звучит. Вот и всё.
Описывай движение глаголами
Движение живёт в глаголах. Слабые промпты полны существительных и прилагательных; сильные добавляют слова действия: поворачивается, идёт, наклоняется, тянется, наклоняет, бросает взгляд, дышит, покачивается, плывёт. Ограничься одним чётким действием на короткий клип. 5-секундный кадр не может показать "она встаёт, идёт к окну, открывает его и закуривает" — это четыре кадра. Проси об одном моменте, сними его, затем генерируй следующий.
Говори на языке кинематографа
LTX-2.3 понимает кинематографические термины. Используй их, чтобы управлять кадром:
- Размер кадра: крупный план, средний план, общий план.
- Движение камеры: статичный кадр, медленная панорама влево, долли вперёд, съёмка с рук.
- Ощущение: неподвижный и устойчивый, или лёгкое покачивание с рук для реалистичности.
"Статичный кадр, крупный план" — это совершенно другой клип по сравнению с "съёмкой с рук в движении, общий план", даже при том же субъекте. Выбирай камеру осознанно.
Промптируй звук, это суперсила LTX-2.3
Поскольку LTX-2.3 генерирует картинку и звук вместе, ты можешь прописать аудио напрямую, и должен это делать. Три слоя, о которых стоит подумать:
- Атмосфера / фоновый звук: "тихий фон комнаты", "дождь на стекле", "далёкий городской шум", "волны".
- Голос / диалог: описывай подачу ("мягкий шёпот", "тёплый смех"), а не точные слова, если хочешь естественности.
- Эффекты: "шаги по дереву", "скрипит дверь", "потрескивание винила", "лёгкий ветерок".
Если ты ничего не говоришь об аудио, LTX-2.3 заполняет его сама, и оно может не совпасть с нужным настроением. Как правило, одной короткой аудиофразы достаточно, чтобы направить его.
Text-to-video против image-to-video
Два варианта входа требуют немного разных промптов:
- Text-to-video: ты описываешь всё, включая субъект. Используй полную формулу из шести слотов.
- Image-to-video (рекомендуется в tendre.AI): твой статичный кадр уже задаёт субъект, внешний вид и композицию. Поэтому держи описание субъекта лёгким и трать слова на движение и аудио, которые хочешь добавить. Пример поверх готового портрета: "она медленно наклоняет голову, волосы двигаются на лёгком ветру, едва заметная улыбка, статичная камера, мягкое дыхание и далёкий городской шум". Ты анимируешь, а не переописываешь.
Image-to-video — это оптимальный вариант: персонаж, которого ты зафиксировал локально (с помощью LoRA или фиксированного seed), переходит прямо в клип с тем же лицом и тем же стилем.
Итерируй в 1080p, финишируй в 4K
Промпты находят, а не пишут. Делай черновики в 1080p, чтобы каждый дубль был быстрым: запускай, смотри и слушай, меняй одну вещь (более выраженное движение камеры, более чёткий аудиосигнал), запускай снова. Когда кадр удался, перерендери его в 4K. Меняй одну переменную за раз, чтобы знать, что именно помогло.
Два примера, которые можно адаптировать
Text-to-video, кинематографично:
Средний план женщины у окна, покрытого каплями дождя, она медленно поворачивает голову к камере и улыбается, медленный долли вперёд, мрачный синий вечерний свет, кинематографичное зерно плёнки, мягкий дождь на стекле и тихий фоновый гул.
Image-to-video, из локального изображения:
Она мягко дышит и моргает, несколько прядей волос покачиваются на лёгком ветру, статичная неподвижная камера, сохранённая мелкая глубина резкости, тихий фон комнаты с едва слышным тиканьем часов.
Оба коротких, называют одно чёткое действие, задают камеру и дают звуку одну инструкцию. Вот и весь паттерн.
Делай и не делай
- Делай: называй одно действие, одно поведение камеры, одну аудиоидею.
- Делай: используй кинематографические слова (крупный план, долли вперёд, съёмка с рук).
- Не делай: не стакай четыре действия в один 5-секундный клип.
- Не делай: не оставляй аудио пустым, если настроение важно.
- Не делай: не переописывай субъект в image-to-video, анимируй его.
Как это вписывается в tendre.AI
В tendre.AI изображения остаются 100% локально на твоём GPU. Видео LTX-2.3 работает на облачном GPU по запросу, оплачивается за клип в кредитах, поэтому ты генерируешь изображения приватно и тратишь кредиты только тогда, когда анимируешь удачный кадр. Поскольку видео начинается с твоего локального изображения, персонаж, которого ты создал, переходит в клип с тем же лицом и тем же внешним видом, теперь с движением и звуком.
Всё сгенерированное является 100% синтетическим: реальные люди не изображаются, и каждый субъект однозначно является совершеннолетним.
Опиши движение, опиши звук, и пусть LTX-2.3 анимирует изображение, сгенерированное локально. 1080p для итераций, 4K для финала, без подписки.






