Как написать хороший промпт для LTX-2.3 (видео со звуком)

Промптинг для видеомодели — это не то же самое, что промптинг для модели изображений. В SDXL ты описываешь застывший момент. В LTX-2.3 ты описываешь движущийся кадр со звуком, поэтому две вещи, о которых ты раньше никогда не думал, вдруг становятся ключевыми: движение и аудио. Сделай их правильно, и твои клипы будут выглядеть осмысленно; проигнорируй их, и получишь застывшее немое слайд-шоу. Это руководство покажет, как писать промпты для LTX-2.3, которые действительно двигаются и звучат как надо.

Главная ошибка, которую нужно избегать: промптить как для изображения

Самая распространённая ошибка начинающих — описывать сцену вместо кадра. "Женщина в красном платье в кафе" — это промпт для изображения. LTX-2.3 что-то сгенерирует, но без указания движения ей придётся угадывать, и обычно она угадывает по минимуму (лёгкое движение головы, мерцание). В итоге получается почти неподвижный клип.

Исправь это, всегда отвечая на три вопроса, которые модель не может вывести из статичного описания:

Что движется? (субъект, камера или оба)
Как ведёт себя камера? (статичная, панорама, долли, с рук)
Что мы слышим? (атмосфера, голос, звуковые эффекты)

Формула промпта, которая работает

Представь промпт для LTX-2.3 как шесть слотов. Не обязательно заполнять все шесть каждый раз, но чем больше ты заполняешь, тем больше контроля получаешь:

Субъект + Действие/Движение + Камера + Место/Освещение + Стиль + Аудио

Пример по слотам:

Молодая женщина в красном платье (субъект) поворачивается к камере и улыбается (действие), медленный долли вперёд (камера), тёплый золотой свет заходящего солнца через окно (место/освещение), кинематографично, мелкая глубина резкости (стиль), мягкий фоновый шум комнаты с еле слышным потрескиванием винила (аудио).

Одно предложение говорит LTX-2.3, что происходит, как это снято и как это звучит. Вот и всё.

Описывай движение глаголами

Движение живёт в глаголах. Слабые промпты полны существительных и прилагательных; сильные добавляют слова действия: поворачивается, идёт, наклоняется, тянется, наклоняет, бросает взгляд, дышит, покачивается, плывёт. Ограничься одним чётким действием на короткий клип. 5-секундный кадр не может показать "она встаёт, идёт к окну, открывает его и закуривает" — это четыре кадра. Проси об одном моменте, сними его, затем генерируй следующий.

Говори на языке кинематографа

LTX-2.3 понимает кинематографические термины. Используй их, чтобы управлять кадром:

Размер кадра: крупный план, средний план, общий план.
Движение камеры: статичный кадр, медленная панорама влево, долли вперёд, съёмка с рук.
Ощущение: неподвижный и устойчивый, или лёгкое покачивание с рук для реалистичности.

"Статичный кадр, крупный план" — это совершенно другой клип по сравнению с "съёмкой с рук в движении, общий план", даже при том же субъекте. Выбирай камеру осознанно.

Промптируй звук, это суперсила LTX-2.3

Поскольку LTX-2.3 генерирует картинку и звук вместе, ты можешь прописать аудио напрямую, и должен это делать. Три слоя, о которых стоит подумать:

Атмосфера / фоновый звук: "тихий фон комнаты", "дождь на стекле", "далёкий городской шум", "волны".
Голос / диалог: описывай подачу ("мягкий шёпот", "тёплый смех"), а не точные слова, если хочешь естественности.
Эффекты: "шаги по дереву", "скрипит дверь", "потрескивание винила", "лёгкий ветерок".

Если ты ничего не говоришь об аудио, LTX-2.3 заполняет его сама, и оно может не совпасть с нужным настроением. Как правило, одной короткой аудиофразы достаточно, чтобы направить его.

Text-to-video против image-to-video

Два варианта входа требуют немного разных промптов:

Text-to-video: ты описываешь всё, включая субъект. Используй полную формулу из шести слотов.
Image-to-video (рекомендуется в tendre.AI): твой статичный кадр уже задаёт субъект, внешний вид и композицию. Поэтому держи описание субъекта лёгким и трать слова на движение и аудио, которые хочешь добавить. Пример поверх готового портрета: "она медленно наклоняет голову, волосы двигаются на лёгком ветру, едва заметная улыбка, статичная камера, мягкое дыхание и далёкий городской шум". Ты анимируешь, а не переописываешь.

Image-to-video — это оптимальный вариант: персонаж, которого ты зафиксировал локально (с помощью LoRA или фиксированного seed), переходит прямо в клип с тем же лицом и тем же стилем.

Итерируй в 1080p, финишируй в 4K

Промпты находят, а не пишут. Делай черновики в 1080p, чтобы каждый дубль был быстрым: запускай, смотри и слушай, меняй одну вещь (более выраженное движение камеры, более чёткий аудиосигнал), запускай снова. Когда кадр удался, перерендери его в 4K. Меняй одну переменную за раз, чтобы знать, что именно помогло.

Два примера, которые можно адаптировать

Text-to-video, кинематографично:

Средний план женщины у окна, покрытого каплями дождя, она медленно поворачивает голову к камере и улыбается, медленный долли вперёд, мрачный синий вечерний свет, кинематографичное зерно плёнки, мягкий дождь на стекле и тихий фоновый гул.

Image-to-video, из локального изображения:

Она мягко дышит и моргает, несколько прядей волос покачиваются на лёгком ветру, статичная неподвижная камера, сохранённая мелкая глубина резкости, тихий фон комнаты с едва слышным тиканьем часов.

Оба коротких, называют одно чёткое действие, задают камеру и дают звуку одну инструкцию. Вот и весь паттерн.

Делай и не делай

Делай: называй одно действие, одно поведение камеры, одну аудиоидею.
Делай: используй кинематографические слова (крупный план, долли вперёд, съёмка с рук).
Не делай: не стакай четыре действия в один 5-секундный клип.
Не делай: не оставляй аудио пустым, если настроение важно.
Не делай: не переописывай субъект в image-to-video, анимируй его.

Как это вписывается в tendre.AI

В tendre.AI изображения остаются 100% локально на твоём GPU. Видео LTX-2.3 работает на облачном GPU по запросу, оплачивается за клип в кредитах, поэтому ты генерируешь изображения приватно и тратишь кредиты только тогда, когда анимируешь удачный кадр. Поскольку видео начинается с твоего локального изображения, персонаж, которого ты создал, переходит в клип с тем же лицом и тем же внешним видом, теперь с движением и звуком.

Всё сгенерированное является 100% синтетическим: реальные люди не изображаются, и каждый субъект однозначно является совершеннолетним.

Превращай свои изображения в видео со звуком

Опиши движение, опиши звук, и пусть LTX-2.3 анимирует изображение, сгенерированное локально. 1080p для итераций, 4K для финала, без подписки.

Скачать tendre.AI Посмотреть цены