Jak napisać dobry prompt do LTX-2.3 (wideo z dźwiękiem)

Tworzenie promptów do modelu wideo różni się od tworzenia promptów do modelu obrazu. W SDXL opisujesz zastygły moment. W LTX-2.3 opisujesz ruchomy kadr z dźwiękiem, dlatego dwie rzeczy, których wcześniej nigdy nie pisałeś, nagle nabierają znaczenia: ruch i audio. Zrób to dobrze, a Twoje klipy będą wyglądać jak celowo skomponowane. Zignoruj je, a dostaniesz sztywny, cichy pokaz slajdów. Ten przewodnik pokazuje, jak pisać prompty do LTX-2.3, które naprawdę się poruszają i brzmią właściwie.

Jeden błąd, którego należy unikać: promptowanie jak do obrazu

Najczęstszy błąd początkujących to opisywanie sceny zamiast ujęcia. "Kobieta w czerwonej sukience w kawiarni" to prompt do obrazu. LTX-2.3 coś wyrenderuje, ale bez wskazówki dotyczącej ruchu będzie musiał zgadywać, a zazwyczaj zgaduje minimalistycznie (drobny ruch głowy, drżenie). Efekt to niemal nieruchomy klip.

Napraw to, zawsze odpowiadając na trzy pytania, których model nie może wywnioskować ze statycznego opisu:

Co się porusza? (obiekt, kamera albo oboje)
Jak zachowuje się kamera? (statyczna, panorama, dolly, z ręki)
Co słychać? (ambiens, głos, efekty)

Formuła promptu, która działa

Pomyśl o prompcie do LTX-2.3 jak o sześciu slotach. Nie musisz wypełniać wszystkich za każdym razem, ale im więcej wypełnisz, tym większą masz kontrolę:

Obiekt + Akcja/Ruch + Kamera + Otoczenie/Oświetlenie + Styl + Audio

Przykład, slot po slocie:

Młoda kobieta w czerwonej sukience (obiekt) odwraca się w stronę kamery i uśmiecha się (akcja), powolny dolly do przodu (kamera), ciepłe złote światło o zachodzie słońca przez okno (otoczenie/oświetlenie), kinematograficzny, płytka głębia ostrości (styl), delikatny pogłos pomieszczenia z lekkim trzaskiem winylu (audio).

To jedno zdanie mówi LTX-2.3, co się dzieje, jak jest filmowane i jak to brzmi. Na tym polega cała robota.

Opisuj ruch czasownikami

Ruch żyje w czasownikach. Słabe prompty są pełne rzeczowników i przymiotników. Silne prompty dodają słowa akcji: odwraca się, idzie, pochyla się, sięga, przechyla, spogląda, oddycha, kołysze się, dryfuje. Trzymaj się jednej wyraźnej akcji na krótki klip. Pięciosekundowe ujęcie nie może pokazać "ona wstaje, podchodzi do okna, otwiera je i zapala papierosa" -- to cztery ujęcia. Poproś o jeden moment, zrealizuj go, a potem generuj następny.

Mów językiem kamery

LTX-2.3 rozumie terminy filmowe. Użyj ich, żeby kontrolować kadr:

Wielkość ujęcia: zbliżenie, plan średni, plan szeroki.
Ruch kamery: ujęcie statyczne, powolna panorama w lewo, dolly do przodu, ujęcie z ręki.
Charakter: stabilnie i nieruchomo albo delikatne kołysanie z ręki dla realizmu.

"Ujęcie statyczne, zbliżenie" to zupełnie inny klip niż "ujęcie z ręki, plan szeroki" -- nawet przy tym samym obiekcie. Wybierz kamerę świadomie.

Opisuj dźwięk -- to supermoc LTX-2.3

Ponieważ LTX-2.3 generuje obraz i dźwięk razem, możesz napisać audio bezpośrednio -- i powinieneś to robić. Trzy warstwy, o których warto pomyśleć:

Ambiens / pogłos pomieszczenia: "cisza w pokoju", "deszcz na szybie", "odległy ruch miejski", "fale".
Głos / dialog: opisz sposób wypowiedzi ("miękki szept", "ciepły śmiech"), a nie dokładne słowa, jeśli chcesz naturalnego efektu.
Efekty: "kroki na drewnianej podłodze", "skrzypienie drzwi", "trzask winylu", "delikatny wiatr".

Jeśli nic nie napiszesz o audio, LTX-2.3 sam to uzupełni -- i może nie pasować do nastroju, który chciałeś osiągnąć. Jedno krótkie zdanie o dźwięku zazwyczaj wystarczy, żeby go ukierunkować.

Text-to-video a image-to-video

Oba punkty wejścia wymagają nieco innych promptów:

Text-to-video: opisujesz wszystko, łącznie z obiektem. Używaj pełnej sześcioslotowej formuły.
Image-to-video (zalecane w tendre.AI): Twój obraz już definiuje obiekt, wygląd i kadrowanie. Dlatego trzymaj opis obiektu krótki i poświęć słowa na ruch i audio, które chcesz dodać. Przykład na podstawie istniejącego portretu: "powoli przechyla głowę, włosy porusza lekki wietrzyk, subtelny uśmiech, statyczna kamera, delikatny oddech i odległy ambiens miejski". Animujesz, a nie opisujesz od nowa.

Image-to-video to idealne rozwiązanie: postać, którą utrwaliłeś lokalnie (za pomocą LoRA albo stałego seeda), przechodzi bezpośrednio do klipu -- ta sama twarz, ten sam styl.

Iteruj w 1080p, wykańczaj w 4K

Prompty się odkrywa, a nie pisze od razu. Szkicuj w 1080p, żeby każde podejście było szybkie: odtwórz, obejrzyj i posłuchaj, zmień jedną rzecz (silniejszy ruch kamery, wyraźniejsza wskazówka audio), uruchom ponownie. Kiedy ujęcie wyjdzie tak, jak chcesz, wyrenderuj je w 4K. Zmieniaj jedną zmienną na raz, żeby wiedzieć, co naprawdę pomogło.

Dwa przykłady, które możesz zaadaptować

Text-to-video, kinematograficzny:

Plan średni kobiety przy oknie pokrytym kroplami deszczu, powoli odwraca głowę w stronę kamery i uśmiecha się, powolny dolly do przodu, nastrojowe niebieskie wieczorne światło, filmowe ziarno, delikatny deszcz na szybie i niski szum otoczenia.

Image-to-video, z lokalnego zdjęcia:

Oddycha spokojnie i mruga, kilka kosmyków włosów unosi delikatny wietrzyk, statyczna, zablokowana kamera, zachowana płytka głębia ostrości, cisza w pokoju z ledwo słyszalnym tykaniem zegara.

Oba są krótkie, wymieniają jedną wyraźną akcję, ustawiają kamerę i dają dźwiękowi jedno polecenie. Taki jest wzorzec.

Co robić, a czego nie

Rób to: podaj jedną akcję, jedno zachowanie kamery, jeden pomysł na audio.
Rób to: używaj terminów filmowych (zbliżenie, dolly do przodu, z ręki).
Nie rób tego: nie wkładaj czterech akcji w jeden pięciosekundowy klip.
Nie rób tego: nie zostawiaj audio pustego, jeśli nastrój ma znaczenie.
Nie rób tego: nie opisuj obiektu ponownie w image-to-video -- animuj go.

Jak to wpisuje się w tendre.AI

W tendre.AI obrazy pozostają w 100% lokalnie na Twoim własnym GPU. Wideo LTX-2.3 działa na chmurowym GPU na żądanie, rozliczanym za klip w kredytach, więc szkicujesz obrazy prywatnie i wydajesz kredyty tylko wtedy, gdy animujesz wybrany kadr. Ponieważ wideo zaczyna się od Twojego lokalnego zdjęcia, postać, którą stworzyłeś, przechodzi do klipu -- ta sama twarz, ten sam wygląd, teraz z ruchem i dźwiękiem.

Wszystko, co jest generowane, jest w 100% syntetyczne: żadna prawdziwa osoba nie jest przedstawiana, a każdy obiekt jest jednoznacznie osobą dorosłą.

Zamień swoje obrazy w wideo z dźwiękiem

Opisz ruch, opisz dźwięk i pozwól LTX-2.3 ożywić zdjęcie wygenerowane lokalnie. 1080p do iteracji, 4K do finalnej wersji, bez subskrypcji.

Pobierz tendre.AI Zobacz cennik