Hoe schrijf je een goede LTX-2.3-prompt (video met geluid)

Een videomodel prompten is niet hetzelfde als een afbeeldingsmodel prompten. Met SDXL beschrijf je een bevroren moment. Met LTX-2.3 beschrijf je een bewegende opname met geluid, dus twee dingen die je nooit eerder hoefde te schrijven worden ineens belangrijk: beweging en audio. Doe je dat goed, dan voelen je clips intentioneel aan; negeer je ze, dan krijg je een stijve, stille diashow. In deze gids leer je LTX-2.3-prompts schrijven die echt bewegen en goed klinken.

De fout die je moet vermijden: prompten als bij een afbeelding

De meestgemaakte beginnersfout is het beschrijven van een scène in plaats van een shot. "Een vrouw in een rode jurk in een café" is een afbeeldingsprompt. LTX-2.3 rendert wel iets, maar zonder bewegingsinstructie moet het model raden, en dat eindigt meestal klein (een minimale hoofdbeweging, een flikkering). Je krijgt een clip die bijna stilstaat.

Los het op door altijd drie vragen te beantwoorden die het model niet kan afleiden uit een statische beschrijving:

Wat beweegt? (het onderwerp, de camera of allebei)
Hoe gedraagt de camera zich? (statisch, pan, dolly, handgehouden)
Wat hoor je? (sfeergeluid, stem, effecten)

Een promptformule die werkt

Zie een LTX-2.3-prompt als zes slots. Je hebt ze niet allemaal elke keer nodig, maar hoe meer je invult, hoe meer controle je hebt:

Onderwerp + Actie/Beweging + Camera + Setting/Belichting + Stijl + Audio

Voorbeeld, slot voor slot:

Een jonge vrouw in een rode jurk (onderwerp) draait zich naar de camera en glimlacht (actie), langzame dolly-in (camera), warm gouden-uurlicht door een raam (setting/belichting), cinematografisch, ondiepe scherptediepte (stijl), zachte kamersfeer met een vaag vinylgekraak (audio).

Die ene zin vertelt LTX-2.3 wat er gebeurt, hoe het gefilmd is en hoe het klinkt. Dat is precies genoeg.

Beschrijf beweging met werkwoorden

Beweging leeft in werkwoorden. Zwakke prompts staan vol zelfstandige naamwoorden en bijvoeglijke naamwoorden; sterke prompts voegen actiewoorden toe: draait, loopt, leunt, reikt, kantelt, kijkt, ademt, wiegelt, drijft. Houd het bij één duidelijke actie per kort clip. Een shot van 5 seconden kan niet laten zien "ze staat op, loopt naar het raam, opent het en steekt een sigaret op", dat zijn vier shots. Vraag om één moment, land het, en genereer dan het volgende.

Spreek de taal van de camera

LTX-2.3 begrijpt cinematografische termen. Gebruik ze om het beeld te sturen:

Shotgrootte: close-up, medium shot, wide shot.
Camerabeweging: statisch shot, langzame pan naar links, dolly-in, tracking shot, handgehouden.
Gevoel: vast en stabiel, of subtiele handgehouden beweging voor realisme.

"Statisch shot, close-up" is een totaal andere clip dan "handgehouden tracking shot, wide", zelfs met hetzelfde onderwerp. Beslis bewust hoe de camera beweegt.

Prompt het geluid, dit is de superkracht van LTX-2.3

Omdat LTX-2.3 beeld en geluid tegelijk genereert, kun je de audio direct in je prompt schrijven, en dat moet je ook doen. Drie lagen om aan te denken:

Sfeergeluid / kamergeluid: "stille kamersfeer", "regen op een raam", "ver stadsverkeer", "golven".
Stem / dialoog: beschrijf de toon ("een zacht gefluister", "een warme lach") in plaats van exacte woorden als je het natuurlijk wilt.
Effecten: "voetstappen op hout", "een deur kraakt", "vinylgekraak", "een zacht briesje".

Als je niets over audio zegt, vult LTX-2.3 het zelf in, en dat past misschien niet bij de sfeer die je wilde. Eén korte audiozin is meestal genoeg om het bij te sturen.

Tekst-naar-video vs. afbeelding-naar-video

De twee ingangen vragen om iets andere prompts:

Tekst-naar-video: je beschrijft alles, inclusief het onderwerp. Gebruik de volledige formule met zes slots.
Afbeelding-naar-video (aanbevolen in tendre.AI): je stilstaande beeld definieert al het onderwerp, de stijl en de kadrering. Houd de beschrijving van het onderwerp dus kort en besteed je woorden aan de beweging en audio die je wilt toevoegen. Voorbeeld bovenop een bestaand portret: "ze kantelt haar hoofd langzaam, haar haar beweegt in een licht briesje, subtiele glimlach, statische camera, zacht ademhalen en ver stadsgeluid". Je animeert, je beschrijft niet opnieuw.

Afbeelding-naar-video is de sweet spot: het personage dat je lokaal hebt vastgelegd (met een LoRA of een vaste seed) gaat direct mee in de clip, zelfde gezicht, zelfde stijl.

Itereer op 1080p, rond af op 4K

Prompts worden gevonden, niet geschreven. Begin op 1080p zodat elke take snel gaat: draai hem, kijk en luister, verander één ding (een sterkere camerabeweging, een duidelijkere audiocue), draai opnieuw. Wanneer het shot klopt, render de keeper opnieuw in 4K. Verander telkens één variabele zodat je weet wat echt geholpen heeft.

Twee voorbeelden die je kunt aanpassen

Tekst-naar-video, cinematografisch:

Medium shot van een vrouw bij een raam met regendruppels, ze draait haar hoofd langzaam naar de camera en glimlacht, langzame dolly-in, sfeervol blauw avondlicht, cinematografische filmkorrel, zacht regen op glas en een laag omgevingsgebrom.

Afbeelding-naar-video, vanuit een lokale stilstaande afbeelding:

Ze ademt rustig en knippert met haar ogen, een paar haarslierten bewegen in een licht briesje, statische vergrendelde camera, ondiepe scherptediepte behouden, stille kamersfeer met een vaag tikkende klok.

Beide zijn kort, noemen één duidelijke actie, stellen de camera in en geven het geluid één instructie. Dat is het patroon.

Wel en niet doen

Wel één actie, één camerabeweging en één audio-idee benoemen.
Wel cinematografische termen gebruiken (close-up, dolly-in, handgehouden).
Niet vier acties in één clip van 5 seconden stoppen.
Niet de audio leeg laten als sfeer belangrijk is.
Niet het onderwerp opnieuw beschrijven bij afbeelding-naar-video, animeer het.

Hoe dit past bij tendre.AI

In tendre.AI blijven afbeeldingen 100% lokaal op je eigen GPU. LTX-2.3-video draait op een cloud-GPU op aanvraag, per clip gefactureerd in credits, zodat je afbeeldingen privé maakt en alleen credits uitgeeft wanneer je een keeper animeert. Omdat video begint vanuit je lokale stilstaande beeld, gaat het personage dat je hebt opgebouwd direct mee in de clip, zelfde gezicht, zelfde look, nu met beweging en geluid.

Alles wat gegenereerd wordt is 100% synthetisch: er wordt geen echt persoon afgebeeld en elk onderwerp is onmiskenbaar een volwassene.

Zet je afbeeldingen om in video met geluid

Schrijf de beweging, schrijf het geluid en laat LTX-2.3 de stilstaande afbeelding die je lokaal hebt gegenereerd animeren. 1080p om te itereren, 4K om af te ronden, geen abonnement.

Download tendre.AI Bekijk prijzen