Wie man einen guten LTX-2.3-Prompt schreibt (Video mit Ton)

Einen Videomodell zu prompten ist nicht dasselbe wie einen Bildgenerator zu prompten. Mit SDXL beschreibst du einen eingefrorenen Moment. Mit LTX-2.3 beschreibst du eine bewegte Einstellung mit Ton, also zwei Dinge, die du vorher nie schreiben musstest: Bewegung und Audio. Triffst du beides, wirken deine Clips gezielt und stimmig; ignorierst du es, bekommst du eine steife, stumme Diashow. Diese Anleitung zeigt dir, wie du LTX-2.3-Prompts schreibst, die sich wirklich bewegen und richtig klingen.

Der eine Fehler, den du vermeiden solltest: wie für ein Bild prompten

Der häufigste Anfängerfehler ist, eine Szene statt einer Einstellung zu beschreiben. "Eine Frau in einem roten Kleid in einem Café" ist ein Bildprompt. LTX-2.3 rendert etwas, aber ohne Bewegungshinweis muss das Modell raten, und es rät meistens klein (eine winzige Kopfbewegung, ein Flackern). Du landest bei einem fast unbewegten Clip.

Beheble das, indem du immer drei Fragen beantwortest, die das Modell aus einer statischen Beschreibung nicht ableiten kann:

Was bewegt sich? (das Motiv, die Kamera oder beides)
Wie verhält sich die Kamera? (statisch, Schwenk, Dolly, Handkamera)
Was hören wir? (Ambiente, Stimme, Geräusche)

Eine Prompt-Formel, die funktioniert

Stell dir einen LTX-2.3-Prompt als sechs Slots vor. Du brauchst nicht alle sechs jedes Mal, aber je mehr du füllst, desto mehr Kontrolle hast du:

Motiv + Aktion/Bewegung + Kamera + Setting/Licht + Stil + Audio

Beispiel, Slot für Slot:

Eine junge Frau in einem roten Kleid (Motiv) dreht sich zur Kamera und lächelt (Aktion), langsamer Dolly-in (Kamera), warmes goldenes Abendlicht durch ein Fenster (Setting/Licht), cinematisch, geringe Tiefenschärfe (Stil), leises Raumrauschen mit einem zarten Vinyl-Knistern (Audio).

Dieser einzelne Satz sagt LTX-2.3, was passiert, wie es gefilmt wird und wie es klingt. Das ist der gesamte Job.

Bewegung mit Verben beschreiben

Bewegung steckt in Verben. Schwache Prompts sind voller Substantive und Adjektive; starke Prompts fügen Aktionswörter hinzu: dreht sich, läuft, lehnt sich, greift, neigt, blickt, atmet, wippt, treibt. Halte es bei einem klaren Ablauf pro kurzem Clip. Eine 5-Sekunden-Einstellung kann nicht zeigen, "wie sie aufsteht, zum Fenster geht, es öffnet und eine Zigarette anzündet", das sind vier Einstellungen. Fordere einen einzigen Moment an, triff ihn, dann generiere den nächsten.

Die Sprache der Kamera sprechen

LTX-2.3 versteht Filmtermini. Nutze sie, um den Bildausschnitt zu steuern:

Einstellungsgröße: Nahaufnahme, Halbnahe, Totale.
Kamerabewegung: statische Einstellung, langsamer Schwenk links, Dolly-in, Verfolgungsfahrt, Handkamera.
Gefühl: fest und ruhig, oder subtiles Handkamera-Wackeln für Realismus.

"Statische Einstellung, Nahaufnahme" ist ein völlig anderer Clip als "Handkamera-Verfolgungsfahrt, Totale", auch bei demselben Motiv. Entscheide die Kamera bewusst.

Den Ton prompten, das ist LTX-2.3s Superpower

Weil LTX-2.3 Bild und Ton gemeinsam generiert, kannst du das Audio direkt schreiben, und das solltest du auch tun. Drei Ebenen, über die du nachdenken solltest:

Ambiente / Raumton: "ruhiger Raumton", "Regen an einem Fenster", "entfernter Stadtverkehr", "Wellen".
Stimme / Dialog: beschreibe die Vortragsweise ("ein leises Flüstern", "ein warmes Lachen") statt exakter Worte, wenn du etwas Natürliches willst.
Effekte: "Schritte auf Holz", "eine Tür quietscht", "Vinyl-Knistern", "eine leichte Brise".

Sagst du nichts zum Audio, füllt LTX-2.3 es selbst aus, und es passt vielleicht nicht zur Stimmung, die du dir vorgestellt hast. Ein kurzer Audio-Hinweis reicht meistens, um es zu lenken.

Text-to-Video vs. Image-to-Video

Die beiden Einstiegspunkte benötigen leicht unterschiedliche Prompts:

Text-to-Video: du beschreibst alles, auch das Motiv. Nutze die vollständige Sechs-Slot-Formel.
Image-to-Video (in tendre.AI empfohlen): dein Standbild definiert bereits das Motiv, den Look und den Bildausschnitt. Halte die Motivbeschreibung daher knapp und investiere deine Worte in die Bewegung und den Ton, die du hinzufügen möchtest. Beispiel auf Basis eines vorhandenen Porträts: "sie neigt langsam den Kopf, Haar bewegt sich in einer leichten Brise, zartes Lächeln, statische Kamera, leises Atmen und entferntes Stadtambiente". Du animierst, beschreibst nicht neu.

Image-to-Video ist der Sweet Spot: der Charakter, den du lokal gespeichert hast (mit einem LoRA oder einem festen Seed), fließt direkt in den Clip, gleiches Gesicht, gleicher Stil.

Auf 1080p iterieren, auf 4K finalisieren

Prompts werden gefunden, nicht geschrieben. Entwirf auf 1080p, damit jeder Durchlauf schnell geht: starte ihn, schau und hör zu, ändere eine Sache (eine stärkere Kamerabewegung, einen klareren Audio-Hinweis), starte erneut. Wenn die Einstellung sitzt, rendere den Keeper in 4K. Ändere immer nur eine Variable, damit du weißt, was wirklich geholfen hat.

Zwei Beispiele, die du anpassen kannst

Text-to-Video, cinematisch:

Halbnahe einer Frau an einem regenbespritzten Fenster, sie dreht langsam den Kopf zur Kamera und lächelt, langsamer Dolly-in, stimmungsvolles blaues Abendlicht, cinematisches Filmkorn, leiser Regen an der Scheibe und ein tiefes, gleichmäßiges Summen.

Image-to-Video, von einem lokalen Standbild:

Sie atmet sanft und blinzelt, einige Haarsträhnen treiben in einer leichten Brise, statische, fest arretierte Kamera, geringe Tiefenschärfe beibehalten, ruhiger Raumton mit einem zarten Ticken einer Uhr.

Beide sind kurz, benennen eine klare Aktion, setzen die Kamera und geben dem Ton eine einzige Anweisung. Das ist das Muster.

Was du tun solltest und was nicht

Tu es: eine Aktion, ein Kameraverhalten, eine Audio-Idee nennen.
Tu es: Filmterminologie verwenden (Nahaufnahme, Dolly-in, Handkamera).
Tu es nicht: vier Aktionen in einen 5-Sekunden-Clip packen.
Tu es nicht: Audio leer lassen, wenn die Stimmung wichtig ist.
Tu es nicht: das Motiv bei Image-to-Video neu beschreiben, animiere es.

Wie das zu tendre.AI passt

In tendre.AI bleiben Bilder 100% lokal auf deiner eigenen GPU. LTX-2.3-Video läuft auf einem Cloud-GPU nach Bedarf, pro Clip in Credits abgerechnet, du entwirfst Bilder privat und gibst Credits nur aus, wenn du einen Keeper animierst. Da das Video von deinem lokalen Standbild ausgeht, trägt der Charakter, den du aufgebaut hast, direkt in den Clip über, gleiches Gesicht, gleicher Look, jetzt mit Bewegung und Ton.

Alles Generierte ist 100% synthetisch: es wird keine echte Person abgebildet, und jedes Motiv ist eindeutig erwachsen.

Verwandel deine Bilder in Video mit Ton

Schreib die Bewegung, schreib den Ton, und lass LTX-2.3 das Standbild animieren, das du lokal generiert hast. 1080p zum Iterieren, 4K zum Finalisieren, kein Abo.

tendre.AI herunterladen Preise ansehen