Come Scrivere un Buon Prompt per LTX-2.3 (Video con Audio)
2 luglio 2026
Fare il prompt a un modello video non è come farlo a un modello di immagini. Con SDXL descrivi un momento congelato. Con LTX-2.3 descrivi una ripresa in movimento con audio, quindi due elementi che non hai mai scritto prima diventano improvvisamente fondamentali: il movimento e l'audio. Gestiscili bene e le tue clip sembreranno intenzionali; ignorali e otterrai uno slideshow rigido e silenzioso. Questa guida ti mostra come scrivere prompt LTX-2.3 che si muovono e suonano davvero come vuoi.
L'unico errore da evitare: fare il prompt come per un'immagine
L'errore più comune per i principianti è descrivere una scena invece di una ripresa. "Una donna in abito rosso in un caffè" è un prompt da immagine. LTX-2.3 renderizzerà qualcosa, ma senza un'indicazione di movimento dovrà indovinare, e di solito indovina in piccolo (un leggero movimento della testa, un tremolìo). Finisci con una clip quasi immobile.
Correggilo rispondendo sempre a tre domande che il modello non può dedurre da una descrizione statica:
- Cosa si muove? (il soggetto, la camera, o entrambi)
- Come si comporta la camera? (statica, panoramica, dolly, a mano libera)
- Cosa si sente? (ambiente sonoro, voce, effetti)
Una formula per i prompt che funziona
Pensa a un prompt LTX-2.3 come a sei slot. Non hai bisogno di riempirli tutti ogni volta, ma più ne compili, più controllo ottieni:
Soggetto + Azione/Movimento + Camera + Ambientazione/Luce + Stile + Audio
Esempio, slot per slot:
Una giovane donna in abito rosso (soggetto) si gira verso la camera e sorride (azione), lento dolly-in (camera), luce dorata dell'ora magica filtrata da una finestra (ambientazione/luce), cinematografico, profondità di campo ridotta (stile), tono ambientale morbido con un lieve crepitio di vinile (audio).
Quella singola frase dice a LTX-2.3 cosa succede, come viene ripreso e come suona. È tutto ciò che serve.
Descrivi il movimento con i verbi
Il movimento vive nei verbi. I prompt deboli sono pieni di sostantivi e aggettivi; i prompt forti aggiungono parole d'azione: si gira, cammina, si inclina, si allunga, piega la testa, lancia uno sguardo, respira, oscilla, scivola. Tienilo su un'azione chiara per clip breve. Una ripresa di 5 secondi non può mostrare "si alza, cammina verso la finestra, la apre e accende una sigaretta", sono quattro riprese. Chiedi un singolo momento, coglilo, poi genera il successivo.
Parla il linguaggio della camera
LTX-2.3 capisce i termini cinematografici. Usali per controllare il frame:
- Dimensione del campo: primo piano, campo medio, campo lungo.
- Movimento della camera: campo fisso, lenta panoramica sinistra, dolly-in, tracking shot, a mano libera.
- Sensazione: bloccata e stabile, oppure leggero movimento a mano libera per maggior realismo.
"Campo fisso, primo piano" è una clip completamente diversa da "tracking shot a mano libera, campo lungo", anche con lo stesso soggetto. Decidi la camera in modo consapevole.
Fai il prompt anche per il suono: è il superpotere di LTX-2.3
Poiché LTX-2.3 genera immagine e suono insieme, puoi scrivere l'audio direttamente, e dovresti farlo. Tre livelli a cui pensare:
- Ambiente/tono di fondo: "tono ambientale quieto", "pioggia su un vetro", "traffico cittadino lontano", "onde".
- Voce/dialogo: descrivi il tono della voce ("un sussurro morbido", "una risata calda") piuttosto che le parole esatte, se vuoi un risultato naturale.
- Effetti: "passi su un pavimento di legno", "una porta che cigola", "crepitio di vinile", "una leggera brezza".
Se non dici nulla sull'audio, LTX-2.3 lo riempie da solo, e potrebbe non corrispondere all'atmosfera che volevi. Una breve indicazione audio è di solito sufficiente per guidarlo.
Testo in video vs immagine in video
I due punti di ingresso richiedono prompt leggermente diversi:
- Testo in video: descrivi tutto, soggetto incluso. Usa la formula completa a sei slot.
- Immagine in video (consigliato in tendre.AI): la tua immagine statica definisce già il soggetto, l'aspetto e l'inquadratura. Quindi mantieni la descrizione del soggetto leggera e investi le parole sul movimento e l'audio che vuoi aggiungere. Esempio partendo da un ritratto esistente: "inclina lentamente la testa, i capelli si muovono in una leggera brezza, sorriso sottile, camera fissa, respiro delicato e ambiance cittadina lontana". Stai animando, non ri-descrivendo.
L'immagine in video è il punto di forza: il personaggio che hai bloccato localmente (con un LoRA o un seed fisso) passa direttamente nella clip, stessa faccia, stesso stile.
Itera a 1080p, finalizza a 4K
I prompt si trovano, non si scrivono. Lavora in bozza a 1080p così ogni tentativo è veloce: eseguilo, guardalo e ascoltalo, cambia una cosa (un movimento di camera più deciso, un'indicazione audio più chiara), riesegui. Quando la ripresa funziona, ri-renderizza quella definitiva in 4K. Cambia una variabile alla volta così sai cosa ha davvero fatto la differenza.
Due esempi che puoi adattare
Testo in video, stile cinematografico:
Campo medio di una donna vicino a una finestra rigata di pioggia, gira lentamente la testa verso la camera e sorride, lento dolly-in, luce serale blu e cupa, grana cinematografica, pioggia morbida sul vetro e un basso ronzio ambientale.
Immagine in video, da un'immagine locale:
Respira dolcemente e sbatte le palpebre, alcuni capelli oscillano in una leggera brezza, camera bloccata e fissa, profondità di campo ridotta preservata, tono ambientale quieto con un lieve ticchettio di orologio.
Entrambi sono brevi, nominano un'azione chiara, impostano la camera e danno al suono un'indicazione sola. Questo è lo schema.
Da fare e da non fare
- Fai sempre nominare un'azione, un comportamento della camera, un'idea audio.
- Fai usare termini cinematografici (primo piano, dolly-in, a mano libera).
- Non fare accumulare quattro azioni in una clip da 5 secondi.
- Non fare lasciare l'audio in bianco se l'atmosfera è importante.
- Non fare ri-descrivere il soggetto in immagine in video, animalo.
Come si integra con tendre.AI
In tendre.AI, le immagini rimangono 100% locali sul tuo GPU. Il video LTX-2.3 gira su un GPU cloud on demand, fatturato per clip in crediti, quindi crei le immagini in privato e spendi crediti solo quando vuoi animare quella definitiva. Poiché il video parte dalla tua immagine locale, il personaggio che hai costruito passa nella clip, stessa faccia, stesso aspetto, ora con movimento e suono.
Tutto ciò che viene generato è 100% sintetico: nessuna persona reale è rappresentata, e ogni soggetto è inequivocabilmente un adulto.
Scrivi il movimento, scrivi il suono, e lascia che LTX-2.3 animi l'immagine che hai generato localmente. 1080p per iterare, 4K per finalizzare, nessun abbonamento.






