Comment rédiger un bon prompt LTX-2.3 (vidéo avec son)
2 juillet 2026
Prompter un modèle vidéo, ce n'est pas comme prompter un modèle d'image. Avec SDXL, tu décris un instant figé. Avec LTX-2.3, tu décris un plan en mouvement, avec du son : d'un coup, deux choses que tu n'écrivais jamais deviennent essentielles, le mouvement et l'audio. Bien gérés, tes clips paraissent intentionnels ; ignorés, tu obtiens un diaporama figé et muet. Voici comment écrire des prompts LTX-2.3 qui bougent et sonnent juste.
L'erreur numéro un : prompter comme une image
L'erreur de débutant la plus fréquente, c'est de décrire une scène au lieu d'un plan. "Une femme en robe rouge dans un café", c'est un prompt d'image. LTX-2.3 va générer quelque chose, mais sans indice de mouvement il doit deviner, et il devine petit (un léger mouvement de tête, un scintillement). Tu te retrouves avec un clip quasi figé.
Corrige ça en répondant toujours à trois questions que le modèle ne peut pas deviner à partir d'une description statique :
- Qu'est-ce qui bouge ? (le sujet, la caméra, ou les deux)
- Comment se comporte la caméra ? (fixe, panoramique, travelling, à l'épaule)
- Qu'est-ce qu'on entend ? (ambiance, voix, effets)
Une formule de prompt qui marche
Vois un prompt LTX-2.3 comme six cases. Tu n'as pas besoin des six à chaque fois, mais plus tu en remplis, plus tu contrôles :
Sujet + Action/Mouvement + Caméra + Décor/Lumière + Style + Audio
Exemple, case par case :
Une jeune femme en robe rouge (sujet) se tourne vers la caméra et sourit (action), léger travelling avant (caméra), lumière chaude de fin de journée par une fenêtre (décor/lumière), cinématique, faible profondeur de champ (style), ambiance douce avec un léger grésillement de vinyle (audio).
Cette seule phrase dit à LTX-2.3 ce qui se passe, comment c'est filmé et comment ça sonne. C'est tout le travail.
Décris le mouvement avec des verbes
Le mouvement vit dans les verbes. Les prompts faibles sont pleins de noms et d'adjectifs ; les prompts forts ajoutent des verbes d'action : se tourne, marche, se penche, tend la main, incline, jette un regard, respire, se balance, dérive. Garde une seule action claire par clip court. Un plan de 5 secondes ne peut pas montrer "elle se lève, va à la fenêtre, l'ouvre et allume une cigarette", ça fait quatre plans. Demande un seul temps, réussis-le, puis génère le suivant.
Parle le langage de la caméra
LTX-2.3 comprend les termes de cinéma. Utilise-les pour contrôler le cadre :
- Taille du plan : gros plan, plan moyen, plan large.
- Mouvement de caméra : plan fixe, léger panoramique gauche, travelling avant, plan en poursuite, caméra à l'épaule.
- Ressenti : verrouillé et stable, ou légère instabilité à l'épaule pour le réalisme.
"Plan fixe, gros plan" donne un clip complètement différent de "plan en poursuite à l'épaule, plan large", même avec le même sujet. Décide la caméra volontairement.
Prompte le son, c'est la super-puissance de LTX-2.3
Comme LTX-2.3 génère l'image et le son ensemble, tu peux écrire l'audio directement, et tu devrais le faire. Trois couches à penser :
- Ambiance : "pièce silencieuse", "pluie sur une vitre", "trafic urbain lointain", "vagues".
- Voix / dialogue : décris la façon de parler ("un murmure doux", "un rire chaleureux") plutôt que les mots exacts si tu veux du naturel.
- Effets : "pas sur du bois", "une porte qui grince", "grésillement de vinyle", "une légère brise".
Si tu ne dis rien sur l'audio, LTX-2.3 le remplit tout seul, et ça peut ne pas coller à l'ambiance voulue. Une courte phrase d'audio suffit en général à l'orienter.
Texte vers vidéo ou image vers vidéo
Les deux points d'entrée demandent des prompts un peu différents :
- Texte vers vidéo : tu décris tout, sujet compris. Utilise la formule complète à six cases.
- Image vers vidéo (recommandé dans tendre.AI) : ton image définit déjà le sujet, le look et le cadrage. Garde donc la description du sujet légère et dépense tes mots sur le mouvement et l'audio à ajouter. Exemple par-dessus un portrait existant : "elle incline lentement la tête, ses cheveux bougent dans une légère brise, léger sourire, caméra fixe, respiration douce et ambiance urbaine lointaine". Tu animes, tu ne re-décris pas.
L'image vers vidéo, c'est le point idéal : le personnage que tu as fixé en local (avec un LoRA ou une seed fixe) passe directement dans le clip, même visage, même style.
Itère en 1080p, finis en 4K
Un bon prompt, ça se trouve, ça ne s'écrit pas du premier coup. Brouillonne en 1080p pour que chaque prise soit rapide : lance, regarde et écoute, change une chose (un mouvement de caméra plus marqué, un indice audio plus clair), relance. Quand le plan est bon, refais la prise gardée en 4K. Change une variable à la fois pour savoir ce qui a vraiment aidé.
Deux exemples à adapter
Texte vers vidéo, cinématique :
Plan moyen d'une femme près d'une fenêtre striée de pluie, elle tourne lentement la tête vers la caméra et sourit, léger travelling avant, lumière bleutée de soirée, grain de film cinématique, pluie douce sur la vitre et léger bourdonnement d'ambiance.
Image vers vidéo, à partir d'une image locale :
Elle respire doucement et cligne des yeux, quelques mèches dérivent dans une légère brise, caméra fixe verrouillée, faible profondeur de champ conservée, ambiance de pièce silencieuse avec le tic-tac lointain d'une horloge.
Les deux sont courts, nomment une action claire, posent la caméra et donnent une seule instruction de son. C'est le schéma.
À faire et à éviter
- Fais : nomme une action, un comportement de caméra, une idée d'audio.
- Fais : utilise les mots de cinéma (gros plan, travelling avant, à l'épaule).
- Évite : empiler quatre actions dans un seul clip de 5 secondes.
- Évite : laisser l'audio vide si l'ambiance compte.
- Évite : re-décrire le sujet en image vers vidéo, anime-le.
Comment ça s'intègre à tendre.AI
Dans tendre.AI, les images restent 100% en local sur ton propre GPU. La vidéo LTX-2.3 tourne sur un GPU cloud à la demande, facturée au clip en crédits : tu brouillonnes tes images en privé et tu ne dépenses des crédits que pour animer une prise gardée. Comme la vidéo part de ton image locale, le personnage que tu as construit passe dans le clip, même visage, même look, désormais avec le mouvement et le son.
Tout ce qui est généré est 100% synthétique : aucune personne réelle n'est représentée, et chaque sujet est indubitablement un adulte.
Écris le mouvement, écris le son, et laisse LTX-2.3 animer l'image que tu as générée en local. 1080p pour itérer, 4K pour finaliser, sans abonnement.






