LTX-2.3 : le modèle audio et vidéo intégré à tendre.AI

26 juin 2026

LTX-2.3 est le modèle de génération audio et vidéo qui propulse la fonctionnalité vidéo de tendre.AI. Il appartient à la famille LTX des modèles de diffusion vidéo, et sa caractéristique principale est de générer image et son ensemble, dans un seul modèle, plutôt que de produire un clip muet et de confier l'audio à un outil séparé. Cet article vous propose une lecture technique accessible de son fonctionnement et de son intégration dans tendre.AI.

Pourquoi un modèle audio-vidéo conjoint change tout

L'ancienne méthode pour obtenir un clip avec son reposait sur un pipeline : un modèle vidéo produit les images, un modèle audio crée la piste, et on les aligne manuellement. Le problème, c'est la synchronisation. Un son généré sans "voir" le mouvement ne tombe jamais juste : un pas en retard d'un temps, une voix qui ne correspond pas aux lèvres, une ambiance qui ignore la scène.

LTX-2.3 supprime ce pipeline. Parce que le même modèle produit les images et l'audio, les deux sont cohérents par construction : la bande-son est conditionnée par le même contenu que l'image, si bien que le mouvement et le son sont synchronisés dès la première génération, sans correctif ultérieur.

L'architecture, expliquée simplement

LTX-2.3 est un diffusion transformer (DiT). Deux notions à comprendre :

  • Diffusion signifie que le modèle part du bruit et débruite étape par étape vers un clip correspondant à votre prompt. C'est le même principe que les modèles d'image modernes comme SDXL, étendu à la dimension temporelle.
  • Transformer signifie qu'il prend en compte la séquence entière (sur toutes les images, et sur l'intégralité du flux audio) plutôt que de traiter chaque image indépendamment. Cette vision globale est ce qui maintient la stabilité du mouvement et l'ancrage du son à l'action sur toute la durée du clip.

Travailler sur le clip complet d'un seul tenant, plutôt qu'image par image, est la raison fondamentale pour laquelle le résultat reste cohérent : les objets gardent leur forme, le mouvement de caméra reste fluide, et le son suit l'image.

Texte vers vidéo et image vers vidéo

LTX-2.3 propose deux points d'entrée, et tendre.AI exploite les deux :

  • Texte vers vidéo : décrivez le plan, obtenez un clip avec son.
  • Image vers vidéo : partez d'une image fixe déjà générée localement dans tendre.AI et animez-la. La première image est la vôtre, ainsi le personnage et le style que vous avez fixés (avec un LoRA ou une graine fixe) se transportent directement dans la vidéo.

L'image vers vidéo est ce qui rend réel le flux de travail "un seul outil pour image et vidéo" : la photo que vous aimez devient la première image du clip, même visage, même rendu.

Résolution : 1080p pour l'itération, 4K pour les finaux

Le même modèle cible plusieurs résolutions. En pratique, cela offre un flux de travail clair :

  • 1080p (Full HD) pour l'itération : suffisamment rapide pour tester un prompt, écouter le résultat, ajuster et relancer.
  • 4K (Ultra HD) pour les rendus finaux : quatre fois plus de pixels, pour les grands écrans ou pour recadrer et stabiliser en post-production.

Vous esquissez en 1080p, verrouillez le plan (mouvement, cadrage, audio), puis finalisez le clip retenu en 4K, sans changer de moteur entre la maquette et la livraison.

L'efficacité, c'est l'essentiel

La gamme LTX est reconnue pour être rapide au regard de sa qualité. Cette efficacité n'est pas un argument marketing creux : c'est ce qui rend les ébauches 1080p rapides et les finaux 4K à la demande réellement praticables, plutôt que des tâches de nuit. Un modèle suffisamment efficace pour itérer transforme votre façon de travailler : vous explorez davantage de prises parce que chacune coûte peu en temps.

Comment tendre.AI intègre LTX-2.3

tendre.AI applique sa règle habituelle : local en priorité, cloud uniquement pour les calculs lourds que vous choisissez.

  • Les images restent 100% locales. Chaque image fixe est générée sur votre propre GPU, rien n'est téléchargé.
  • LTX-2.3 vidéo tourne sur un GPU cloud, à la demande. L'audio synchronisé et surtout le 4K sont gourmands en calcul, ils s'exécutent donc sur un GPU distant et sont facturés par clip en crédits. C'est optionnel : si vous ne générez que des images, votre flux de travail local et privé n'est pas affecté.
  • Les mêmes personnages dans les deux modes. Parce que la vidéo démarre depuis vos images locales, l'identité que vous avez construite se retrouve dans le clip.

Note de migration : tendre.AI intègre progressivement LTX-2.3 dans l'application. La vidéo avec son, l'itération en 1080p et la finition en 4K arrivent au fil de la migration. Le flux de travail image local n'est pas affecté.

La limite de contenu reste en vigueur

LTX-2.3 ne modifie pas la règle ferme de tendre.AI. Tout ce qui est généré est 100% synthétique : aucune personne réelle n'est représentée, et chaque sujet est sans ambiguïté un adulte. Le modèle est un outil pour du contenu fictif, adulte et généré par IA, rien d'autre.

Générez de la vidéo avec son dans tendre.AI

LTX-2.3 apporte audio et vidéo synchronisés, en 1080p et 4K, par-dessus un flux de travail image 100% local. Un seul outil pour image et vidéo, sans abonnement.

Portrait généré par IA avec tendre.AI (Studio)Portrait généré par IA avec tendre.AI (Exterior)Portrait généré par IA avec tendre.AI (Extérieur)Portrait généré par IA avec tendre.AI (Exterior)Portrait généré par IA avec tendre.AI (Library)Portrait généré par IA avec tendre.AI (exterior)Portrait généré par IA avec tendre.AI (Business)Portrait généré par IA avec tendre.AI (Studio)Portrait généré par IA avec tendre.AI (Studio)