LTX-2.3: Il Modello Audio e Video dentro tendre.AI

26 giugno 2026

LTX-2.3 è il modello di generazione audio-video che alimenta i video dentro tendre.AI. Appartiene alla famiglia LTX di modelli video diffusion e la sua caratteristica distintiva è che genera immagini e audio insieme, in un unico modello, invece di produrre una clip silenziosa e lasciare l'audio a uno strumento separato. Questo articolo è un'analisi tecnica in linguaggio accessibile su come funziona e come tendre.AI lo integra.

Perché un modello audio-video congiunto è importante

Il vecchio metodo per ottenere una clip con audio era una pipeline: un modello video crea i fotogrammi, un modello audio crea una traccia, e le allinei a mano. Il problema è proprio l'allineamento. Un audio generato senza "vedere" il movimento non atterrerà mai nel punto giusto: un passo mezzo beat in ritardo, una voce che non corrisponde alla bocca, un'ambienza che ignora la scena.

LTX-2.3 elimina quella pipeline. Poiché lo stesso modello produce i fotogrammi e l'audio, i due elementi sono coerenti per costruzione: la colonna sonora è condizionata sullo stesso contenuto dell'immagine, quindi movimento e suono sono sincronizzati fin dalla prima generazione, non rattoppati in seguito.

L'architettura, in parole semplici

LTX-2.3 è un diffusion transformer (DiT). Due concetti che vale la pena capire:

  • Diffusion significa che il modello parte dal rumore e lo denatura passo dopo passo verso una clip che corrisponde al tuo prompt. È lo stesso principio dietro i moderni modelli di immagini come SDXL, esteso al tempo.
  • Transformer significa che osserva l'intera sequenza (attraverso i fotogrammi e il flusso audio) invece di trattare ogni fotogramma in modo indipendente. Questa visione globale è ciò che mantiene il movimento stabile e l'audio agganciato all'azione per tutta la durata della clip.

Lavorare sull'intera clip in una volta, invece che fotogramma per fotogramma, è il motivo principale per cui il risultato rimane coerente: gli oggetti mantengono la loro forma, il movimento della telecamera resta fluido, e il suono segue l'immagine.

Text-to-video e image-to-video

LTX-2.3 supporta due punti di partenza, e tendre.AI li usa entrambi:

  • Text-to-video: descrivi l'inquadratura, ottieni una clip con audio.
  • Image-to-video: parti da una immagine fissa che hai già generato localmente in tendre.AI e animala. Il primo fotogramma è la tua immagine, quindi il personaggio e lo stile che hai definito (con un LoRA o un seed fisso) passano direttamente nel video.

Image-to-video è ciò che rende reale il flusso di lavoro "un unico strumento per immagini e video": la foto che ami diventa il fotogramma iniziale della clip, stessa faccia, stesso aspetto.

Risoluzione: 1080p per l'iterazione, 4K per i finali

Lo stesso modello supporta più risoluzioni. In pratica questo offre un flusso di lavoro pulito:

  • 1080p (Full HD) per l'iterazione: abbastanza veloce per provare un prompt, ascoltare il risultato, regolare, e ripetere.
  • 4K (Ultra HD) per i render finali: quattro volte i pixel, per schermi grandi o per avere margine di ritaglio e stabilizzazione in post-produzione.

Bozzi in 1080p, blocchi l'inquadratura (movimento, composizione, audio), poi completi il risultato definitivo in 4K, senza cambiare motore tra bozza e consegna.

L'efficienza è il punto centrale

La linea LTX è nota per essere veloce rispetto alla qualità prodotta. Quell'efficienza non è una metrica di facciata: è ciò che rende pratici i draft rapidi in 1080p e i render 4K su richiesta, invece di lavori da fare tutta la notte. Un modello abbastanza efficiente da consentire l'iterazione cambia il modo in cui lavori: esplori più varianti perché ognuna costa poco in termini di tempo.

Come tendre.AI integra LTX-2.3

tendre.AI applica la sua regola abituale: locale prima di tutto, cloud solo per i lavori pesanti che scegli tu.

  • Le immagini rimangono 100% locali. Ogni immagine fissa è generata sulla tua GPU, nulla viene caricato.
  • Il video LTX-2.3 gira su una GPU cloud, su richiesta. L'audio sincronizzato e soprattutto il 4K richiedono molta potenza di calcolo, quindi vengono eseguiti su una GPU remota e fatturati per clip in crediti. È opzionale: se generi solo immagini, il tuo flusso di lavoro privato locale non cambia in nulla.
  • Gli stessi personaggi in entrambi. Poiché il video parte dalle tue immagini locali, l'identità che hai costruito si trasferisce nella clip.

Nota sulla migrazione: tendre.AI sta integrando attivamente LTX-2.3 nell'app. Video con audio, iterazione in 1080p e finitura in 4K arrivano progressivamente man mano che la migrazione si completa. Il flusso di lavoro locale per le immagini non è interessato.

Il confine sui contenuti si applica sempre

LTX-2.3 non cambia la regola ferma di tendre.AI. Tutto ciò che viene generato è 100% sintetico: nessuna persona reale è raffigurata, e ogni soggetto è inequivocabilmente adulto. Il modello è uno strumento per contenuti fittizi, per adulti, generati dall'IA, niente altro.

Genera video con audio in tendre.AI

LTX-2.3 porta audio e video sincronizzati, in 1080p e 4K, sopra un flusso di lavoro per immagini 100% locale. Un unico strumento per immagini e video, senza abbonamento.

AI-generated portrait by tendre.AI (Studio)AI-generated portrait by tendre.AI (Exterior)AI-generated portrait by tendre.AI (Extérieur)AI-generated portrait by tendre.AI (Exterior)AI-generated portrait by tendre.AI (Library)AI-generated portrait by tendre.AI (exterior)AI-generated portrait by tendre.AI (Business)AI-generated portrait by tendre.AI (Studio)AI-generated portrait by tendre.AI (Studio)