LTX-2.3: Il Modello Audio e Video dentro tendre.AI
26 giugno 2026
LTX-2.3 è il modello di generazione audio-video che alimenta i video dentro tendre.AI. Appartiene alla famiglia LTX di modelli video diffusion e la sua caratteristica distintiva è che genera immagini e audio insieme, in un unico modello, invece di produrre una clip silenziosa e lasciare l'audio a uno strumento separato. Questo articolo è un'analisi tecnica in linguaggio accessibile su come funziona e come tendre.AI lo integra.
Perché un modello audio-video congiunto è importante
Il vecchio metodo per ottenere una clip con audio era una pipeline: un modello video crea i fotogrammi, un modello audio crea una traccia, e le allinei a mano. Il problema è proprio l'allineamento. Un audio generato senza "vedere" il movimento non atterrerà mai nel punto giusto: un passo mezzo beat in ritardo, una voce che non corrisponde alla bocca, un'ambienza che ignora la scena.
LTX-2.3 elimina quella pipeline. Poiché lo stesso modello produce i fotogrammi e l'audio, i due elementi sono coerenti per costruzione: la colonna sonora è condizionata sullo stesso contenuto dell'immagine, quindi movimento e suono sono sincronizzati fin dalla prima generazione, non rattoppati in seguito.
L'architettura, in parole semplici
LTX-2.3 è un diffusion transformer (DiT). Due concetti che vale la pena capire:
- Diffusion significa che il modello parte dal rumore e lo denatura passo dopo passo verso una clip che corrisponde al tuo prompt. È lo stesso principio dietro i moderni modelli di immagini come SDXL, esteso al tempo.
- Transformer significa che osserva l'intera sequenza (attraverso i fotogrammi e il flusso audio) invece di trattare ogni fotogramma in modo indipendente. Questa visione globale è ciò che mantiene il movimento stabile e l'audio agganciato all'azione per tutta la durata della clip.
Lavorare sull'intera clip in una volta, invece che fotogramma per fotogramma, è il motivo principale per cui il risultato rimane coerente: gli oggetti mantengono la loro forma, il movimento della telecamera resta fluido, e il suono segue l'immagine.
Text-to-video e image-to-video
LTX-2.3 supporta due punti di partenza, e tendre.AI li usa entrambi:
- Text-to-video: descrivi l'inquadratura, ottieni una clip con audio.
- Image-to-video: parti da una immagine fissa che hai già generato localmente in tendre.AI e animala. Il primo fotogramma è la tua immagine, quindi il personaggio e lo stile che hai definito (con un LoRA o un seed fisso) passano direttamente nel video.
Image-to-video è ciò che rende reale il flusso di lavoro "un unico strumento per immagini e video": la foto che ami diventa il fotogramma iniziale della clip, stessa faccia, stesso aspetto.
Risoluzione: 1080p per l'iterazione, 4K per i finali
Lo stesso modello supporta più risoluzioni. In pratica questo offre un flusso di lavoro pulito:
- 1080p (Full HD) per l'iterazione: abbastanza veloce per provare un prompt, ascoltare il risultato, regolare, e ripetere.
- 4K (Ultra HD) per i render finali: quattro volte i pixel, per schermi grandi o per avere margine di ritaglio e stabilizzazione in post-produzione.
Bozzi in 1080p, blocchi l'inquadratura (movimento, composizione, audio), poi completi il risultato definitivo in 4K, senza cambiare motore tra bozza e consegna.
L'efficienza è il punto centrale
La linea LTX è nota per essere veloce rispetto alla qualità prodotta. Quell'efficienza non è una metrica di facciata: è ciò che rende pratici i draft rapidi in 1080p e i render 4K su richiesta, invece di lavori da fare tutta la notte. Un modello abbastanza efficiente da consentire l'iterazione cambia il modo in cui lavori: esplori più varianti perché ognuna costa poco in termini di tempo.
Come tendre.AI integra LTX-2.3
tendre.AI applica la sua regola abituale: locale prima di tutto, cloud solo per i lavori pesanti che scegli tu.
- Le immagini rimangono 100% locali. Ogni immagine fissa è generata sulla tua GPU, nulla viene caricato.
- Il video LTX-2.3 gira su una GPU cloud, su richiesta. L'audio sincronizzato e soprattutto il 4K richiedono molta potenza di calcolo, quindi vengono eseguiti su una GPU remota e fatturati per clip in crediti. È opzionale: se generi solo immagini, il tuo flusso di lavoro privato locale non cambia in nulla.
- Gli stessi personaggi in entrambi. Poiché il video parte dalle tue immagini locali, l'identità che hai costruito si trasferisce nella clip.
Nota sulla migrazione: tendre.AI sta integrando attivamente LTX-2.3 nell'app. Video con audio, iterazione in 1080p e finitura in 4K arrivano progressivamente man mano che la migrazione si completa. Il flusso di lavoro locale per le immagini non è interessato.
Il confine sui contenuti si applica sempre
LTX-2.3 non cambia la regola ferma di tendre.AI. Tutto ciò che viene generato è 100% sintetico: nessuna persona reale è raffigurata, e ogni soggetto è inequivocabilmente adulto. Il modello è uno strumento per contenuti fittizi, per adulti, generati dall'IA, niente altro.
LTX-2.3 porta audio e video sincronizzati, in 1080p e 4K, sopra un flusso di lavoro per immagini 100% locale. Un unico strumento per immagini e video, senza abbonamento.








