LTX-2.3: Het Audio- en Videomodel in tendre.AI

LTX-2.3 is het audio- en videogeneratiemodel dat video binnen tendre.AI aandrijft. Het behoort tot de LTX-familie van videodiffusiemodellen en het kenmerkende aspect is dat het beeld en geluid samen genereert, in één model, in plaats van een stille clip te produceren en audio over te laten aan een apart programma. Dit artikel is een technische uitleg in begrijpelijke taal over hoe het werkt en hoe tendre.AI het integreert.

Waarom een gecombineerd audio-videomodel belangrijk is

De oude manier om een clip met geluid te krijgen was een pijplijn: een videomodel maakt de frames, een audiomodel maakt een track, en jij lijnt ze handmatig uit. Het probleem is die uitlijning. Geluid dat is gegenereerd zonder de beweging te "zien" klopt nooit precies: een voetstap een halve tel te laat, een stem die niet bij de mond past, sfeergeluid dat de scène negeert.

LTX-2.3 maakt die pijplijn overbodig. Omdat hetzelfde model de frames én de audio produceert, zijn de twee van nature samenhangend: de soundtrack is geconditioneerd op dezelfde inhoud als het beeld, zodat beweging en geluid gesynchroniseerd zijn vanaf de eerste generatie, niet achteraf aan elkaar geplakt.

De architectuur, in begrijpelijke termen

LTX-2.3 is een diffusion transformer (DiT). Twee ideeën die het waard zijn te begrijpen:

Diffusie betekent dat het model begint vanuit ruis en stap voor stap ontruist naar een clip die bij jouw prompt past. Het is hetzelfde principe achter moderne beeldmodellen zoals SDXL, uitgebreid naar tijd.
Transformer betekent dat het aandacht besteedt aan de volledige reeks (over alle frames heen, en over de audiostream) in plaats van elk frame afzonderlijk te behandelen. Die globale blik is wat beweging stabiel houdt en audio vergrendeld aan de actie gedurende de hele clip.

Werken over de volledige clip tegelijk, in plaats van frame voor frame, is de kernreden dat de uitvoer samenhangend blijft: objecten behouden hun vorm, de camerabeweging blijft vloeiend, en het geluid volgt het beeld.

Text-to-video en image-to-video

LTX-2.3 ondersteunt twee ingangspunten, en tendre.AI gebruikt beide:

Text-to-video: beschrijf de shot, ontvang een clip met geluid.
Image-to-video: begin vanuit een stilstaand beeld dat je al lokaal hebt gegenereerd in tendre.AI en animeer het. Het eerste frame is jouw afbeelding, zodat het personage en de stijl die je hebt vastgelegd (met een LoRA of een vaste seed) direct doorgaan in de video.

Image-to-video is wat de workflow "één tool voor beeld en video" werkelijkheid maakt: de foto die je mooi vindt wordt het openingsframe van de clip, zelfde gezicht, zelfde uitstraling.

Resolutie: 1080p voor iteratie, 4K voor eindresultaten

Hetzelfde model richt zich op meerdere resoluties. In de praktijk geeft dat een overzichtelijke workflow:

1080p (Full HD) voor iteratie: snel genoeg om een prompt te proberen, het resultaat te horen, aan te passen en opnieuw te draaien.
4K (Ultra HD) voor eindrenderings: vier keer zoveel pixels, voor grote schermen of ruimte om te croppen en te stabiliseren in de nabewerking.

Je werkt in 1080p, vergrendelt de shot (beweging, kadering, audio), en rondt de keeper af in 4K, zonder van engine te wisselen tussen concept en eindresultaat.

Efficiëntie is het punt

De LTX-lijn staat bekend om snel te zijn voor de kwaliteit die het levert. Die efficiëntie is geen ijdele statistiek: het is wat snelle 1080p-concepten en 4K-eindresultaten op aanvraag praktisch maakt in plaats van een klus die de hele nacht duurt. Een model dat efficiënt genoeg is om mee te itereren verandert hoe je werkt, je verkent meer takes omdat elke take goedkoop is in tijd.

Hoe tendre.AI LTX-2.3 integreert

tendre.AI past zijn gebruikelijke regel toe: lokaal eerst, cloud alleen voor het zware werk dat jij kiest.

Afbeeldingen blijven 100% lokaal. Elk stilstaand beeld wordt gegenereerd op jouw eigen GPU, er wordt niets geüpload.
LTX-2.3 video draait op een cloud-GPU, op aanvraag. Gesynchroniseerde audio en zeker 4K zijn rekenintensief, dus ze draaien op een externe GPU en worden per clip gefactureerd in credits. Het is opt-in: als je alleen afbeeldingen genereert, verandert er niets aan jouw privé lokale workflow.
Dezelfde personages in beide. Omdat video begint vanuit jouw lokale stilstaande beelden, gaat de identiteit die je hebt opgebouwd mee de clip in.

Migratiemelding: tendre.AI rolt LTX-2.3 actief uit in de app. Video met geluid, 1080p-iteratie en 4K-afwerking worden geleidelijk beschikbaar naarmate de migratie wordt voltooid. De lokale beeldworkflow is niet beïnvloed.

De inhoudsgrens geldt nog steeds

LTX-2.3 verandert niets aan de strikte regel van tendre.AI. Alles wat wordt gegenereerd is 100% synthetisch: er wordt geen echte persoon afgebeeld, en elk onderwerp is ondubbelzinnig een volwassene. Het model is een hulpmiddel voor fictieve, volwassen, AI-gegenereerde inhoud, niets anders.

Genereer video met geluid in tendre.AI

LTX-2.3 brengt gesynchroniseerde audio en video, in 1080p en 4K, bovenop een 100% lokale beeldworkflow. Één tool voor beeld en video, zonder abonnement.

Download tendre.AI Bekijk prijzen