LTX-2.3: Das Audio- und Videomodell in tendre.AI
26. Juni 2026
LTX-2.3 ist das Audio-und-Video-Generierungsmodell, das Videos in tendre.AI antreibt. Es gehört zur LTX-Familie der Video-Diffusionsmodelle, und sein entscheidendes Merkmal ist, dass es Bild und Ton gemeinsam in einem einzigen Modell erzeugt, anstatt einen stummen Clip zu produzieren und Audio einem separaten Werkzeug zu überlassen. Dieser Artikel bietet einen verständlichen technischen Einblick in die Funktionsweise und die Integration in tendre.AI.
Warum ein gemeinsames Audio-Video-Modell entscheidend ist
Der alte Weg zu einem Clip mit Ton war eine Pipeline: Ein Videomodell erzeugt die Frames, ein Audiomodell erstellt einen Track, und beides wird manuell synchronisiert. Das Problem ist die Abstimmung. Ton, der ohne "Sicht" auf die Bewegung erzeugt wurde, passt nie exakt: ein Schritt einen halben Beat zu spät, eine Stimme, die nicht zum Mund passt, Atmosphäre, die die Szene ignoriert.
LTX-2.3 macht diese Pipeline überflüssig. Da dasselbe Modell sowohl die Frames als auch das Audio produziert, sind beide von Grund auf kohärent: Der Soundtrack wird auf denselben Inhalt konditioniert wie das Bild, sodass Bewegung und Ton von der ersten Generierung an synchronisiert sind und nicht nachträglich angepasst werden müssen.
Die Architektur, einfach erklärt
LTX-2.3 ist ein Diffusion Transformer (DiT). Zwei Konzepte, die sich lohnen zu verstehen:
- Diffusion bedeutet, dass das Modell von Rauschen ausgeht und Schritt für Schritt entrauscht, bis ein Clip entsteht, der zum Prompt passt. Es ist dasselbe Prinzip wie bei modernen Bildmodellen wie SDXL, nur auf die Zeitachse ausgedehnt.
- Transformer bedeutet, dass das Modell über die gesamte Sequenz hinweg arbeitet (über Frames hinweg und über den Audiostream), anstatt jeden Frame einzeln zu betrachten. Diese globale Perspektive ist es, die Bewegungen stabil und den Ton über die gesamte Cliplänge mit dem Bild synchronisiert hält.
Die Verarbeitung des gesamten Clips auf einmal, statt Frame für Frame, ist der Kerngrund dafür, dass die Ausgabe kohärent bleibt: Objekte behalten ihre Form, Kamerabewegungen bleiben flüssig, und der Ton folgt dem Bild.
Text-zu-Video und Bild-zu-Video
LTX-2.3 unterstützt zwei Einstiegspunkte, und tendre.AI nutzt beide:
- Text-zu-Video: Beschreibe die Szene, erhalte einen Clip mit Ton.
- Bild-zu-Video: Starte von einem Standbild, das du bereits lokal in tendre.AI generiert hast, und animiere es. Der erste Frame ist dein Bild, sodass der Charakter und der Stil, den du festgelegt hast (mit einem LoRA oder einem festen Seed), direkt in das Video übernommen werden.
Bild-zu-Video ist es, was den Workflow "ein Tool für Bild und Video" Wirklichkeit werden lässt: Das Bild, das du liebst, wird zum Eröffnungsframe des Clips, gleiche Gesicht, gleicher Look.
Auflösung: 1080p für die Entwicklung, 4K für das Finale
Dasselbe Modell zielt auf mehrere Auflösungen ab. In der Praxis ergibt das einen sauberen Workflow:
- 1080p (Full HD) für die Entwicklung: Schnell genug, um einen Prompt auszuprobieren, das Ergebnis zu hören, anzupassen und erneut zu generieren.
- 4K (Ultra HD) für finale Renders: Viermal so viele Pixel, für große Bildschirme oder um in der Nachbearbeitung zu croppen und zu stabilisieren.
Du entwirfst in 1080p, legst den Shot fest (Bewegung, Bildausschnitt, Audio), und renderst das fertige Ergebnis in 4K, ohne zwischen Entwurf und Lieferung das Tool zu wechseln.
Effizienz ist der entscheidende Punkt
Die LTX-Linie ist bekannt dafür, schnell für ihre Qualität zu sein. Diese Effizienz ist keine leere Metrik: Sie macht schnelle 1080p-Entwürfe und 4K-Finals auf Abruf praktikabel, statt sie zu Aufgaben zu machen, die die Nacht dauern. Ein Modell, das effizient genug zum Iterieren ist, verändert die Arbeitsweise grundlegend: Du probierst mehr Takes aus, weil jeder einzelne zeitlich günstig ist.
Wie tendre.AI LTX-2.3 integriert
tendre.AI wendet seine übliche Regel an: lokal zuerst, Cloud nur für den schweren Rechenaufwand, den du dir aussuchst.
- Bilder bleiben 100% lokal. Jedes Standbild wird auf deiner eigenen GPU generiert, nichts wird hochgeladen.
- LTX-2.3-Video läuft auf einer Cloud-GPU, auf Abruf. Synchronisiertes Audio und besonders 4K sind rechenintensiv, deshalb laufen sie auf einer Remote-GPU und werden pro Clip in Credits abgerechnet. Es ist opt-in: Wenn du nur Bilder generierst, ändert sich an deinem privaten lokalen Workflow nichts.
- Gleiche Charaktere in beiden Bereichen. Da Video von deinen lokalen Standbildern ausgeht, wird die Identität, die du aufgebaut hast, in den Clip übernommen.
Migrationshinweis: tendre.AI integriert LTX-2.3 aktiv in die App. Video mit Ton, 1080p-Entwicklung und 4K-Finishing werden schrittweise verfügbar, während die Migration abgeschlossen wird. Der lokale Bild-Workflow ist davon nicht betroffen.
Die Inhaltsgrenze gilt weiterhin
LTX-2.3 ändert nichts an der klaren Regel von tendre.AI. Alles Generierte ist 100% synthetisch: Es wird keine echte Person dargestellt, und jedes Motiv ist eindeutig erwachsen. Das Modell ist ein Werkzeug für fiktionale, erwachsene, KI-generierte Inhalte, und nichts anderes.
LTX-2.3 bringt synchronisiertes Audio und Video in 1080p und 4K, aufbauend auf einem 100% lokalen Bild-Workflow. Ein Tool für Bild und Video, kein Abonnement.








