Cómo escribir un buen prompt para LTX-2.3 (video con sonido)

2 de julio de 2026

Escribir prompts para un modelo de video no es lo mismo que escribirlos para un modelo de imagen. Con SDXL describes un momento congelado. Con LTX-2.3 describes un plano en movimiento con sonido, así que dos cosas que nunca habías tenido que escribir de repente importan: el movimiento y el audio. Si los manejas bien, tus clips tienen intención; si los ignoras, obtienes una presentación rígida y silenciosa. Esta guía te muestra cómo escribir prompts para LTX-2.3 que realmente se muevan y suenen como quieres.

El error que debes evitar: escribir prompts como si fueran de imagen

El error más común entre principiantes es describir una escena en lugar de un plano. "Una mujer con un vestido rojo en una cafetería" es un prompt de imagen. LTX-2.3 renderizará algo, pero sin una indicación de movimiento tendrá que adivinar, y normalmente adivina poco (un pequeño giro de cabeza, un parpadeo). El resultado es un clip casi estático.

Para solucionarlo, responde siempre tres preguntas que el modelo no puede deducir de una descripción estática:

  • ¿Qué se mueve? (el sujeto, la cámara o ambos)
  • ¿Cómo se comporta la cámara? (estática, paneo, dolly, cámara en mano)
  • ¿Qué se escucha? (ambiente, voz, efectos)

Una fórmula de prompt que funciona

Piensa en un prompt de LTX-2.3 como seis bloques. No necesitas usarlos todos cada vez, pero cuantos más rellenes, más control tienes:

Sujeto + Acción/Movimiento + Cámara + Escenario/Iluminación + Estilo + Audio

Ejemplo, bloque a bloque:

Una chica joven con un vestido rojo (sujeto) se gira hacia la cámara y sonríe (acción), dolly-in lento (cámara), luz cálida de hora dorada entrando por una ventana (escenario/iluminación), cinematográfico, poca profundidad de campo (estilo), tono de sala suave con un leve crujido de vinilo (audio).

Esa única frase le dice a LTX-2.3 qué ocurre, cómo está filmado y cómo suena. Eso es todo lo que necesita.

Describe el movimiento con verbos

El movimiento vive en los verbos. Los prompts débiles están llenos de sustantivos y adjetivos; los prompts fuertes añaden palabras de acción: se gira, camina, se inclina, alcanza, ladea, mira, respira, se mece, flota. Limítate a una acción clara por clip corto. Un plano de 5 segundos no puede mostrar "se levanta, camina hasta la ventana, la abre y enciende un cigarrillo", eso son cuatro planos. Pide un solo momento, consíguelo, y luego genera el siguiente.

Habla el idioma de la cámara

LTX-2.3 entiende los términos cinematográficos. Úsalos para controlar el encuadre:

  • Tamaño del plano: primer plano, plano medio, plano general.
  • Movimiento de cámara: plano estático, paneo lento a la izquierda, dolly-in, travelling, cámara en mano.
  • Sensación: fijo y estable, o ligero vaivén de cámara en mano para más realismo.

"Plano estático, primer plano" es un clip completamente distinto de "travelling en mano, plano general", aunque el sujeto sea el mismo. Decide la cámara con intención.

Escribe el sonido, es el superpoder de LTX-2.3

Como LTX-2.3 genera imagen y sonido juntos, puedes escribir el audio directamente, y deberías hacerlo. Tres capas a tener en cuenta:

  • Ambiente / tono de sala: "tono de sala tranquilo", "lluvia en una ventana", "tráfico lejano de ciudad", "olas".
  • Voz / diálogo: describe la forma de hablar ("un susurro suave", "una carcajada cálida") en lugar de palabras exactas si quieres que suene natural.
  • Efectos: "pasos sobre madera", "una puerta que cruje", "crujido de vinilo", "una brisa suave".

Si no dices nada sobre el audio, LTX-2.3 lo rellena por su cuenta, y puede que no encaje con el ambiente que querías. Una frase de audio corta suele ser suficiente para guiarlo.

Texto a video vs imagen a video

Los dos puntos de entrada requieren prompts ligeramente distintos:

  • Texto a video: describes todo, incluido el sujeto. Usa la fórmula completa de seis bloques.
  • Imagen a video (recomendado en tendre.AI): tu imagen ya define el sujeto, el aspecto y el encuadre. Así que mantén la descripción del sujeto ligera y dedica tus palabras al movimiento y el audio que quieres añadir. Ejemplo sobre un retrato existente: "ladea la cabeza lentamente, el pelo se mueve con una brisa suave, sonrisa sutil, cámara estática, respiración suave y ambiente lejano de ciudad". Estás animando, no volviendo a describir.

La imagen a video es el punto óptimo: el personaje que creaste localmente (con un LoRA o una semilla fija) pasa directamente al clip, misma cara, mismo estilo.

Itera a 1080p, termina en 4K

Los prompts se descubren, no se escriben de golpe. Empieza a 1080p para que cada intento sea rápido: ejecútalo, míralo y escúchalo, cambia una sola cosa (un movimiento de cámara más fuerte, una indicación de audio más clara), vuelve a ejecutar. Cuando el plano funcione, renderiza el definitivo en 4K. Cambia una variable a la vez para saber qué fue lo que realmente ayudó.

Dos ejemplos que puedes adaptar

Texto a video, cinematográfico:

Plano medio de una mujer junto a una ventana con gotas de lluvia, gira la cabeza lentamente hacia la cámara y sonríe, dolly-in lento, luz de tarde azulada y misteriosa, grano de película cinematográfico, lluvia suave sobre el cristal y un zumbido ambiente bajo.

Imagen a video, desde una imagen local:

Respira con suavidad y parpadea, algunos mechones de pelo flotan con una brisa ligera, cámara estática fija, poca profundidad de campo preservada, tono de sala tranquilo con un leve tic-tac de reloj.

Ambos son cortos, nombran una acción clara, fijan la cámara y dan al sonido una instrucción. Ese es el patrón.

Lo que debes y no debes hacer

  • Hazlo nombra una acción, un comportamiento de cámara, una idea de audio.
  • Hazlo usa términos cinematográficos (primer plano, dolly-in, cámara en mano).
  • No lo hagas apiles cuatro acciones en un clip de 5 segundos.
  • No lo hagas dejes el audio en blanco si el ambiente importa.
  • No lo hagas vuelvas a describir el sujeto en imagen a video, anímalo.

Cómo encaja esto en tendre.AI

En tendre.AI, las imágenes se mantienen 100% locales en tu propia GPU. El video de LTX-2.3 se ejecuta en una GPU en la nube bajo demanda, con coste por clip en créditos, así que creas tus imágenes en privado y solo gastas créditos cuando animas una que te convence. Como el video parte de tu imagen local, el personaje que creaste pasa al clip tal cual, misma cara, mismo aspecto, ahora con movimiento y sonido.

Todo lo que se genera es 100% sintético: no se representa a ninguna persona real, y todos los sujetos son inconfundiblemente adultos.

Convierte tus imágenes en video con sonido

Escribe el movimiento, escribe el sonido y deja que LTX-2.3 anime la imagen que generaste localmente. A 1080p para iterar, en 4K para terminar, sin suscripción.

AI-generated portrait by tendre.AI (Exterior)AI-generated portrait by tendre.AI (Exterior)AI-generated portrait by tendre.AI (Exterior)AI-generated portrait by tendre.AI (Exterior)AI-generated portrait by tendre.AI (University)AI-generated portrait by tendre.AI (Exterior)AI-generated portrait by tendre.AI (Library)