Como Escrever um Bom Prompt para LTX-2.3 (Vídeo com Som)

Criar prompts para um modelo de vídeo não é o mesmo que criar prompts para um modelo de imagem. Com SDXL descreves um momento congelado. Com o LTX-2.3 descreves um plano em movimento com som, por isso duas coisas que nunca escreveste antes passam a ser essenciais: movimento e áudio. Acerta nesses dois pontos e os teus clips parecem intencionais; ignora-os e ficas com uma apresentação de slides rígida e silenciosa. Este guia mostra-te como escrever prompts LTX-2.3 que realmente se movem e soam bem.

O erro que tens de evitar: escrever prompts como se fossem de imagem

O erro mais comum de quem está a começar é descrever uma cena em vez de um plano. "Uma mulher de vestido vermelho numa cafetaria" é um prompt de imagem. O LTX-2.3 vai renderizar algo, mas sem uma indicação de movimento tem de adivinhar, e normalmente adivinha pouco (um ligeiro movimento de cabeça, um tremido). Ficas com um clip quase estático.

Resolve isto respondendo sempre a três perguntas que o modelo não consegue inferir a partir de uma descrição estática:

O que se move? (o sujeito, a câmara ou ambos)
Como se comporta a câmara? (estática, panorâmica, dolly, à mão)
O que se ouve? (ambiente, voz, efeitos)

Uma fórmula de prompt que funciona

Pensa num prompt LTX-2.3 como tendo seis slots. Não precisas de preencher os seis em cada prompt, mas quanto mais preencheres, mais controlo tens:

Sujeito + Ação/Movimento + Câmara + Cenário/Iluminação + Estilo + Áudio

Exemplo, slot a slot:

Uma jovem de vestido vermelho (sujeito) vira-se para a câmara e sorri (ação), dolly lento a aproximar (câmara), luz quente da hora dourada a entrar pela janela (cenário/iluminação), cinemático, profundidade de campo reduzida (estilo), tom de sala suave com um ligeiro crepitar de vinil (áudio).

Essa única frase diz ao LTX-2.3 o que acontece, como é filmado e como soa. É isso que tens de fazer.

Descreve o movimento com verbos

O movimento vive nos verbos. Prompts fracos estão cheios de substantivos e adjetivos; prompts fortes acrescentam palavras de ação: vira-se, caminha, inclina-se, estende a mão, mexe a cabeça, olha de relance, respira, balança, flutua. Limita-te a uma ação clara por clip curto. Um plano de 5 segundos não consegue mostrar "ela levanta-se, vai até à janela, abre-a e acende um cigarro", isso são quatro planos. Pede um momento, captura-o, depois gera o próximo.

Fala a linguagem da câmara

O LTX-2.3 percebe termos cinematográficos. Usa-os para controlar o enquadramento:

Tamanho do plano: grande plano, plano médio, plano geral.
Movimento de câmara: plano estático, panorâmica lenta para a esquerda, dolly a aproximar, travelling, câmara à mão.
Sensação: fixo e estável, ou ligeiro balanço de câmara à mão para mais realismo.

"Plano estático, grande plano" é um clip completamente diferente de "câmara à mão em travelling, plano geral", mesmo com o mesmo sujeito. Decide a câmara com intenção.

Escreve o som, este é o superpoder do LTX-2.3

Como o LTX-2.3 gera imagem e som em simultâneo, podes escrever o áudio diretamente, e deves fazê-lo. Três camadas a considerar:

Ambiente / tom de sala: "tom de sala silencioso", "chuva numa janela", "trânsito da cidade ao longe", "ondas".
Voz / diálogo: descreve a forma de falar ("um sussurro suave", "uma gargalhada calorosa") em vez das palavras exatas, se quiseres algo natural.
Efeitos: "passos em madeira", "uma porta range", "crepitar de vinil", "uma brisa suave".

Se não disseres nada sobre o áudio, o LTX-2.3 preenche por conta própria, e pode não corresponder ao ambiente que querias. Uma frase curta sobre o áudio normalmente chega para o orientar.

Texto para vídeo vs imagem para vídeo

Os dois pontos de entrada pedem prompts ligeiramente diferentes:

Texto para vídeo: describes tudo, incluindo o sujeito. Usa a fórmula completa com os seis slots.
Imagem para vídeo (recomendado no tendre.AI): a tua imagem estática já define o sujeito, o aspeto e o enquadramento. Por isso, mantém a descrição do sujeito curta e gasta as palavras no movimento e no áudio que queres acrescentar. Exemplo sobre um retrato existente: "ela inclina lentamente a cabeça, o cabelo move-se com uma brisa suave, sorriso subtil, câmara estática, respiração suave e ambiente de cidade ao longe". Estás a animar, não a redescrever.

A imagem para vídeo é o ponto ideal: a personagem que criaste localmente (com um LoRA ou uma seed fixa) passa diretamente para o clip, mesma face, mesmo estilo.

Itera a 1080p, termina a 4K

Os prompts encontram-se, não se escrevem de uma vez. Faz rascunhos a 1080p para que cada tentativa seja rápida: corre, vê e ouve, muda uma coisa (um movimento de câmara mais forte, uma indicação de áudio mais clara), corre novamente. Quando o plano ficar bom, volta a renderizar o melhor a 4K. Muda uma variável de cada vez para saberes o que realmente ajudou.

Dois exemplos que podes adaptar

Texto para vídeo, cinemático:

Plano médio de uma mulher junto a uma janela com gotas de chuva, ela vira lentamente a cabeça para a câmara e sorri, dolly lento a aproximar, luz azul e sombria do final do dia, grão de filme cinemático, chuva suave no vidro e um zumbido ambiente baixo.

Imagem para vídeo, a partir de uma imagem local:

Ela respira suavemente e pisca os olhos, algumas madeixas de cabelo flutuam com uma brisa suave, câmara estática e fixа, profundidade de campo reduzida mantida, tom de sala silencioso com um ligeiro tique-taque de relógio.

Os dois são curtos, nomeiam uma ação clara, definem a câmara e dão uma instrução ao som. Este é o padrão.

O que fazer e o que não fazer

Faz o que for preciso para nomear uma ação, um comportamento de câmara e uma ideia de áudio.
Usa palavras cinematográficas (grande plano, dolly a aproximar, câmara à mão).
Não acumules quatro ações num clip de 5 segundos.
Não deixes o áudio em branco se o ambiente for importante.
Não redescreves o sujeito em imagem para vídeo, anima-o.

Como isto se integra no tendre.AI

No tendre.AI, as imagens ficam 100% locais na tua própria GPU. O vídeo LTX-2.3 corre numa GPU cloud a pedido, cobrado por clip em créditos, por isso creates imagens de forma privada e só gastas créditos quando animas um resultado que vale a pena. Como o vídeo parte da tua imagem local, a personagem que criaste passa para o clip, mesma face, mesmo aspeto, agora com movimento e som.

Tudo o que é gerado é 100% sintético: nenhuma pessoa real é retratada, e todos os sujeitos são inequivocamente adultos.

Transforma as tuas imagens em vídeo com som

Escreve o movimento, escreve o som, e deixa o LTX-2.3 animar a imagem estática que geraste localmente. 1080p para iterar, 4K para terminar, sem subscrição.

Descarregar tendre.AI Ver preços