Testes práticos do Seedance 1.5 Pro: Nezha e Judy apresentam performances excepcionais, recriando cenas icônicas; diálogos e efeitos sonoros com IA significativamente aprimorados.

Ultimamente, surgiram muitas novas maneiras de usar vídeos com IA, assim como as imagens brutas geradas por IA que se popularizaram no primeiro semestre do ano.

▲ Fonte do vídeo: https://x.com/pabloprompt/status/2000706593579573301/

Vídeos de bastidores gerados por IA, que já eram populares antes, estão se tornando uma grande tendência nas redes sociais novamente, à medida que as capacidades do modelo melhoram.

No entanto, abandona completamente o fluxo de trabalho complicado anterior, possui um modelo mais amigável ao usuário e pode até mesmo replicar com apenas alguns comandos simples, atingindo o mesmo nível de realismo do vídeo.

A otimização dos modelos de geração de vídeo está constantemente reduzindo a dependência de nossas instruções humanas, ao mesmo tempo que proporciona maior consistência e estabilidade.

A Doubao atualizou recentemente seu modelo de geração de áudio e vídeo para uma nova geração, o Doubao Seedance 1.5 Pro, que aprimorou significativamente a geração de áudio e vídeo. Os vídeos gerados agora suportam diferentes sons e rimas em idiomas como chinês, inglês, japonês, coreano e espanhol. Além disso, para cenários em chinês, também pode gerar dialetos como o sichuanês e o cantonês.

Ele não só consegue falar, como também imitar sotaques de diferentes idiomas. Os vídeos audiovisuais representam um grande avanço para o Seedance 1.5 Pro. Em termos de geração de vídeo em si, ele combina a sincronização audiovisual com movimentos de câmera cinematográficos para tornar os vídeos de IA mais realistas e detalhados.

O modelo já está disponível no aplicativo Doubao. Basta abrir o Doubao, clicar em "Animar Fotos", selecionar o modelo 1.5 Pro e você poderá experimentar a maravilha dos vídeos gerados por IA. A experiência também pode ser vista no Volcano Engine Experience Center e no Jimeng AI.

Também realizamos alguns testes prévios, e o Seedance 1.5 Pro é definitivamente o melhor modelo de geração de vídeo que temos disponível no momento, capaz de ser usado diretamente e de integrar som simultaneamente.

Ouça a versão original de "I can't do it, Your Majesty".

Antes do lançamento de *Zootopia 2*, houve muita controvérsia entre os internautas em relação à escolha dos dubladores. Para ver o quão impressionante é a geração de voz do Seedance 1.5 Pro, podemos conferir o trabalho de dublagem de dois vídeos populares online: *Empresses in the Palace* e *Let the Bullets Fly*.

Encontramos uma captura de tela de um filme ou programa de TV online e enviamos para o Doubao. Nem precisamos inserir nenhuma instrução, e ele conseguiu reconhecer automaticamente a filmagem e gerar uma cena de diálogo com emoção.

▲No aplicativo Doubao, use o recurso "Animar Fotos" para enviar o primeiro quadro e gerar um vídeo.

A Imperatriz e Zhang Mazi foram retratadas de forma tão convincente que isso está em um nível completamente diferente em comparação com o modelo de geração de vídeo de alguns meses atrás. Problemas como movimentos labiais desalinhados ou vozes mecânicas em vídeos anteriores de IA foram agora resolvidos.

Mas o mandarim é apenas o básico para ele; o verdadeiro segredo do desempenho superior do Seedance 1.5 Pro em dialetos reside em sua capacidade de superar modelos estrangeiros. Assim como o Sora 2 e o Google Veo 3.1, embora considerados líderes do setor em geração de imagens, se você mostrasse a eles as duas primeiras imagens acima, nem o Sora nem o Veo 3 conseguiriam entender as falas clássicas de "Imperatrizes no Palácio" ou o dialeto fluente de Sichuan de Zhang Mazi.

Os Jogos Nacionais acabaram de terminar. Se você esteve em Guangzhou, com certeza se lembrará do slogan cativante: "Grande Baía Vibrante, Nova Guangzhou Encantadora". Geramos uma foto de alguém em frente à Torre de Cantão e, em seguida, inserimos uma solicitação no recurso "Animar Fotos" do Doubao.

O jovem no vídeo está de frente para a câmera, apresentando a Torre de Cantão atrás dele. Ele diz em cantonês: "A vibrante Grande Baía, a encantadora e nova Guangzhou, essa é a Torre de Cantão atrás de mim!"

Que tal esse nível de cantonês? Comparado com o conjunto de quatro dim sum do Duolingo — bolinhos de camarão, rolinhos primavera de macarrão de arroz, siu mai e costelinha com molho de feijão preto — não parece um pouco mais apetitoso?

Além disso, o Seedance 1.5 Pro tem a vantagem da "consistência audiovisual", o que significa que ele consegue entender a história que o vídeo quer contar com base no conteúdo da imagem e gerar automaticamente a narração correspondente.

Por exemplo, ao carregarmos uma foto que obviamente seja de um estrangeiro, sem inserir nenhuma instrução, o sistema usará automaticamente o inglês para fornecer a narração e fará com que o personagem na foto diga as falas apropriadas.

Mesmo quando Will Smith estava comendo macarrão em um restaurante chinês, o Seedance 1.5 Pro automaticamente o fez falar em inglês, e sua postura ao comer macarrão estava completamente correta.

Da mesma forma, usamos a ferramenta para recriar um vídeo de bastidores gerado por IA. Simplesmente enviamos uma foto para o Doubao sem inserir nenhuma instrução, e o sistema gerou automaticamente um vídeo em chinês, com diálogos como: "Uau, consegui uma foto com um avatar!"

Ao gerar o vídeo novamente, o Seedance 1.5 Pro também identificou o rapaz da foto como coreano e gerou um vídeo dele falando coreano. Para ser sincera, ele tem um quê de "oppa" coreano.

Uma das grandes vantagens do gerador de vídeos Doubao é a possibilidade de baixar o vídeo gerado diretamente como um GIF animado e salvá-lo em nossos celulares . Combinando isso com os recursos de compreensão multimodal mais avançados dos modelos atuais e a capacidade de gerar imagens mais realistas, podemos fazer com que essas imagens estáticas em nossos celulares se movam de forma "realista" e, em seguida, publicá-las no WeChat Moments. Algumas pessoas podem realmente não notar a diferença.

Fotos gigantes geradas por IA combinadas com movimentos de câmera de drones — isso é incrível!

Narrativa é uma palavra-chave na atualização Seedance 1.5 Pro. Isso significa que esses vídeos gerados por IA não são apenas gerados, mas possuem um certo senso de história e conseguem compreender o conteúdo a ser expresso, tornando os vídeos gerados por IA mais parecidos com obras feitas com pessoas reais.

Uma boa produção de vídeo exige excelente iluminação, cor e efeitos sonoros. O trabalho técnico também é essencial; o movimento de câmera, além dos elementos audiovisuais, é parte indispensável da linguagem visual.

Nesta atualização, o Seedance 1.5 Pro apresenta melhorias significativas em técnicas de câmera cinematográficas, como rastreamento de planos longos e zoom estilo Hitchcock.

Assim como o efeito de câmera lenta que criamos anteriormente, agora você pode enviar uma imagem para o Doubao, ajustar as configurações e o efeito de câmera lenta também é totalmente personalizável.

▲Indícios: Efeito Bullet Time. O tempo está completamente congelado. A dançarina está suspensa no ar, desafiando a gravidade. [Cena Congelada]: A dançarina, seu cabelo e seu vestido azul estão absolutamente imóveis, como uma estátua 3D congelada no tempo. A câmera se move horizontalmente ao redor da dançarina suspensa. Os prédios ao fundo mudam de perspectiva (paralaxe), enquanto a dançarina permanece fixa no centro. O cabelo permanece rígido e aponta para cima, sem ondular. O tecido do vestido é sólido e congelado no lugar. Iluminação cinematográfica de alta qualidade.

Ao processarmos a mesma foto com o Veo 3.1, o programa tem dificuldades em manter a personagem completamente imóvel no modo bullet time gerado. Isso ocorre porque a maioria dos modelos de geração de vídeo exige o reconhecimento do cabelo para indicar movimento e da barra da saia para indicar o balanço. Portanto, o controle preciso do movimento da câmera e o agendamento são recursos cruciais que diferenciam os diversos modelos.

E tem também aquela foto gigante feita por IA que viralizou há um tempo. Agora também podemos usar drones com movimentos de câmera e técnicas de sobrevoo incríveis para destacar o gigante no vídeo.

▲Palavras-chave: Imagens cinematográficas em primeira pessoa com drone, movimento de câmera ultradinâmico: Começando com uma visão aérea em alta altitude, o drone mergulha rapidamente em direção a um gigante sentado no meio de uma rua da cidade, cercado por prédios de tijolos vermelhos. O gigante permanece completamente imóvel, seu corpo, cabeça e membros imóveis, congelados como uma escultura. O drone realiza manobras acrobáticas de voo ao redor do corpo estático do gigante — circulando suas pernas, passando por baixo de seus braços, espiralando para cima ao longo de seu torso e, em seguida, afastando o zoom para mostrar o contraste de tamanho entre o gigante e os pequenos veículos (um ônibus vermelho de dois andares, um táxi preto) e pedestres. Composição hiper-realista. Proporção de aspecto 16:9, 5 segundos de duração, modelo 1.5 Pro.

Converter imagens de referência em vídeo permite um melhor controle sobre a qualidade da saída. No entanto, os recursos de conversão de imagem para vídeo do Seedance 1.5 Pro são igualmente impressionantes.

De acordo com os resultados de desempenho do modelo Seedance 1.5 Pro divulgados publicamente pela ByteDance no teste de benchmark interno SeedVideoBench-1.5, tanto na conversão de texto para vídeo (T2V) quanto na conversão do primeiro quadro para vídeo (I2V), o Seedance 1.5 Pro apresenta certas vantagens em relação a modelos como o Keling 2.6 e o ​​Google Veo 3.1.

Principalmente na geração de áudio e na sincronização audiovisual, o Seedance 1.5 Pro é quase que esmagadoramente superior.

Tentamos fazer com que Judy, de Zootopia, e Nezha apresentassem uma esquete de 10 segundos juntos, um falando mandarim e o outro o dialeto de Sichuan.

▲ Palavras-chave: [0s-4s] Judy aponta para Nezha e diz (mandarim, ritmo acelerado, sério): "Ei, garoto! Pare! Mãos atrás da cabeça! De acordo com a Lei de Trânsito de Zootopia, você estava em alta velocidade com suas Rodas de Fogo e Vento!" • [5s-10s] Nezha (dialeto de Sichuan, revirando os olhos, ritmo lento, arrastado): "Ei, não me toque! Eu estava pilotando minhas Rodas de Fogo e Vento, eu não queimei seu combustível. Sua pirralha, cuide da sua vida!"

O estilo e o conteúdo deste vídeo são muito semelhantes ao estilo dos desenhos animados que costumamos assistir. Quando a íntegra e severa Oficial Judy Hopps captura Nezha, sua expressão e tom sérios, e até mesmo as falas de Nezha no dialeto de Sichuan, combinam perfeitamente com os movimentos dos lábios.

A APPSO testou mais de dez modelos de geração de vídeo por IA este ano. Durante o processo de utilização desses modelos, descobrimos que muitos dos casos de teste anteriores já estão desatualizados.

No início, mesmo quando Lu Xun aparecia, tínhamos que fazê-lo dizer algumas palavras em inglês; ficávamos gratos se conseguíssemos gerar um vídeo fluido de 5 segundos. Agora, o modelo não só suporta vários idiomas, como chinês, inglês, japonês e coreano, mas também consegue gerar dialetos distintos, como cantonês e sichuanês, simultaneamente.

De repente, a evolução do vídeo com IA passou de ser medida em anos para ser medida em meses. O que era um avanço ontem, hoje é apenas uma nota de aprovação.

▲ Captura de tela do estudo de caso do Seedance 1.5 Pro | Fonte: Site oficial do Seedance da ByteDance

Esta atualização do Seedance 1.5 Pro pode se tornar o novo padrão de aprovação. Mas pelo menos agora vemos vídeos mais envolventes com áudio e vídeo sincronizados; o suporte a vários idiomas e dialetos torna os vídeos de IA mais "realistas"; e a cinematografia profissional e os recursos de compreensão inteligente permitem que a IA gere até mesmo cenas altamente complexas.

Quando a tecnologia for capaz de entender a história por trás de uma imagem e combinar automaticamente a linguagem e as emoções apropriadas, estaremos um passo mais perto de uma era de imaginação e liberdade criativa.

O que é necessário para tornar tudo isso possível? Uma imagem ou uma sugestão.

Abra o aplicativo Doubao, faça o upload/insira o conteúdo e gere a imagem — é simples assim. Cada foto conta uma história que está esperando para ser contada, e cada upload marca o início da criação.

Quanto menos etapas, menor a barreira de entrada e maior o número de criadores — é assim que o vídeo com inteligência artificial deve ser usado para concretizar ideias criativas.

O vídeo mencionado no artigo pode ser visualizado clicando neste link: https://mp.weixin.qq.com/s/em_E90Q7AdydHsNwVkAMTQ

#Siga a conta oficial do iFanr no WeChat: iFanr (ID do WeChat: ifanr), onde você encontrará conteúdo ainda mais interessante o mais breve possível.

ifanr | Link original · Ver comentários · Sina Weibo