Agora mesmo, o rei dos vídeos de IA tem uma grande atualização! Contra Sora, Will Smith come macarrão com mais sabor

A OpenAI lançou recentemente o modelo de geração de vídeo Sora 2 com grande impulso. Logo em seguida, o Veo 3.1 do Google também inaugurou uma grande atualização hoje.

Especificamente, a atualização do Google desta vez inclui dois níveis.

Primeiro, a funcionalidade foi aprimorada . A função de edição de vídeo foi aprimorada, e os usuários agora podem fazer ajustes mais detalhados nos clipes e ter um controle mais preciso sobre a imagem final.

Mais importante ainda, pela primeira vez, o Google adicionou áudio aos recursos "Ingredientes para vídeo", "Quadros para vídeo" e "Estender", tornando o áudio parte do processo criativo.

O segundo é o progresso no nível do modelo.

O Veo 3.1 lançado hoje apresentou melhorias significativas em dois indicadores principais: compreensão de palavras-chave e qualidade audiovisual, tornando a conversão de imagem para vídeo mais natural e suave.

Leitura relacionada  O novo rei dos vídeos de IA é uma sensação global, e Will Smith finalmente pode comer macarrão direito (com muitas demonstrações do mundo real)

Como todos sabemos, o Veo 3 já tem muitos recursos de edição: ele pode orientar a geração de personagens por meio de imagens de referência, preencher o conteúdo do meio com os dois primeiros e últimos quadros e continuar a expandir com base no final do vídeo.

O Veo 3.1 adiciona suporte de áudio a todos esses recursos existentes, permitindo que os usuários criem cenários mais completos. Esses recursos ainda estão em fase experimental, e o Google afirma que continuará otimizando e iterando com base no feedback dos usuários.

Agora os usuários podem usar esses recursos assim:

1. Use várias imagens de referência para definir personagens, objetos e estilo, e a função "Material para Vídeo" gerará a cena final com base nesses materiais.

2. Como alternativa, você pode fornecer um quadro inicial e final e deixar a função "Quadro para Vídeo" gerar uma transição perfeita no meio, o que é especialmente útil para projetos que exigem transições artísticas.

3. Se você quiser gerar um vídeo mais longo, a função "Estender" pode gerar conteúdo com mais de um minuto, continuando a gerar com base no parágrafo anterior para manter a continuidade da história.

Vale a pena mencionar que a conversão de texto para vídeo do Veo 3 anteriormente suportava apenas saída de tela horizontal de 720p, mas como o vídeo em tela vertical se tornou o formato principal para conteúdo da Internet, o Veo 3.1 agora também pode gerar vídeos horizontais e verticais 16:9, o que está mais de acordo com os hábitos atuais de consumo de conteúdo.
Refinar a criatividade muitas vezes requer iterações repetidas.

Desde o lançamento do Flow em maio deste ano, os usuários criaram mais de 275 milhões de vídeos no aplicativo. Levando em consideração o feedback dos usuários, os dois novos recursos de edição do Flow foram criados para esse propósito:

"Inserir novos elementos" permite que os usuários adicionem conteúdo a qualquer momento, e o Flow manipula automaticamente sombras e iluminação, fazendo com que as novas partes se misturem naturalmente à imagem original;

O recurso "Remover Objeto" (em breve) pode remover elementos desnecessários, e o Flow reconstrói automaticamente o fundo para manter a consistência. A combinação dessas duas ferramentas torna o processo de edição de vídeo mais flexível.

O modelo Veo 3.1 já está disponível para desenvolvedores por meio da API Gemini, usuários corporativos por meio do Vertex AI e usuários comuns por meio do aplicativo Gemini. Novos recursos também estão disponíveis na API Gemini e no Vertex AI.

Experimentamos e geramos 3 dos cenários de aplicação mais práticos do Veo.

A viagem no tempo em primeira pessoa, o corte de frutas com ASMR, o monitoramento de visão noturna de metal em um trampolim de coelho e outros vídeos que viralizaram há algum tempo foram todos gerados usando o Veo 3.

▲Gerado pelo Veo 3, palavra-chave: câmera de 50 mm, close-up de um limão feito de vidro amarelado sendo fatiado horizontalmente sobre uma tábua de madeira. O interior da fruta também é de vidro, com um pouco de glitter derretido. Toda a cena é suavemente iluminada a partir da imagem acima.

Por exemplo, neste exemplo de geração de um limão de vidro, o prompt requer "um limão feito de vidro amarelo, cortado horizontalmente, com um interior de vidro e glitter derretido dentro, e suavemente iluminado por cima".

A saída do Veo 3 é utilizável, mas o Veo 3.1 renderiza o "brilho derretido" com maior precisão.

No cenário de e-commerce, pedimos diretamente para gerar um anúncio de produto. Lembre-se: um comercial de TV típico dura apenas de 15 a 30 segundos para transmitir informações da marca.

Gerado por Sora 2. Prompt: Crie um anúncio de e-commerce com base nas seguintes informações do produto, incluindo uma exibição realista do produto, detalhes de rotação 3D, comparação de cenários de uso e legendas. Smartwatch X2, bateria com duração de 7 dias, ¥ 1.299. Smartwatch, resistência à água de 50 metros, monitoramento de saúde (ECG, sono)

O Sora 2 oferece explicações em áudio em chinês sobre as informações do produto, demonstrando uma melhor compreensão. O Veo 3.1, por outro lado, oferece apenas música, o que não é tão completo quanto o Sora 2. No entanto, a julgar pela qualidade da imagem, a apresentação visual do Veo 3.1 é mais avançada e comercial.

▲Gerado pelo Veo 3.1

Também testamos a geração de anime e, dessa vez, o desempenho do Veo 3.1 foi mediano.

▲Gerado por Sora 2, prompt: No estilo de animação do Studio Ghibli, um menino e seu cachorro correm por uma colina gramada pitoresca. Uma vila pode ser vista ao fundo, e belas nuvens flutuam no céu.

Claramente, os dados de treinamento do Veo 3.1 não são ricos o suficiente nessa área e ainda ficam muito aquém do estilo de animação sofisticado do Studio Ghibli. O cachorro que desaparece inexplicavelmente é um exemplo clássico de erro de IA.

▲Gerado pelo Veo 3.1

X A demonstração do teste de comer macarrão de Will Smith compartilhada pelo internauta @aisearchio elevou a textura geral a um nível mais alto, com suavidade de movimento significativamente melhorada, detalhes de luz e sombra e expressões ricas sem colapso.

No geral, o Veo 3.1 é suficientemente utilizável para gerar conteúdo com qualidade fotográfica e de nível comercial, e sua capacidade de interpretar detalhes melhorou significativamente. No entanto, ainda há espaço considerável para melhorias na reprodução precisa de estilos específicos, como animação e ilustração, que exigem restrições de estilo rigorosas.
No entanto, do Veo 3 ao Veo 3.1 e do Sora ao Sora 2, a velocidade de iteração dos modelos de geração de vídeo excedeu a imaginação da maioria das pessoas.

À medida que essas ferramentas de geração de vídeo de IA evoluem gradualmente de ferramentas profissionais para aplicações em massa, cada conteúdo em seu círculo de amigos, plataformas de vídeos curtos e até mesmo fontes de notícias pode ser gerado por IA.

Isso também significa que cada conteúdo que você vê no futuro exigirá uma etapa extra de confirmação, seja ele proveniente de filmagens reais ou de geração de IA.

Autor: Mo Chongyu

Link do vídeo no artigo: https://mp.weixin.qq.com/s/qBOkoWaGF5k7oPCR_H5aqA

#Bem-vindo a seguir a conta pública oficial do WeChat do iFaner: iFaner (ID do WeChat: ifanr), onde mais conteúdo interessante será apresentado a você o mais breve possível.

iFanr | Link original · Ver comentários · Sina Weibo