O Google contra-ataca com uma resposta ao lançamento do Sora da OpenAI

Veo 2 no VideoFX
Google DeepMind

A divisão DeepMind do Google revelou seu modelo de geração de vídeo Veo de segunda geração na segunda-feira, que pode criar clipes de até dois minutos de duração e em resoluções que atingem qualidade 4K – isso é seis vezes a duração e quatro vezes a resolução dos clipes de 20 segundos/1080p. Sora pode gerar.

Claro, esses são os limites superiores teóricos do Veo 2. Atualmente, o modelo está disponível apenas no VideoFX, plataforma experimental de geração de vídeo do Google, e seus clipes são limitados a oito segundos e resolução de 720p. O VideoFX também está em lista de espera, então nem qualquer pessoa pode fazer login para experimentar o Veo 2, embora a empresa tenha anunciado que expandirá o acesso nas próximas semanas. Um porta-voz do Google também observou que o Veo 2 será disponibilizado na plataforma Vertex AI assim que a empresa puder dimensionar suficientemente as capacidades do modelo.

“Nos próximos meses, continuaremos a iterar com base no feedback dos usuários”, disse Eli Collins ao TechCrunch , “e [vamos] procurar integrar os recursos atualizados do Veo 2 em casos de uso atraentes em todo o ecossistema do Google… Esperamos compartilhe mais atualizações no próximo ano.

O Veo 2 supostamente possui uma série de vantagens sobre seus antecessores, incluindo uma melhor compreensão da física (pense em melhor dinâmica de fluidos e melhores efeitos de iluminação/sombreamento), bem como a capacidade de gerar videoclipes “mais nítidos”, em que as texturas e imagens geradas são mais nítido e menos sujeito a desfoque ao se mover. O novo modelo também oferece controles de câmera aprimorados, permitindo ao usuário posicionar a lente da câmera virtual com maior precisão do que antes.

Como observa o TechCrunch, o Veo 2 ainda não aperfeiçoou o processo de geração de vídeo, embora pareça alucinar muito menos do que rivais como Sora , Kling , Movie Gen ou Gen 3 Alpha . “Coerência e consistência são áreas de crescimento”, disse Collins. “O Veo pode aderir consistentemente a uma solicitação por alguns minutos, mas [não pode] aderir a instruções complexas em longos horizontes. Da mesma forma, a consistência do caráter pode ser um desafio. Também há espaço para melhorar a geração de detalhes intrincados, movimentos rápidos e complexos e continuar a ampliar os limites do realismo.”

O Google também anunciou melhorias no Imagen 3 na segunda-feira, permitindo que o modelo comercial de geração de imagens crie resultados “mais brilhantes e melhor compostos”. O modelo, disponível no ImageFX, também oferecerá sugestões descritivas adicionais baseadas em palavras-chave no prompt do usuário, com cada palavra-chave gerando um menu suspenso de termos relacionados.