O Google contra-ataca com uma resposta ao lançamento do Sora da OpenAI
A divisão DeepMind do Google revelou seu modelo de geração de vídeo Veo de segunda geração na segunda-feira, que pode criar clipes de até dois minutos de duração e em resoluções que atingem qualidade 4K – isso é seis vezes a duração e quatro vezes a resolução dos clipes de 20 segundos/1080p. Sora pode gerar.
Claro, esses são os limites superiores teóricos do Veo 2. Atualmente, o modelo está disponível apenas no VideoFX, plataforma experimental de geração de vídeo do Google, e seus clipes são limitados a oito segundos e resolução de 720p. O VideoFX também está em lista de espera, então nem qualquer pessoa pode fazer login para experimentar o Veo 2, embora a empresa tenha anunciado que expandirá o acesso nas próximas semanas. Um porta-voz do Google também observou que o Veo 2 será disponibilizado na plataforma Vertex AI assim que a empresa puder dimensionar suficientemente as capacidades do modelo.
“Nos próximos meses, continuaremos a iterar com base no feedback dos usuários”, disse Eli Collins ao TechCrunch , “e [vamos] procurar integrar os recursos atualizados do Veo 2 em casos de uso atraentes em todo o ecossistema do Google… Esperamos compartilhe mais atualizações no próximo ano.
Hoje estamos anunciando o Veo 2: nosso modelo de geração de vídeo de última geração que produz clipes realistas e de alta qualidade a partir de prompts de texto ou imagem.
Também estamos lançando uma versão melhorada de nosso modelo de texto para imagem, Imagen 3 – disponível para uso no ImageFX através de… pic.twitter.com/h6ejHaMUM4
— Google DeepMind (@GoogleDeepMind) 16 de dezembro de 2024
O Veo 2 supostamente possui uma série de vantagens sobre seus antecessores, incluindo uma melhor compreensão da física (pense em melhor dinâmica de fluidos e melhores efeitos de iluminação/sombreamento), bem como a capacidade de gerar videoclipes “mais nítidos”, em que as texturas e imagens geradas são mais nítido e menos sujeito a desfoque ao se mover. O novo modelo também oferece controles de câmera aprimorados, permitindo ao usuário posicionar a lente da câmera virtual com maior precisão do que antes.
Como observa o TechCrunch, o Veo 2 ainda não aperfeiçoou o processo de geração de vídeo, embora pareça alucinar muito menos do que rivais como Sora , Kling , Movie Gen ou Gen 3 Alpha . “Coerência e consistência são áreas de crescimento”, disse Collins. “O Veo pode aderir consistentemente a uma solicitação por alguns minutos, mas [não pode] aderir a instruções complexas em longos horizontes. Da mesma forma, a consistência do caráter pode ser um desafio. Também há espaço para melhorar a geração de detalhes intrincados, movimentos rápidos e complexos e continuar a ampliar os limites do realismo.”
O Google também anunciou melhorias no Imagen 3 na segunda-feira, permitindo que o modelo comercial de geração de imagens crie resultados “mais brilhantes e melhor compostos”. O modelo, disponível no ImageFX, também oferecerá sugestões descritivas adicionais baseadas em palavras-chave no prompt do usuário, com cada palavra-chave gerando um menu suspenso de termos relacionados.