O concorrente mais forte do Seedance 2.0 teve sua identidade revelada.

Agora, sempre que uma empresa lança um modelo de vídeo, ele inevitavelmente é comparado ao Seedance 2.0.

O Google, que tem se mantido relativamente discreto ultimamente, parece estar preparando silenciosamente uma grande jogada para recuperar sua posição de liderança na geração de vídeos.

Hoje de manhã, um internauta acionou acidentalmente um novo modelo de geração de vídeos no Gemini – Omni (Versátil).

A página de bate-papo do Gemini exibe diretamente: "Crie com o Gemini Omni e conheça nosso novo modelo de geração de vídeos. Remixe seus vídeos, edite diretamente no bate-papo, experimente diversos modelos e muito mais."

▲Captura de tela do Gemini recebendo acesso inesperado

No entanto, esse internauta disse que, ao reabrir o aplicativo Gemini, não apenas o recurso Omni havia desaparecido, mas a interface do Gemini também havia retornado à versão antiga.

Com base nos resultados iniciais dos testes que vazaram até agora, a Gemini Omni tem um desempenho bastante bom em certos cenários, lembrando como a Nano Banana dominava a geração de imagens antigamente.

Nos dois casos de teste apresentados, assim como o Nano Banana resolve o problema da renderização de texto, o Gemini Omni também resolve dois pontos problemáticos na geração de vídeo por IA: a coerência do texto e a lógica física das pessoas comendo .

▲ Fonte do vídeo: X@chetaslua|Palavra-chave: Um professor escreve uma demonstração matemática para identidades trigonométricas em um quadro-negro tradicional, explicando a etapa em que se encontra na equação.

Este vídeo de 10 segundos, que desafia a escrita de equações matemáticas complexas em um quadro-negro, tem apenas uma instrução: "Um professor escreve a demonstração matemática de uma identidade trigonométrica em um quadro-negro tradicional e explica os passos que está seguindo na equação."

Embora ainda seja possível encontrar algumas pequenas falhas na geração de IA na filmagem, o vídeo como um todo lida perfeitamente com o conteúdo de "texto" no quadro-negro, o que era um grande problema em muitos modelos de vídeo anteriores. Além disso, o realismo geral do vídeo também é muito forte.

Os internautas reagiram ao vídeo como "absurdo demais", e o blogueiro de supercriações de IA @Azed_ai também comentou no vídeo: "Se este for o resultado real, a consistência do texto é realmente inacreditável."

▲ Link para o arquivo de vídeo: https://gemini.google.com/share/7d5dc678c80a

Alguns internautas questionaram a origem do vídeo, sugerindo que ele poderia não ter sido gerado pela Gemini Omni, já que o blogueiro que divulgou a notícia postou diretamente um link oficial da Gemini.

Testamos o Seedance 2.0 com os mesmos comandos e o realismo dos elementos visuais foi louvável. No entanto, o conteúdo escrito no quadro-negro não parecia ter muita relação com identidades trigonométricas e ainda havia alguns problemas com a renderização do texto.

▲Gerado pelo Seedance 2.0

Outro vídeo vazado é uma homenagem a "Will Smith comendo espaguete", e esse caso de teste se tornou um dos exemplos obrigatórios para quase todos os modelos de geração de vídeo.

▲ Fonte: Reddit@Zacatac_391|Sugestão: Crie uma cena com dois homens em uma mesa à beira-mar, em um restaurante sofisticado, em um terraço ao ar livre. Eles estão em uma mesa redonda com uma bela toalha de mesa branca e todos os acessórios elegantes, como colheres, garfos e facas, guardanapos finos e um arranjo de mesa. Um dos homens é distinto: um homem afro-americano maduro, na casa dos 50 anos, com barba curta e postura confiante, vestindo um terno sofisticado sob medida. O outro é seu amigo. Ambos se aproximam da mesa para comer um prato de espaguete. Inicialmente, os homens se aproximam da mesa, trocam breves cumprimentos e começam a comer o espaguete calmamente, conversando entre as garfadas.

O testador que recebeu acesso antecipado disse que, ao tentar digitar "espaguete Will Smith" no teste, foi limitado pelas restrições de geração de conteúdo do Google, então descreveu alguém muito parecido com Will Smith.

O vídeo gerado pelo Gemini Omni é melhor do que o modelo de geração de vídeo do próprio Google, o Veo 3.1, e se assemelha mais a uma pessoa real em termos de qualidade de som e imagem.

No entanto, alguns internautas notaram que, quando estavam em pé, não havia massa no prato, mas ela aparecia depois que se sentavam. Então, quando estavam comendo, a massa desaparecia antes mesmo de conseguirem comer um pouco.

Também usamos o Seedance para processar esse conjunto de instruções e, quando o consumimos, o resultado foi muito mais natural do que o obtido com o Gemini Omni.

▲ Gerado por Seedance 2.0 | Prompt: Você consegue imaginar dois homens jantando em uma mesa ao ar livre em um restaurante sofisticado à beira-mar? Eles estão sentados ao redor de uma mesa redonda coberta com uma toalha de mesa branca impecável, posta com talheres requintados, incluindo colheres, garfos, facas, belos guardanapos e um arranjo de mesa. Um dos homens está impecavelmente vestido: um homem afro-americano maduro e sereno, na casa dos cinquenta anos, com uma barba curta, vestindo um terno bem cortado e exalando confiança. O outro é seu amigo; ambos se sentam à mesa para saborear um prato de massa. Inicialmente, trocam algumas gentilezas simples antes de comerem a massa calmamente, ocasionalmente conversando sobre amenidades.

No Reddit, um usuário questionou se ele havia usado o modelo de vídeo de última geração. O testador afirmou que o melhor que havia usado era o Kling 3.0.

Um internauta respondeu que o Seedance 2.0 é muito melhor que o Kling 3.0, então o desempenho do Gemini Omni não me surpreende (alguém que já usou o Seedance 2.0).

No X, alguns internautas também acreditam que o Gemini Omni tem um desempenho melhor do que o Seedance 2.0.

▲ Muitos internautas no X compartilharam esses vídeos de denúncia, dizendo que eles eram mais eficazes do que o Seedance.

Mais surpreendente ainda, o Google não apenas lançou a funcionalidade de geração de vídeo desta vez, mas o Gemini Omni também oferece suporte a recursos de edição de vídeo.

Por exemplo, você poderia substituir o macarrão do vídeo original por uma tigela de sopa tailandesa parecida com Tom Yum.

Ele também pode editar diretamente vídeos do Sora gerados anteriormente com marcas d'água para remover as marcas d'água.

▲Fonte do vídeo: X@Waguri_Kaoruko8

Com base nos resultados dos testes, o Gemini Omni removeu com sucesso a marca d'água do Sora, que se movia continuamente, do vídeo original do Sora, mantendo uma consistência básica com o vídeo original.

Alguns internautas também testaram o desempenho do Gemini Omni na geração de vídeos animados.

Assim como o Nano Banana original, que focava na edição de imagens e permitia aos usuários criar diversas figuras para mesa, muitos acreditam que o Gemini Omni seguirá um caminho semelhante. Embora suas capacidades de geração de vídeo sejam mais limitadas, suas capacidades de edição de vídeo serão mais robustas. Especula-se que o Gemini Omni 3 terá as melhores capacidades de geração de vídeo até o momento.

A interface exposta também incluía uma captura de tela do uso. Os dados mostraram que a geração de apenas dois vídeos — um quadro branco de matemática e um vídeo de alguém comendo macarrão — consumiu 86% do limite diário da assinatura AI Pro do usuário. O usuário mencionou que havia usado apenas um pouco do Gemini Flash naquele dia.

A produção de vídeo com inteligência artificial ainda é claramente um negócio muito caro, mas, contanto que os resultados sejam bons o suficiente, haverá muitas pessoas dispostas a pagar por isso.

Recentemente, alguns vídeos de IA viralizaram na internet, apresentando maior duração, cenas mais realistas, diálogos mais elaborados, melhor atuação e narrativa mais convincente em comparação com os vídeos de IA que viralizaram no ano passado.

Marko Slavnic, artista técnico da plataforma de geração de vídeos Runway, publicou um vídeo de pombos criado com a Runway no X. A Runway permite o uso de modelos Seedance 2.0, e o vídeo rapidamente alcançou milhões de visualizações.

Alguns internautas disseram que o vídeo de 47 segundos não apresentava nenhum vestígio de inteligência artificial ou movimentos não naturais, sugerindo que a animação da Disney talvez precise ficar atenta a isso.

▲ Fonte do vídeo: X@Markoslavnic

Outro tópico que viralizou no Weibo foi "Curtas-metragens de IA produzidos em massa e apresentando problemas", que obteve 12 milhões de visualizações após ser republicado em sites externos.

A pessoa que compartilhou este vídeo é PJ Ace, criador de conteúdo na área de vídeos e publicidade com IA generativa, e também fundador de uma empresa de publicidade com IA. Ele afirmou diretamente:

Este é um dos melhores curtas-metragens que vi nos últimos anos.
Em breve, não o chamaremos mais de "filme de IA", mas simplesmente de filme.

▲ Fonte do vídeo: X@PJaccetturo

Na seção de comentários do vídeo original no Bilibili, alguns internautas mencionaram que o vídeo era muito popular e que não só PJ Ace, do exterior, queria lhe oferecer um emprego, como a equipe criativa da AI+ em Guangzhou também lhe estendeu um ramo de oliveira.

Os elogios ao vídeo também foram generosos: "Eu iria ao cinema se isso fosse um trailer", "Um trabalho de primeira linha; as cores, a composição e o enredo são impecáveis. Apesar de ser um pouco curto, não destoaria em nenhuma temporada de Love, Death & Robots", "Há alguns anos, isso teria levado uma equipe de ponta vários meses e milhões para produzir"…

▲ Fonte do vídeo: [Curta-metragem original de IA "Zombie Cleaner" – Versão remasterizada, um "Love, Death & Robots" nacional!] https://www.bilibili.com/video/BV1FFRQB2Eqw/

Assim como nas recomendações mensais de filmes anteriores, os internautas agora estão resumindo "quatro curtas-metragens de IA imperdíveis neste mês".

Além do conteúdo criticado como sendo de baixa qualidade gerado por IA, a tendência de vídeos com IA se tornarem um meio de comunicação convencional é inevitável à medida que a qualidade do conteúdo gerado melhora.

A apresentação do Gemini Omni pelo Google pode ser uma estratégia para gerar expectativa para a próxima conferência Google I/O na semana que vem. Se o Gemini Omni estiver disponível na conferência deste ano, isso marcará o início de uma nova era na geração de vídeos com IA.

#Siga a conta oficial do iFanr no WeChat: iFanr (ID do WeChat: ifanr), onde você encontrará conteúdo ainda mais interessante o mais breve possível.