Por causa disso, Musk e o Exército de Terracota dançaram o “Sujeito Três”
Uma única foto pode fazer Musk, Messi e outras celebridades dançarem magicamente, e até mesmo o assunto três, que é popular em toda a Internet, pode ser arranjado.
Esta não é uma tecnologia avançada de IA. A recém-adicionada função "National Dance King" do Alibaba Tongyi Qianwen no terminal móvel pode realizá-lo. Existem também 12 modelos de dança populares, como assunto três, DJ slow rocking, ghost step dance e bliss dance Você escolhe.
Digite as senhas como "National Dance King" e "Tongyi Dance King" em Tongyi Qianwen, selecione sua dança favorita na interface de salto e carregue uma foto de corpo inteiro. Leva apenas dez minutos para criar uma dança que seja ao mesmo tempo física e espiritual.O rei foi tão maravilhosamente "realizado rapidamente".
Inesperadamente, Einstein, com sobrancelhas grossas e olhos grandes, pode em um instante se transformar em um homem moderno, e o ritmo de seus movimentos não é muito forte.
▲ Foto de: Simon_Awen
Existe apenas uma foto entre os Guerreiros de Terracota e o Rei da Dança, e essa postura não pode ser ofuscada.
O Rei da Dança no mundo das estatuetas está dominando, como eles podem me ignorar, Nicholas Zhao Si, o “Rei da Dança Asiática”?
▲ Foto de: Gongfu Finance
Os pequenos personagens que desenhei dançaram mais alegremente do que eu. Parece que tenho que me inscrever em uma aula de dança.
▲ Foto de: Irmão Dao Hu Kan
Crayon Shin-chan “coça a cabeça e faz poses”, e sua infância volta em um instante.
▲ Foto de: cachorro Panhua
Magia de IA que torna as fotos “vivas”
Então, como a equipe de pesquisa de IA do Alibaba fez as fotos se moverem?
O lançamento da função Tongyi Dance King é na verdade uma aplicação específica e implementação da tecnologia AnimateAnyone.
De acordo com um artigo divulgado pela equipe de pesquisa do Alibaba AI, os modelos de difusão são atualmente o mainstream no campo da pesquisa de geração visual, mas no campo da geração de imagem para vídeo ainda existem problemas como distorção local, detalhes borrados. e instabilidade da taxa de quadros.
A este respeito, a equipe de pesquisa de IA do Alibaba propôs um novo algoritmo de IA, Animate Qualquer um, baseado no modelo de difusão. A função deste algoritmo é converter uma imagem estática de um personagem em um vídeo animado e, ao mesmo tempo, os movimentos dos personagens no vídeo podem ser controlados com precisão inserindo a sequência de posturas.
▲ Exibição do princípio do flip book. Foto de: @flipping book Andymation
Deve-se notar que na produção de vídeo, especialmente na produção de animação, os movimentos dos personagens são completados por meio de transições quadro a quadro. O princípio é semelhante ao flip-book com o qual eu costumava brincar quando era criança. Cada página é um rascunho estático desenhado à mão, que pode ser invertido rapidamente. Faça a tela se mover através do bug de "persistência de visão" do olho humano.
A maior dificuldade em fazer um movimento de imagem é “imaginar” as próximas ações e cenas, não havendo referência antes ou depois. Portanto, na exibição oficial de comparação, você pode ver que a tecnologia tradicional "DisCO" tem sido repetidamente usada como material de ensino negativo. Seu efeito de distorção severa só pode fazer o sujeito se mover, mas a forma torcida do corpo e os efeitos de movimento estranhos não são digno de ser chamado para trabalhar.
Portanto, para resolver o problema de consistência da imagem dos caracteres de vídeo, eles introduziram a rede de imagens de referência ReferenceNet, que pode capturar informações de detalhes espaciais na imagem de referência.
Em seguida, eles combinaram ReferenceNet com UNet, permitindo que UNet entendesse onde e quais detalhes deveriam ser gerados ao gerar a imagem alvo, para que a imagem gerada pudesse remover o ruído como um todo, mantendo detalhes importantes na imagem de referência. .
Além de capturar detalhes, também deve ser garantida a controlabilidade da postura. Para esse fim, a equipe de IA do Alibaba também projetou um guia de pose leve, Pose Guider, que integra sinais de controle de pose durante o processo de remoção de ruído para garantir que a sequência de animação gerada esteja em conformidade com a pose especificada.
Considerando a estabilidade do vídeo, eles também introduziram um módulo de geração de tempo para permitir que o modelo aprenda a conexão entre os frames, para que o vídeo gerado seja suave e coerente em vez de fragmentado, mantendo uma alta resolução. e mais estável.
Comparado com os métodos anteriores, este método pode efetivamente manter a consistência da aparência dos personagens do vídeo, sem problemas como mudar a cor das roupas. Ao mesmo tempo, o vídeo é suave e claro, sem oscilações e tremores, e também suporta animação dinâmica de qualquer personagem.
Por exemplo, Messi brinca com o estilo top que é apreciado por pessoas de meia-idade e idosos e levanta a mão para cumprimentá-lo.
Os personagens bidimensionais se movem imóveis e, quando dançam house dances, não são menos impressionantes do que pessoas reais.
Até o Homem de Ferro se juntou à diversão, mantendo a forma e alongando os músculos, e não havia nada de errado com isso.
No campo da geração de vídeo AI, o acúmulo de tecnologia por trás do Alibaba vai além disso. Por exemplo, no mês passado, o Alibaba também lançou outra tecnologia de geração de vídeo, DreaMoving. Esta é uma estrutura de geração de vídeo controlável baseada em difusão para gerar vídeos de retrato personalizados de alta qualidade.
A vantagem desta tecnologia é que ela não requer conhecimento profundo de técnicas complexas de produção de vídeo. Os usuários só precisam receber alguma orientação, como um trecho de texto ou uma imagem de referência, e o DreaMoving pode criar vídeos altamente realistas.
Em outras palavras, desde que a identidade do alvo e a sequência de pose sejam fornecidas, o DreaMoving pode gerar um vídeo de qualquer pessoa/objeto dançando em qualquer lugar com base na sequência de pose.
Simplificando, o DreaMoving pode gerar automaticamente vários vídeos de personagens personalizados por meio de entradas simples, como imagens de rostos, sequências de ação e texto, obtendo controle preciso sobre a geração de vídeo.
Etapas específicas de desmontagem: primeiro insira a imagem facial de uma pessoa para gerar a imagem de todo o corpo da pessoa no vídeo, depois insira a sequência de posturas para controlar com precisão os movimentos do personagem no vídeo e, finalmente, insira o texto para controlar de forma mais abrangente a geração de vídeo efeitos.
Por exemplo, uma menina sorridente, parada na praia à beira-mar, usando um vestido amarelo claro de mangas compridas.
Um homem dança em frente à Pirâmide do Egito, vestindo terno e gravata azul.
Uma garota com um vestido azul claro sorrindo e dançando em uma cidade francesa
A indústria de geração de vídeos com IA está enlouquecendo
Na verdade, no campo da IA generativa, o ponto de partida do campo da geração de vídeo de IA não é tarde demais. Antes do nascimento do ChatGPT, muitos fabricantes já haviam apostado nesta via, como Microsoft e Google. Geração de vídeo de IA semelhante ferramentas foram usadas, mas o efeito é mínimo.
Com base no acúmulo de tecnologia de longo prazo de toda a indústria, o surgimento do modelo de difusão permite que os fabricantes vejam as perspectivas potenciais da geração de vídeo por IA. Tem vantagens óbvias sobre os primeiros modelos, como o RNN, pode gerar imagens ou sequências de vídeo mais coerentes e claras, acelerando o processo iterativo de geração de vídeo.
As principais ferramentas do mercado também fizeram grandes acréscimos nesta base, fazendo com que a trilha de geração de vídeo de IA mais uma vez agitasse e realmente mostrasse uma tendência explosiva incrível.
No final do ano passado, o Runway Gen-2 recebeu uma grande atualização, com a resolução aumentada para 4K e um grande avanço na fidelidade e consistência dos efeitos de geração de vídeo. Uma semana depois, a função motion brush foi lançada novamente. Com um pincel único, você pode fazer coisas estáticas se moverem.
Imediatamente depois, Stability AI, a "espinha dorsal" de Wenshengtu, também lançou Stable Video Diffusion, acrescentando outro boom ao campo de geração de vídeo AI.
O Pika 1.0, por outro lado, conquistou o favor de muitos chefes do Vale do Silício desde sua estreia devido à sua geração de vídeo mais simples, edição parcial de vídeo fácil de entender e geração de vídeo de alta qualidade. Da geração à pós-produção, você pode concluir uma operação completa sozinho.
O modelo WALT lançado pela equipe de Li Feifei em cooperação com o Google também pode gerar vídeos ou animações 2D/3D realistas com base em linguagem natural/imagens, e o efeito de geração é comparável ao de Runway, Pika e outros especialistas.
Essas ferramentas de geração de vídeo de IA fizeram grandes avanços principalmente em duas dimensões – qualidade e quantidade. Em termos de qualidade, esses produtos de IA continuam a introduzir arquiteturas de modelos mais poderosas e a usar dados em maior escala e de maior qualidade para treinamento, de modo que a qualidade da imagem, a fluência e a fidelidade dos vídeos gerados por IA continuem a melhorar.
Em termos de quantidade, a duração dos vídeos gerados também está em constante involução, chegando a segundos de dois dígitos, e a combinação de cenas e eventos está se tornando cada vez mais rica. No futuro, com novas melhorias no poder computacional, será possível gerar vídeos de alta qualidade que duram várias horas.
A tecnologia flutuando na nuvem acabará sendo aplicada no solo, e a ascensão da geração de vídeo de IA criará um enorme mercado de oceano azul. Baseando-se no profundo acúmulo de tecnologia, o "National Dance King" de Tongyi Qianwen é outro produto baseado nesta lógica de negócios.
Isto não só abrirá a concorrência com a Alibaba e outras empresas e acelerará o progresso de toda a indústria, mas também nos dará a oportunidade de experimentar mais das possibilidades trazidas pela tecnologia de geração de vídeo AI.
# Bem-vindo a seguir a conta pública oficial do WeChat de Aifaner: Aifaner (WeChat ID: ifanr).Mais conteúdo interessante será fornecido a você o mais rápido possível.