Por causa disso, Musk e o Exército de Terracota dançaram o “Sujeito Três”

janeiro 6, 2024 gurinho

Uma única foto pode fazer Musk, Messi e outras celebridades dançarem magicamente, e até mesmo o assunto três, que é popular em toda a Internet, pode ser arranjado.

Esta não é uma tecnologia avançada de IA. A recém-adicionada função "National Dance King" do Alibaba Tongyi Qianwen no terminal móvel pode realizá-lo. Existem também 12 modelos de dança populares, como assunto três, DJ slow rocking, ghost step dance e bliss dance Você escolhe.

Digite as senhas como "National Dance King" e "Tongyi Dance King" em Tongyi Qianwen, selecione sua dança favorita na interface de salto e carregue uma foto de corpo inteiro. Leva apenas dez minutos para criar uma dança que seja ao mesmo tempo física e espiritual.O rei foi tão maravilhosamente "realizado rapidamente".

Inesperadamente, Einstein, com sobrancelhas grossas e olhos grandes, pode em um instante se transformar em um homem moderno, e o ritmo de seus movimentos não é muito forte.

▲ Foto de: Simon_Awen

Existe apenas uma foto entre os Guerreiros de Terracota e o Rei da Dança, e essa postura não pode ser ofuscada.

O Rei da Dança no mundo das estatuetas está dominando, como eles podem me ignorar, Nicholas Zhao Si, o “Rei da Dança Asiática”?

▲ Foto de: Gongfu Finance

Os pequenos personagens que desenhei dançaram mais alegremente do que eu. Parece que tenho que me inscrever em uma aula de dança.

▲ Foto de: Irmão Dao Hu Kan

Crayon Shin-chan “coça a cabeça e faz poses”, e sua infância volta em um instante.

▲ Foto de: cachorro Panhua

Magia de IA que torna as fotos “vivas”

Então, como a equipe de pesquisa de IA do Alibaba fez as fotos se moverem?

O lançamento da função Tongyi Dance King é na verdade uma aplicação específica e implementação da tecnologia AnimateAnyone.

De acordo com um artigo divulgado pela equipe de pesquisa do Alibaba AI, os modelos de difusão são atualmente o mainstream no campo da pesquisa de geração visual, mas no campo da geração de imagem para vídeo ainda existem problemas como distorção local, detalhes borrados. e instabilidade da taxa de quadros.

A este respeito, a equipe de pesquisa de IA do Alibaba propôs um novo algoritmo de IA, Animate Qualquer um, baseado no modelo de difusão. A função deste algoritmo é converter uma imagem estática de um personagem em um vídeo animado e, ao mesmo tempo, os movimentos dos personagens no vídeo podem ser controlados com precisão inserindo a sequência de posturas.

▲ Exibição do princípio do flip book. Foto de: @flipping book Andymation

Deve-se notar que na produção de vídeo, especialmente na produção de animação, os movimentos dos personagens são completados por meio de transições quadro a quadro. O princípio é semelhante ao flip-book com o qual eu costumava brincar quando era criança. Cada página é um rascunho estático desenhado à mão, que pode ser invertido rapidamente. Faça a tela se mover através do bug de "persistência de visão" do olho humano.

A maior dificuldade em fazer um movimento de imagem é “imaginar” as próximas ações e cenas, não havendo referência antes ou depois. Portanto, na exibição oficial de comparação, você pode ver que a tecnologia tradicional "DisCO" tem sido repetidamente usada como material de ensino negativo. Seu efeito de distorção severa só pode fazer o sujeito se mover, mas a forma torcida do corpo e os efeitos de movimento estranhos não são digno de ser chamado para trabalhar.

Portanto, para resolver o problema de consistência da imagem dos caracteres de vídeo, eles introduziram a rede de imagens de referência ReferenceNet, que pode capturar informações de detalhes espaciais na imagem de referência.

Em seguida, eles combinaram ReferenceNet com UNet, permitindo que UNet entendesse onde e quais detalhes deveriam ser gerados ao gerar a imagem alvo, para que a imagem gerada pudesse remover o ruído como um todo, mantendo detalhes importantes na imagem de referência. .

Além de capturar detalhes, também deve ser garantida a controlabilidade da postura. Para esse fim, a equipe de IA do Alibaba também projetou um guia de pose leve, Pose Guider, que integra sinais de controle de pose durante o processo de remoção de ruído para garantir que a sequência de animação gerada esteja em conformidade com a pose especificada.

Considerando a estabilidade do vídeo, eles também introduziram um módulo de geração de tempo para permitir que o modelo aprenda a conexão entre os frames, para que o vídeo gerado seja suave e coerente em vez de fragmentado, mantendo uma alta resolução. e mais estável.

Comparado com os métodos anteriores, este método pode efetivamente manter a consistência da aparência dos personagens do vídeo, sem problemas como mudar a cor das roupas. Ao mesmo tempo, o vídeo é suave e claro, sem oscilações e tremores, e também suporta animação dinâmica de qualquer personagem.

Por exemplo, Messi brinca com o estilo top que é apreciado por pessoas de meia-idade e idosos e levanta a mão para cumprimentá-lo.

Os personagens bidimensionais se movem imóveis e, quando dançam house dances, não são menos impressionantes do que pessoas reais.

Até o Homem de Ferro se juntou à diversão, mantendo a forma e alongando os músculos, e não havia nada de errado com isso.

No campo da geração de vídeo AI, o acúmulo de tecnologia por trás do Alibaba vai além disso. Por exemplo, no mês passado, o Alibaba também lançou outra tecnologia de geração de vídeo, DreaMoving. Esta é uma estrutura de geração de vídeo controlável baseada em difusão para gerar vídeos de retrato personalizados de alta qualidade.

A vantagem desta tecnologia é que ela não requer conhecimento profundo de técnicas complexas de produção de vídeo. Os usuários só precisam receber alguma orientação, como um trecho de texto ou uma imagem de referência, e o DreaMoving pode criar vídeos altamente realistas.

Em outras palavras, desde que a identidade do alvo e a sequência de pose sejam fornecidas, o DreaMoving pode gerar um vídeo de qualquer pessoa/objeto dançando em qualquer lugar com base na sequência de pose.

Simplificando, o DreaMoving pode gerar automaticamente vários vídeos de personagens personalizados por meio de entradas simples, como imagens de rostos, sequências de ação e texto, obtendo controle preciso sobre a geração de vídeo.

Etapas específicas de desmontagem: primeiro insira a imagem facial de uma pessoa para gerar a imagem de todo o corpo da pessoa no vídeo, depois insira a sequência de posturas para controlar com precisão os movimentos do personagem no vídeo e, finalmente, insira o texto para controlar de forma mais abrangente a geração de vídeo efeitos.

Por exemplo, uma menina sorridente, parada na praia à beira-mar, usando um vestido amarelo claro de mangas compridas.

Um homem dança em frente à Pirâmide do Egito, vestindo terno e gravata azul.

Uma garota com um vestido azul claro sorrindo e dançando em uma cidade francesa

A indústria de geração de vídeos com IA está enlouquecendo

Na verdade, no campo da IA generativa, o ponto de partida do campo da geração de vídeo de IA não é tarde demais. Antes do nascimento do ChatGPT, muitos fabricantes já haviam apostado nesta via, como Microsoft e Google. Geração de vídeo de IA semelhante ferramentas foram usadas, mas o efeito é mínimo.

Com base no acúmulo de tecnologia de longo prazo de toda a indústria, o surgimento do modelo de difusão permite que os fabricantes vejam as perspectivas potenciais da geração de vídeo por IA. Tem vantagens óbvias sobre os primeiros modelos, como o RNN, pode gerar imagens ou sequências de vídeo mais coerentes e claras, acelerando o processo iterativo de geração de vídeo.

As principais ferramentas do mercado também fizeram grandes acréscimos nesta base, fazendo com que a trilha de geração de vídeo de IA mais uma vez agitasse e realmente mostrasse uma tendência explosiva incrível.

No final do ano passado, o Runway Gen-2 recebeu uma grande atualização, com a resolução aumentada para 4K e um grande avanço na fidelidade e consistência dos efeitos de geração de vídeo. Uma semana depois, a função motion brush foi lançada novamente. Com um pincel único, você pode fazer coisas estáticas se moverem.

Imediatamente depois, Stability AI, a "espinha dorsal" de Wenshengtu, também lançou Stable Video Diffusion, acrescentando outro boom ao campo de geração de vídeo AI.

O Pika 1.0, por outro lado, conquistou o favor de muitos chefes do Vale do Silício desde sua estreia devido à sua geração de vídeo mais simples, edição parcial de vídeo fácil de entender e geração de vídeo de alta qualidade. Da geração à pós-produção, você pode concluir uma operação completa sozinho.

O modelo WALT lançado pela equipe de Li Feifei em cooperação com o Google também pode gerar vídeos ou animações 2D/3D realistas com base em linguagem natural/imagens, e o efeito de geração é comparável ao de Runway, Pika e outros especialistas.

Essas ferramentas de geração de vídeo de IA fizeram grandes avanços principalmente em duas dimensões – qualidade e quantidade. Em termos de qualidade, esses produtos de IA continuam a introduzir arquiteturas de modelos mais poderosas e a usar dados em maior escala e de maior qualidade para treinamento, de modo que a qualidade da imagem, a fluência e a fidelidade dos vídeos gerados por IA continuem a melhorar.

Em termos de quantidade, a duração dos vídeos gerados também está em constante involução, chegando a segundos de dois dígitos, e a combinação de cenas e eventos está se tornando cada vez mais rica. No futuro, com novas melhorias no poder computacional, será possível gerar vídeos de alta qualidade que duram várias horas.

A tecnologia flutuando na nuvem acabará sendo aplicada no solo, e a ascensão da geração de vídeo de IA criará um enorme mercado de oceano azul. Baseando-se no profundo acúmulo de tecnologia, o "National Dance King" de Tongyi Qianwen é outro produto baseado nesta lógica de negócios.

Isto não só abrirá a concorrência com a Alibaba e outras empresas e acelerará o progresso de toda a indústria, mas também nos dará a oportunidade de experimentar mais das possibilidades trazidas pela tecnologia de geração de vídeo AI.

# Bem-vindo a seguir a conta pública oficial do WeChat de Aifaner: Aifaner (WeChat ID: ifanr).Mais conteúdo interessante será fornecido a você o mais rápido possível.

Ai Faner | Link original · Ver comentários · Sina Weibo