A arte do avatar está aqui, Apple lança nova tecnologia de IA para criar seu “avatar digital” em 30 minutos

Embora vários gigantes da tecnologia estejam competindo ferozmente na área de IA generativa, a Apple, por outro lado, parece um pouco silenciosa.

Hoje, a Apple lançou um artigo de pesquisa sobre IA generativa, que raramente nos mostra seu avanço mais recente neste campo.

Este artigo detalha uma tecnologia generativa de IA chamada HUGS (Human Gaussian Splats). Em suma, graças à bênção desta tecnologia, podemos até criar um “avatar digital” humano através de um pequeno vídeo.

Mais perto de casa, vamos dar uma olhada no efeito de demonstração específico

De acordo com funcionários da Apple, embora a tecnologia de renderização baseada em redes neurais tenha alcançado melhorias significativas no treinamento e na velocidade de renderização ao longo dos anos, essa tecnologia se concentra principalmente na fotogrametria de cenas estáticas e é difícil de aplicar a modelos humanos em movimento flexíveis.

Para resolver esse problema, o Centro de Pesquisa de Aprendizado de Máquina da Apple e o Instituto Max Planck de Sistemas Inteligentes colaboraram para propor uma estrutura de IA chamada HUGS. Após o treinamento, o HUGS pode se separar automaticamente dos vídeos em 30 minutos. Fundo estático e um digital totalmente mutável. avatar.

Como exatamente isso é feito?

Sua ideia central é usar a distribuição gaussiana tridimensional (3DGS) para representar pessoas e cenas. Você pode entender a distribuição gaussiana (GS) como um corpo tridimensional parametrizado em forma de sino com posição central, tamanho de volume e ângulo de rotação.

Se colocarmos muitos desses corpos tridimensionais em forma de sino em diferentes locais de uma sala, ajustarmos suas posições, tamanhos e ângulos e combiná-los, poderemos reconstruir a estrutura da sala e as pessoas na cena. A distribuição gaussiana é muito rápida de treinar e renderizar, o que é a maior vantagem deste método.

O próximo problema que enfrentamos é que a distribuição gaussiana em si é relativamente simples e é difícil simular com precisão a estrutura complexa do corpo humano simplesmente empilhando-os.

Portanto, eles primeiro usaram um modelo de corpo humano chamado SMPL, que é um modelo de forma de corpo humano relativamente simples e comumente usado que fornece um ponto de partida para uma distribuição gaussiana que ancora a forma e postura básicas do corpo humano.

Embora o modelo SMPL forneça a forma básica do corpo humano, ele não é muito preciso no tratamento de alguns detalhes, como dobras de roupas, penteados, etc., e a distribuição gaussiana pode desviar e modificar o modelo SMPL até certo ponto.

Dessa forma, eles podem ajustar o modelo com mais flexibilidade, capturar e simular melhor esses detalhes e dar ao avatar digital final uma aparência mais realista.

Separar é apenas o primeiro passo, é preciso também fazer mover o modelo humano construído. Para tanto, eles projetaram uma rede de deformação especial para aprender a controlar o peso do movimento de cada distribuição gaussiana (representando a forma do corpo humano e da cena) sob diferentes poses esqueléticas, que é o chamado peso LBS.

Esses pesos informam ao sistema como a distribuição gaussiana deve mudar quando o esqueleto humano se move para simular o movimento real.

Além disso, eles não apenas pararam de projetar a rede, mas também otimizaram a distribuição gaussiana do avatar digital, a distribuição gaussiana da cena e a rede de deformação observando vídeos reais de movimentos humanos. Dessa forma, o avatar digital consegue se adaptar melhor às diferentes cenas e ações, fazendo com que pareça mais real.

Em comparação com os métodos tradicionais, a velocidade de treinamento deste método é significativamente melhorada, pelo menos 100 vezes mais rápida, e também pode renderizar vídeo de alta definição a 60 quadros por segundo.

Mais importante ainda, este novo método alcança um processo de treinamento mais eficiente e menor custo computacional, às vezes exigindo apenas 50 a 100 quadros de dados de vídeo, o que equivale a 24 quadros de vídeo em apenas 2 a 4 segundos.

Em relação à divulgação dessa conquista, as atitudes dos internautas mostraram uma tendência polarizada.

O blogueiro digital @mmmryo ficou maravilhado com a modelagem de pele, roupas, cabelos e outros detalhes do modelo generativo, e especulou que essa tecnologia provavelmente será projetada especialmente para iPhone ou Vision Pro.

O cientista da Samsung, Kosta Derpani, apareceu na área de comentários do pesquisador da Apple, Anurag Ranjan, e expressou todos os elogios e afirmações por essa conquista.

No entanto, alguns internautas não acreditaram, por exemplo, o usuário X @EddyRobinson questionou o efeito real gerado.

A Apple anunciou que lançará o código do modelo, mas até o momento, clicar no link do código oficial fornecido pela Apple resultará apenas em “404”.

Alguns internautas emitiram discussões racionais:

Vale ressaltar que o autor deste artigo tem um rosto chinês familiar.

O principal autor do artigo, Jen-Hao Rick Chang, é de Taiwan, China. Antes de ingressar na Apple em 2020, obteve seu doutorado pelo Departamento ECE da Carnegie Mellon University.

A carreira acadêmica de Zhang Renhao é bastante lendária. Enquanto estava na Carnegie Mellon University, ele estudou com o professor Vijayakumar Bhagavatula e o professor Aswin Sankaranarayanan, ambos mestres na área de processamento de imagens.

Depois de se dedicar ao campo do aprendizado de máquina nos primeiros três anos, por interesse de pesquisa, Zhang Renhao mudou resolutamente sua direção de pesquisa e começou a se aprofundar em campos completamente diferentes da óptica. Desde então, ele tem trabalhado sucessivamente na SIGGRAPH na área de computação gráfica e tecnologia interativa, e na área de aprendizado de máquina ICML International. Publicou muitas obras-primas em conferências acadêmicas.

Este artigo da Apple é o resultado de pesquisa mais recente de sua autoria. Por fim, o endereço específico do artigo é fornecido. Detalhes mais específicos podem ser encontrados no link abaixo.

https://arxiv.org/abs/2311.17910

É preciso dizer que o caminho de geração de vídeo de IA deste ano é simplesmente desumano. O surgimento da Runway trouxe a IA generativa para as salas sagradas do cinema. "O Universo Instantâneo" apoiado pela tecnologia Runway demonstra a magia da geração de vídeo de IA. De forma incisiva e vividamente.

Então o Pika 1.0 do Pika Lab retirou a “patente” da geração de vídeo de IA das mãos de criadores profissionais. Através de entrada de texto mais simples, edição de vídeo fácil de entender e geração de vídeo de alta qualidade, todos têm a oportunidade de se tornarem seus próprios diretores de vídeo.

Seja você profissional ou amador, você também pode usar o gerador de animação humana MagicAnimate para se divertir. Basta inserir fotos de pessoas de acordo com sequências de ação pré-determinadas para gerar vídeos dinâmicos.

O protagonista em movimento pode ser sua selfie, seu animal de estimação ou uma pintura famosa e familiar. Tudo pode ser movido usando sua imaginação.

Claro, o que pode ser mais atraente é o modelo de geração de vídeo VideoPoet lançado hoje pela equipe do Google, que suporta várias funções de geração de vídeo e geração de áudio, e pode até permitir que modelos grandes guiem a geração completa de vídeo.

Além de gerar vídeos de 10 segundos de cada vez, o VideoPoet também pode resolver o problema atual de não conseguir gerar vídeos com grandes movimentos. É versátil no campo da geração de vídeos. A única desvantagem pode ser que ele "vive" no blog do Google.

Relativamente falando, a mais recente conquista da Apple visa a atual tecnologia popular semelhante às âncoras de IA. Um pequeno vídeo que pode levar menos de alguns segundos pode gerar seu "avatar digital". Ver pode não ser acreditar. Como podemos provar no futuro que "eu sou eu" pode valer a pena se preocupar novamente.

O Vision Pro será lançado nos Estados Unidos no próximo ano, e os resultados da pesquisa deste artigo são provavelmente um ovo de Páscoa enterrado antecipadamente.

# Bem-vindo a seguir a conta pública oficial do WeChat de aifaner: aifaner (WeChat ID: ifanr).Mais conteúdo interessante será fornecido a você o mais rápido possível.

Ai Faner | Link original · Ver comentários · Sina Weibo