A Inteligência Artificial do Google é capaz de criar vídeos a partir de uma única imagem

agosto 24, 2022 gurinho

A equipe que trabalha na rede neural avançada DeepMind do Google revelou o novo progresso alcançado com um recurso muito interessante: chamado Transframer, ele permite que o software de Inteligência Artificial em questão gere vídeos de 30 segundos a partir de uma única entrada na forma de imagem . À primeira vista, pode parecer um pequeno truque bacana, mas as implicações são muito maiores do que apenas um arquivo .GIF.

O software de Inteligência Artificial cada vez mais avançado

Na realidade, o Transframer é algo maior: é um novo framework genérico para modelagem de imagem e atividades de visão baseado na previsão probabilística de quadros . Este novo modelo unifica uma ampla gama de atividades, incluindo segmentação de imagens, síntese de visualização e interpolação de vídeo. A estrutura unifica, assim, uma ampla gama de atividades de modelagem e visualização de imagens com a capacidade de criar vídeo ou outras funcionalidades a partir de uma única imagem com um ou mais quadros de contexto.

Apresentamos um framework genérico para modelagem de imagens e tarefas de visão com base na previsão probabilística de quadros. Nossa abordagem unifica uma ampla gama de atividades, desde segmentação de imagens até nova visualização, síntese e interpolação de vídeo. Combinamos essa estrutura com uma arquitetura que chamamos de Transframer, que usa componentes U-Net e Transformer para condicionar quadros de contexto anotados e sequências de saída de recursos de imagem esparsa e compactada.

O modelo proposto, no qual esta Inteligência Artificial se baseia, de fato mostrou resultados promissores em oito atividades no total , algumas das quais são segmentação semântica, classificação de imagens e previsão de fluxo óptico. O que este artigo quer focar, no entanto, é a capacidade do Transframer de criar vídeos diferentes, mesmo que em baixa qualidade. A equipe de pesquisa diz que este é um modelo de última geração que deve ser o mais forte e competitivo em síntese de vídeo e, com base em poucas informações, pode gerar vídeos consistentes de 30 segundos a partir de uma única imagem .

O Transframer é uma estrutura generativa de uso geral que pode lidar com muitas tarefas de imagem e vídeo em um ambiente probabilístico. Novo trabalho mostra que se destaca em previsão de vídeo e síntese de visualização, e pode gerar vídeos de 30 segundos a partir de uma única imagem: https://t.co/wX3nrrYEEa 1 / pic.twitter.com/gQk6f9nZyg
– DeepMind (@DeepMind) 15 de agosto de 2022

Sendo um framework dedicado à previsão visual, baseia seu funcionamento em uma coleção de imagens de contexto com várias anotações associadas (timestamps, visualizações de câmeras, etc.) e uma anotação de consulta, a tarefa é prever uma distribuição de probabilidade na imagem final. Isso permite que ele "treine" e, consequentemente, entenda como imaginar um objeto real e como ele deve ficar quando visto de um ângulo diferente.

O Transframer é o que há de mais moderno em uma variedade de benchmarks de geração de vídeo, é competitivo com os modelos mais poderosos em síntese de visão de tiro curto e pode gerar vídeo consistente de 30 segundos a partir de uma única imagem sem nenhuma informação explícita de geometria. Um único Transframer generalista produz simultaneamente resultados promissores em 8 tarefas, incluindo segmentação semântica, classificação de imagem e previsão de fluxo óptico sem componentes arquiteturais específicos de atividade, demonstrando que a visão computacional multitarefa pode ser abordada usando modelos de imagem probabilísticos. Em princípio, nossa abordagem pode ser aplicada a uma ampla gama de aplicações que requerem o aprendizado da estrutura condicional de dados anotados em formato de imagem.

Desenvolvimentos interessantes para DeepMind

Os desenvolvimentos foram anunciados pelo Google em seu próprio blog e publicados como um artigo científico intitulado " Transframer: Arbitrary Frame Prediction with Generative Models " cujo resumo diz:

Mesmo que os vídeos mostrados sejam de resolução muito baixa, ainda é um modelo particularmente interessante de IA. De fato, ele é capaz de demonstrar uma certa habilidade em perceber a profundidade e a perspectiva dos objetos para criar uma série de imagens que dão uma sensação de movimento se colocadas uma atrás da outra . Existem certamente diferentes campos de aplicação para esta tecnologia.

O artigo que a Inteligência Artificial do Google pode criar vídeos a partir de uma única imagem foi escrito em: Tech CuE | Engenharia de close-up .