A partir de agora, todos terão um “Van Gogh” no celular

março 16, 2023 gurinho

Quanto tempo você acha que leva para fazer um episódio como este?

Na indústria da animação tradicional, a produção da animação costuma ser o elo que consome mais tempo. Os animadores precisam produzir os efeitos de animação de cada tomada de acordo com o roteiro do storyboard e o design artístico.

Desde o design de personagens até o desenho de cenas e, em seguida, a criação de animações, uma equipe de produção geralmente leva vários meses ou até um ano.

Mas, recentemente, essa lei do setor está sendo reescrita por ferramentas de IA.

O curta de animação que você está vendo agora consiste em 120 tomadas de efeitos visuais e um tempo total de execução de 7 minutos, e sua equipe de produção, Corridor, gastou apenas algumas horas na animação.

O segredo da eficiência está na ferramenta que eles usam – Stable Diffusion.

A criatividade é mais uma vez desencadeada

Como todos sabemos, cada tomada em movimento na animação é composta de imagens em movimento contínuas desenhadas quadro a quadro pelos artistas, e por trás de cada episódio de animação é quase composto de milhares de esboços.

É quase impossível para o Corridor desenhar a animação quadro a quadro à mão, então eles pensaram em outra maneira de fazer uma pintura: a tomada da câmera é essencialmente uma foto quadro a quadro, se for transformada em um estilo de animação quadro a quadro Costurando juntos novamente, não é apenas animação?

Para converter fotos em imagens de animação em lotes, a Corridor pensou primeiro na ferramenta de desenho de IA mais popular: Stable Diffusion.

Comparado com ferramentas de desenho AI como Dall-E 2 e Midjourney, uma das vantagens do Stable Diffusion é que é um projeto de código aberto. e, em seguida, gerar lotes O estilo da imagem.

De acordo com o cenário previamente concebido, Corridor permitiu que Stable Diffusion aprendesse um grande número de fotos de "The Vampire Diaries", bem como fotos de vários ângulos dos dois atores principais, para que as imagens animadas transformadas pudessem ser o mais precisas possível e o estilo tende a ser unificado.

Depois que o Stable Diffusion converte todo o vídeo em um estilo de animação, algumas imagens instáveis são removidas e a cintilação é eliminada e, finalmente, a tela verde é substituída pelo fundo capturado pela câmera virtual. Originalmente, eram necessários uma dúzia de pintores para desenhar por vários semanas. A animação está completa.

Vendo isso, você também quer usar sua imaginação, gravar um curta-metragem de animação ou se transformar em uma variedade de heróis de fantasia?

Embora o Stable Diffusion tenha as vantagens de alta controlabilidade, mas para controlá-lo, você primeiro precisa de um poderoso ambiente de computação no servidor ou no lado local para que ele seja executado.

Em outras palavras, se você não tem imaginação, mas não possui recursos fortes de aprendizado e processamento de linguagem natural e poder de computação de IA como suporte, ainda não pode usar a difusão estável para criar.

Então, existe uma maneira de as pessoas comuns poderem facilmente desenhar um avatar único sozinhas?

Realmente existem, e desde que "você tenha um telefone celular".

Na conferência MWC, a Qualcomm demonstrou a difusão estável em execução local em um telefone Android pela primeira vez e também mostrou várias imagens de IA geradas no lado do telefone. O efeito parece muito bom e todo o processo leva menos de 15 segundos.

Os parâmetros de difusão estável excedem 1 bilhão. Computadores comuns são muito difíceis de operar. Como a Qualcomm "coloca" um modelo tão grande no telefone celular e o faz rodar sem problemas no SoC do telefone móvel?

Para "colocar o elefante na geladeira", os engenheiros da Qualcomm primeiro otimizaram o elefante.

Aqui, devemos primeiro mencionar uma grande melhoria na IA na plataforma móvel Snapdragon 8 de segunda geração, processamento de linguagem natural (NLP).

O processamento de linguagem natural é um dos novos campos de aplicativos de IA. Para entender e decompor a linguagem humana o mais rápido possível, a Qualcomm melhorou significativamente o processador Hexagon e aumentou a aceleração de hardware, que pode executar a rede Transformer com mais rapidez e eficiência e reduza a velocidade de processamento por meio do raciocínio de micro fatiamento. O consumo de energia faz com que o Snapdragon 8 de segunda geração mostre vantagens exclusivas em casos de uso de processamento de linguagem natural.

Para permitir que a difusão estável seja executada no lado do terminal, os engenheiros da Qualcomm optaram por começar com o modelo de código aberto da versão FP32 1-5 do Hugging Face e usar o Qualcomm AI Model Enhancement Toolkit (AIMET) para quantificá-lo após o treinamento sem sacrificar o modelo No caso de precisão, o modelo FP32 original é compactado no formato INT8 com maior eficiência computacional.

Por meio da solução unificada de software de IA da Qualcomm, a Qualcomm AI software stack, a Qualcomm pode quantificar e simplificar modelos de IA sem perder a precisão do modelo, melhorar muito o desempenho do raciocínio de IA e reduzir o consumo de energia, tornando modelos de IA grandes mais adaptáveis a telefones celulares e outros ambientes de computação de baixo consumo de energia no lado do terminal, facilitando a expansão do lado do terminal dos modelos AI.

Por meio da otimização de pilha completa de software e hardware, o Stable Diffusion pode finalmente ser executado na plataforma móvel Snapdragon 8 de segunda geração integrada ao processador Hexagon, executar 20 etapas de inferência em 15 segundos e gerar uma imagem de 512 × 512 pixels, para que o a velocidade já é comparável à latência da computação em nuvem.

Em outras palavras, o modelo de IA generativa em larga escala na nuvem deu o primeiro passo na expansão de aplicativos do lado do terminal.

Embora você não possa usar Stable Diffusion para filmar blockbusters como Corridor, é mais do que suficiente usá-lo para desenhar sua própria cabeça e tirar retratos virtuais. Se você deseja um auto-retrato no estilo de Monet, Van Gogh ou Akira Toriyama, pode inserir comandos diretamente em seu telefone para gerar um trabalho de IA exclusivo com um clique.

No futuro, modelos de IA com uma escala de dezenas de bilhões de parâmetros poderão ser executados no lado do terminal, e o nível de inteligência do assistente de IA em seu celular terá um salto qualitativo. As possibilidades trazidas pela implantação no dispositivo de modelos generativos de IA estão além da imaginação.

Uma explosão tecnológica natural

Quando se trata de computação de IA, a primeira coisa em que muitas pessoas pensam é um grande servidor em nuvem. A IA parece estar longe de nossas vidas.

Mas, na verdade, toda vez que você desbloqueia o telefone, ativa o assistente de voz ou até pressiona o botão do obturador, é um contato íntimo com a computação de IA.

Devido às muitas vantagens do processamento de IA no lado do terminal, incluindo telefones celulares em termos de confiabilidade, atraso e privacidade, cada vez mais grandes modelos de nuvem de IA começaram a ser executados no lado do terminal.

Hoje, a computação de IA penetrou em todos os aspectos de nossas vidas junto com a implantação de terminais. Você pode facilmente encontrar IA em produtos terminais, como smartphones, tablets, óculos XR e até carros. Essa é a visão de ponta da conexão de rede inteligente que a Qualcomm vem construindo, e a Qualcomm trabalha silenciosamente há mais de dez anos.

Trazer IA da nuvem para o terminal pode resolver os dois pontos problemáticos dos usuários ao mesmo tempo: por um lado, os dados processados pelo terminal podem ser mantidos no dispositivo terminal e a privacidade dos dados pessoais do usuário é devidamente protegida . Por outro lado, os dispositivos terminais podem realizar cálculos e processamento em tempo hábil, fornecendo aos usuários resultados de processamento confiáveis e de baixa latência.

A Qualcomm é a primeira a implantar a difusão estável em telefones Android desta vez, o que não apenas oferece aos usuários a possibilidade de criação de IA a qualquer hora e em qualquer lugar, mas também torna a edição de imagens futura cheia de imaginação.

Os modelos de difusão estável codificam uma riqueza de conhecimento linguístico e visual, e ajustar o modelo pode ter impactos tangíveis na edição de imagem, pintura interna de imagem, transferência de estilo e super-resolução.

Imagine, no futuro, você pode tirar fotos ou vídeos no estilo Disney ou japonês sem a Internet, e todos os cálculos de imagem são realizados apenas no celular, o que é divertido e divertido, protegendo a privacidade e a segurança.

No planejamento técnico da Qualcomm, isso é apenas o começo.

Anteriormente, a Qualcomm lançou uma solução chamada "Qualcomm AI Software Stack" Simplificando, ele só precisa desenvolver um modelo uma vez e pode ser expandido em todos os terminais diferentes.

Os avanços da pesquisa e as otimizações técnicas feitas pela Qualcomm em Stable Diffusion serão integrados à pilha de software Qualcomm AI no futuro. No futuro, ele só precisa ser expandido com base nisso para criar diferentes modelos adequados para plataformas como óculos XR e carros. Também é chamado de "roteiro de tecnologia unificada" pela Qualcomm.

Por meio dessa rota de desenvolvimento de produtos, a Qualcomm pode integrar as principais tecnologias de IA, como processamento de linguagem natural e reconhecimento facial em terminais de smartphones, em óculos XR, PCs, Internet das Coisas, automóveis e outros produtos e, por fim, criar novas experiências inteligentes para os usuários.

Esse modelo de desenvolvimento altamente flexível e eficiente é inseparável do mecanismo de IA da Qualcomm.

O mecanismo Qualcomm AI inclui uma unidade de processamento gráfico, uma CPU e o processador Hexagon mais crítico.

Entre eles, o processador Hexagon é composto por processadores escalares, vetoriais e tensores. Os três aceleradores usam uma memória compartilhada unificada. A Qualcomm dobrou o desempenho computacional do acelerador tensor e dobrou a capacidade da memória compartilhada, tornando o novo A primeira geração O mecanismo Qualcomm AI melhorou a eficiência energética em 70% em comparação com a geração anterior.

O mecanismo Qualcomm AI pode ser expandido de forma flexível em hardware, e um processador Hexagon geralmente é configurado em uma plataforma móvel; para plataformas automotivas, em nuvem e de computação de ponta, várias instâncias do processador Hexagon podem ser usadas para aumentar o poder de computação.

Combinando as vantagens arquitetônicas e o desempenho do poder de computação dos principais rivais, pode-se dizer que a Qualcomm usa o mecanismo Qualcomm AI para formar o núcleo de smartphones, Internet das Coisas, óculos XR, automóveis e outros negócios.

De acordo com a visão da Qualcomm, a computação de IA continuará a se desenvolver em uma direção totalmente distribuída, ou seja, o raciocínio de IA será transferido da nuvem para o lado do terminal em grande número.

Por exemplo, telefones celulares aprenderão o sotaque do usuário para melhorar a precisão da voz, carros aprenderão diferentes condições da estrada e melhorarão a taxa de reconhecimento de obstáculos, etc. Esses são os casos de aplicação da popularização da IA em terminais.

Em dezembro do ano passado, a Qualcomm deu as mãos à nova atriz do Oscar, Michelle Yeoh, para descrever essa visão futura de interconexão inteligente de todas as coisas:

Os smartphones estão ficando mais inteligentes, alimentados pelo AI Engine da Qualcomm. Ele dominou as habilidades profissionais de imagem, permitindo que você grave cenas em nível de filme 8K na ponta dos dedos; também possui recursos de processamento de linguagem natural e pode fornecer ativamente serviços personalizados, como tradução em tempo real como um assistente.

O mecanismo de IA da Qualcomm permitirá que os carros evoluam para motoristas confiáveis. No futuro, os carros podem sentir sua chegada e fazer ajustes adaptativos de acordo com seus hábitos; o poderoso poder de computação traz funções ricas, como assistência à direção, conscientização de segurança situacional e streaming de entretenimento, e também pode prever a estrada à frente para melhorar a experiência de direção, permitindo você chegue ao seu destino com conforto e segurança.

Dispositivos vestíveis, como o XR, proporcionarão uma experiência mais imersiva e uma interação mais intuitiva, permitindo que você navegue livremente nos mundos virtual e real.

Em suma, estamos atualmente em meio a inúmeras possibilidades, e as inovações de IA ao nosso redor estão remodelando o mundo e mudando silenciosamente a maneira como trabalhamos, vivemos e nos comunicamos.

Atualmente, os smartphones são a melhor plataforma de aplicativos para a tecnologia AI, mas a popularização da tecnologia AI em smartphones é apenas o primeiro passo. No futuro, a tecnologia AI se tornará onipresente e a produtividade e a criatividade das pessoas serão liberadas ainda mais. A Qualcomm há muito tempo sido preparado para isso.

#Bem-vindo a prestar atenção à conta pública oficial do WeChat de Aifaner: Aifaner (ID do WeChat: ifanr), conteúdo mais interessante será apresentado a você o mais rápido possível.

Ai Faner | Link Original · Ver comentários · Sina Weibo