O novo gerador de vídeo para áudio do Google monitora pixels para criar trilhas sonoras

junho 18, 2024 gurinho

Um lobo gerado por IA uivando — Mente Profunda do Google

Deep Mind exibiu os resultados mais recentes de sua pesquisa generativa de vídeo para áudio de IA na terça-feira. É um novo sistema que combina o que vê na tela com as instruções escritas do usuário para criar paisagens sonoras de áudio sincronizadas para um determinado videoclipe.

A IA V2A pode ser combinada com modelos de geração de vídeo como Veo, escreveu a equipe de áudio generativo da Deep Mind em uma postagem no blog, e pode criar trilhas sonoras, efeitos sonoros e até diálogos para a ação na tela. Além do mais, Deep Mind afirma que seu novo sistema pode gerar “um número ilimitado de trilhas sonoras para qualquer entrada de vídeo”, ajustando o modelo com avisos positivos e negativos que incentivam ou desencorajam o uso de um som específico, respectivamente.

Carros V2A

O sistema funciona primeiro codificando e compactando a entrada de vídeo, que o modelo de difusão aproveita para refinar iterativamente os efeitos de áudio desejados do ruído de fundo com base no prompt de texto opcional do usuário e na entrada visual. Esta saída de áudio é finalmente decodificada e exportada como uma forma de onda que pode então ser recombinada com a entrada de vídeo.

A melhor parte é que o usuário não precisa entrar e sincronizar manualmente (leia-se: tediosamente) as trilhas de áudio e vídeo, pois o sistema V2A faz isso automaticamente. “Ao treinar em vídeo, áudio e anotações adicionais, nossa tecnologia aprende a associar eventos de áudio específicos a várias cenas visuais, enquanto responde às informações fornecidas nas anotações ou transcrições”, escreveu a equipe Deep Mind.

Lobo V2A

O sistema ainda não está aperfeiçoado, no entanto. Por um lado, a qualidade do áudio de saída depende da fidelidade da entrada de vídeo e o sistema falha quando artefatos de vídeo ou outras distorções estão presentes na entrada. De acordo com a equipe Deep Mind, sincronizar o diálogo com a trilha de áudio continua sendo um desafio constante.

“O V2A tenta gerar fala a partir das transcrições de entrada e sincronizá-la com os movimentos labiais dos personagens”, explicou a equipe. “Mas o modelo de geração de vídeo emparelhado pode não estar condicionado às transcrições. Isso cria uma incompatibilidade, muitas vezes resultando em uma sincronia labial estranha, já que o modelo do vídeo não gera movimentos de boca que correspondam à transcrição.”

O sistema ainda precisa passar por “avaliações e testes de segurança rigorosos” antes que a equipe considere lançá-lo ao público. Cada vídeo e trilha sonora gerados por este sistema serão afixados com marcas d’água SynthID da Deep Mind. Este sistema está longe de ser o único IA gerador de áudio atualmente no mercado. Stability AI lançou um produto semelhante na semana passada, enquanto ElevenLabs lançou sua ferramenta de efeitos sonoros no mês passado.