O novo gerador de vídeo para áudio do Google monitora pixels para criar trilhas sonoras

Um lobo gerado por IA uivando
Mente Profunda do Google

Deep Mind exibiu os resultados mais recentes de sua pesquisa generativa de vídeo para áudio de IA na terça-feira. É um novo sistema que combina o que vê na tela com as instruções escritas do usuário para criar paisagens sonoras de áudio sincronizadas para um determinado videoclipe.

A IA V2A pode ser combinada com modelos de geração de vídeo como Veo, escreveu a equipe de áudio generativo da Deep Mind em uma postagem no blog, e pode criar trilhas sonoras, efeitos sonoros e até diálogos para a ação na tela. Além do mais, Deep Mind afirma que seu novo sistema pode gerar “um número ilimitado de trilhas sonoras para qualquer entrada de vídeo”, ajustando o modelo com avisos positivos e negativos que incentivam ou desencorajam o uso de um som específico, respectivamente.

Carros V2A

O sistema funciona primeiro codificando e compactando a entrada de vídeo, que o modelo de difusão aproveita para refinar iterativamente os efeitos de áudio desejados do ruído de fundo com base no prompt de texto opcional do usuário e na entrada visual. Esta saída de áudio é finalmente decodificada e exportada como uma forma de onda que pode então ser recombinada com a entrada de vídeo.

A melhor parte é que o usuário não precisa entrar e sincronizar manualmente (leia-se: tediosamente) as trilhas de áudio e vídeo, pois o sistema V2A faz isso automaticamente. “Ao treinar em vídeo, áudio e anotações adicionais, nossa tecnologia aprende a associar eventos de áudio específicos a várias cenas visuais, enquanto responde às informações fornecidas nas anotações ou transcrições”, escreveu a equipe Deep Mind.

Lobo V2A

O sistema ainda não está aperfeiçoado, no entanto. Por um lado, a qualidade do áudio de saída depende da fidelidade da entrada de vídeo e o sistema falha quando artefatos de vídeo ou outras distorções estão presentes na entrada. De acordo com a equipe Deep Mind, sincronizar o diálogo com a trilha de áudio continua sendo um desafio constante.

“O V2A tenta gerar fala a partir das transcrições de entrada e sincronizá-la com os movimentos labiais dos personagens”, explicou a equipe. “Mas o modelo de geração de vídeo emparelhado pode não estar condicionado às transcrições. Isso cria uma incompatibilidade, muitas vezes resultando em uma sincronia labial estranha, já que o modelo do vídeo não gera movimentos de boca que correspondam à transcrição.”

O sistema ainda precisa passar por “avaliações e testes de segurança rigorosos” antes que a equipe considere lançá-lo ao público. Cada vídeo e trilha sonora gerados por este sistema serão afixados com marcas d’água SynthID da Deep Mind. Este sistema está longe de ser o único IA gerador de áudio atualmente no mercado. Stability AI lançou um produto semelhante na semana passada, enquanto ElevenLabs lançou sua ferramenta de efeitos sonoros no mês passado.