Esta IA pode falsificar sua voz após apenas três segundos

A inteligência artificial (IA) está tendo um momento agora , e o vento continua soprando em suas velas com a notícia de que a Microsoft está trabalhando em uma IA que pode imitar a voz de qualquer pessoa após receber uma pequena amostra de três segundos.

A nova ferramenta, apelidada de VALL-E, foi treinada em cerca de 60.000 horas de dados de voz no idioma inglês, que a Microsoft diz ser “centenas de vezes maior que os sistemas existentes”. Usando esse conhecimento, seus criadores afirmam que é necessário apenas um pequeno conhecimento de voz para entender como replicar a voz de um usuário.

homem falando no telefone

Mais impressionante, o VALL-E pode reproduzir as emoções, tons vocais e ambiente acústico encontrados em cada amostra, algo com o qual outros programas de AI de voz têm lutado. Isso lhe dá uma aura mais realista e aproxima seus resultados de algo que poderia passar por fala humana genuína.

Quando comparado a outros concorrentes de conversão de texto em fala (TTS), a Microsoft diz que o VALL-E “supera significativamente o sistema TTS zero-shot de última geração em termos de naturalidade da fala e similaridade do locutor”. Em outras palavras, o VALL-E soa muito mais como humanos reais do que IAs rivais que encontram entradas de áudio nas quais não foram treinados.

No GitHub, a Microsoft criou uma pequena biblioteca de amostras criadas usando VALL-E. Os resultados são muito impressionantes, com muitas amostras que reproduzem a cadência e o sotaque das vozes dos palestrantes. Alguns dos exemplos são menos convincentes, indicando que o VALL-E provavelmente não é um produto acabado, mas no geral o resultado é convincente.

Enorme potencial – e riscos

Uma pessoa realizando uma chamada de vídeo em um dispositivo Microsoft Surface executando o Windows 11.

Em um artigo apresentando o VALL-E , a Microsoft explica que o VALL-E “pode acarretar riscos potenciais no uso indevido do modelo, como falsificação de identificação de voz ou personificação de um locutor específico”. Uma ferramenta tão capaz de gerar uma fala com som realista levanta o espectro de deepfakes cada vez mais convincentes , que poderia ser usado para imitar qualquer coisa, desde um ex-parceiro romântico até uma personalidade internacional proeminente.

Para mitigar essa ameaça, a Microsoft diz que “é possível construir um modelo de detecção para discriminar se um clipe de áudio foi sintetizado pelo VALL-E”. A empresa diz que também usará seus próprios princípios de IA ao desenvolver seu trabalho. Esses princípios abrangem áreas como justiça, segurança, privacidade e responsabilidade.

O VALL-E é apenas o exemplo mais recente da experiência da Microsoft com IA. Recentemente, a empresa tem trabalhado na integração do ChatGPT ao Bing , usando IA para recapitular as reuniões do Teams e inserir ferramentas avançadas em aplicativos como Outlook, Word e PowerPoint . E de acordo com a Semafor, a Microsoft pretende investir US$ 10 bilhões na fabricante do ChatGPT, OpenAI , uma empresa na qual já investiu fundos significativos.

Apesar dos riscos aparentes, ferramentas como o VALL-E podem ser especialmente úteis na medicina, por exemplo, para ajudar pessoas a recuperar a voz após um acidente. Ser capaz de replicar a fala com um conjunto de entrada tão pequeno pode ser imensamente promissor nessas situações, desde que seja feito corretamente. Mas com todo o dinheiro sendo gasto em IA – tanto pela Microsoft quanto por outros – fica claro que não vai acabar tão cedo.