Esta IA clonou minha voz usando apenas três minutos de áudio

janeiro 6, 2023 gurinho

Há uma cena em Missão Impossível 3 da qual você deve se lembrar. Nele, nosso herói. Ethan Hunt (Tom Cruise). aborda o vilão do filme, o mantém sob a mira de uma arma e o força a ler uma bizarra série de frases em voz alta.

“ O prazer da companhia de Busby é o que mais gosto” , lê com relutância . “Ele pôs uma tachinha na cadeira da Srta. Yancy, e ela o chamou de menino horrível. No final do mês, ele estava arremessando dois gatinhos pela largura da sala… ”

Apesar de soar aleatório e sem importância, rapidamente fica claro que as palavras que ele está lendo não são nada aleatórias – elas são deliberadamente projetadas para ajudar um programa de software a clonar sua voz. Depois que ele termina a passagem, o software analisa o áudio e instantaneamente dá a Hunt a capacidade de falar e soar exatamente como o bandido – a peça final de seu disfarce quase perfeito.

Agora, se você pegar essa cena e subtrair toda a espionagem, armas e tensão dramática, ficará com um exemplo bastante sólido do que experimentei na CES hoje durante uma demonstração de My Own Voice , um “banco de voz” alimentado por IA serviço de uma startup francesa chamada Acapela Group.

A razão de ser da empresa é ajudar pessoas que eventualmente perderão a capacidade de falar. Isso é tipicamente algo que acontece como resultado de lesão, doença ou doenças como ELA, doença de Huntington e câncer de laringe. Qualquer que seja a causa, a plataforma My Own Voice da empresa permite que uma pessoa clone sinteticamente sua voz e preserve o tom, o timbre e a personalidade exclusivos que a tornam sua – algo que normalmente se perde com a maioria dos softwares de conversão de texto em fala (pense em Stephen Falcão).

Agora, para ser justo, a tecnologia de clonagem de voz não é necessariamente nova ou tecnologicamente inovadora neste momento. Esses serviços existem há anos e, em parte, graças ao advento dos deepfakes , atualmente existem dezenas de outras empresas que podem fazer o mesmo que o Grupo Acapela faz. Mas há duas grandes coisas que diferenciam My Own Voice do resto do pacote: velocidade e propósito.

My Own Voice é impressionantemente rápido. Ao contrário de outros serviços, que geralmente exigem horas de áudio de referência para criar um clone com som realista, a IA do My Own Voice pode criar um sintético surpreendentemente bom depois de ouvir apenas 50 frases curtas ou cerca de 3 minutos de áudio gravado. É basicamente como aquela cena de Missão Impossível; eles desenvolveram um conjunto simplificado de frases de referência que tornam mais fácil para a IA aprender como você soa; portanto, em vez de gravar manualmente todas as palavras concebíveis, tudo o que você precisa fazer é falar um punhado de frases fáceis.

Indiscutivelmente mais importante do que a velocidade do software, porém, é o seu propósito. Novamente, esta tecnologia não é particularmente nova ou inovadora. Houve um punhado de startups notáveis que criaram tecnologia de clonagem de voz semelhante – como a startup canadense Lyrebird ou a empresa Sonantic, com sede em Londres, por exemplo. Mas ambas as startups foram adquiridas rapidamente, e sua tecnologia de clonagem de voz acabou sendo usada para overdubbing de IA em filmes e software de edição de vídeo .

Isso não quer dizer que esses não sejam bons usos da tecnologia de clonagem de voz. Eles são absolutamente, e provavelmente são bastante lucrativos – mas é exatamente isso que torna My Own Voice tão legal. Não é sempre que você encontra uma tecnologia tão poderosa que, em vez de ser criada para entretenimento ou produtividade, foi desenvolvida especificamente para ajudar pessoas desfavorecidas e, literalmente, dar-lhes voz.