OpenAI precisa de apenas 15 segundos de áudio para sua IA clonar uma voz

abril 1, 2024 gurinho

Nos últimos anos, o tempo de escuta exigido por uma peça de IA para clonar a voz de alguém tem ficado cada vez mais curto .

Antes eram minutos, agora são apenas segundos.

OpenAI, a empresa apoiada pela Microsoft por trás do chatbot de IA generativo viral ChatGPT, revelou recentemente que sua própria tecnologia de clonagem de voz requer apenas 15 segundos de material de áudio para reproduzir a voz de alguém.

Em uma postagem em seu site, a OpenAI compartilhou uma prévia em pequena escala de um modelo chamado Voice Engine, que está sendo desenvolvido desde o final de 2022.

O Voice Engine funciona alimentando-o com no mínimo 15 segundos de material falado. O usuário pode então inserir texto para criar o que a OpenAI descreve como um discurso “emotivo e realista” que “se parece muito com o orador original”.

A OpenAI insiste que está adotando uma “abordagem cautelosa e informada para um lançamento mais amplo devido ao potencial de uso indevido de voz sintética”, acrescentando que deseja “iniciar um diálogo sobre a implantação responsável de vozes sintéticas e como a sociedade pode se adaptar a essas novas capacidades.”

Acrescentou: “Com base nestas conversas e nos resultados destes testes em pequena escala, tomaremos uma decisão mais informada sobre se e como implementar esta tecnologia em escala”.

Um dos usos indevidos a que a OpenAI se refere é um golpe que alguns criminosos já estão realizando usando tecnologia semelhante que está disponível publicamente há algum tempo. Envolve clonar uma voz e depois ligar para um amigo ou parente dessa pessoa para induzi-la a entregar dinheiro por meio de transferência bancária. Há também temores sobre como essa tecnologia poderá ser usada nas próximas eleições presidenciais, uma questão destacada por um recente incidente de grande repercussão em que uma chamada automática usando um clone da voz do presidente Joe Biden disse às pessoas para não votarem nas primárias de janeiro em New Hampshire.

Outra preocupação é como a tecnologia em rápida melhoria afetará os meios de subsistência dos dubladores que temem ser cada vez mais solicitados a assinar os direitos de sua voz para que a IA possa ser usada para criar uma versão sintética, com compensação por tal contrato. provavelmente será muito menor do que se o ator fosse convidado a realizar o trabalho pessoalmente.

Olhando para implantações mais positivas da tecnologia, a OpenAI sugere que ela poderia ser usada para fornecer assistência de leitura para não leitores e crianças usando vozes emotivas e de som natural, “representando uma gama mais ampla de falantes do que é possível com vozes predefinidas”, também como tradução instantânea de vídeos e podcasts, algo que o Spotify já está testando .

Também poderia ser usado para ajudar pacientes que estão perdendo gradualmente a voz devido à doença a continuarem a se comunicar usando o que parece ser sua própria voz.

OpenAI tem alguns exemplos de áudio gerado por IA e áudio de referência em seu site, e temos certeza de que você concordará que eles são extraordinários.