Um dos vilões mais famosos da história do cinema “não falará palavras humanas” no futuro
No filme de ficção científica de ação de Ang Lee, Gemini Man, o agente do governo Henry está prestes a se aposentar quando se vê sendo caçado por um clone 23 anos mais novo.
Para conseguir esse efeito, Ang Lee usou efeitos especiais de captura de movimento para restaurar delicadamente o rosto humano, fazendo Will Smith "rejuvenescer". Um jovem com "pele perfeita de 23 anos" também contribuiu com seus dados para o clone.
Ninguém é jovem para sempre, e alguém é sempre jovem.
Mas "dublês digitais" podem ser mais gananciosos, além de ter skins sem idade, também podem ter vozes sem idade.
Invoque a máquina do tempo
Darth Vader de "Star Wars", que caiu no lado negro da Força por causa de sua destruição física e mental, é o vilão número um da trilogia original, e também é o mais contraditório e trágico da série Star Wars. .
Em 2003, o American Film Institute classificou Darth Vader como o terceiro maior vilão de cinema do século, atrás de Hannibal de Silence of the Lambs e Norman Bates de Psycho.
James Earl Jones tem sido a voz de Darth Vader desde que Lucas lançou o primeiro "Star Wars" em 1977, e sua voz se tornou um personagem por quase metade da vida de uma pessoa.
▲ Imagem de: screenrant
A voz poderosa, mas levemente abafada de Darth Vader, combinada com o som de uma respiração profunda, causou arrepios na espinha.
Mas os seres humanos acabarão envelhecendo, e Jones completa 91 anos este ano, e é hora de pensar em encerrar sua carreira de dublador.Ele decidiu licenciar a voz para a startup ucraniana Respeecher.
Usando gravações anteriores e algoritmos de IA proprietários, o Respeecher pode criar novas falas a partir de vozes antigas.
▲ Repórter. Imagem de: inverse
A mais recente conquista é o spin-off de Star Wars "Obi-Wan Kenobi" , que terminou em junho deste ano.
No programa, Respeecher recria a voz de Jones de décadas atrás, em vez de sua voz real, envelhecida em Star Wars: The Rise of Skywalker de 2019.
Para um personagem como Darth Vader, 50 linhas podem exigir quase 10.000 arquivos para alternar, e a maior parte do trabalho é gasto em mudanças de diálogo e sintonia fina.
Um detalhe interessante é que no episódio 3 de Obi-Wan Kenobi de Darth Vader, Respeecher também foi creditado .
▲ Foto de: Lucasfilm
Esta não é a primeira vez que a Respeecher se uniu à Lucasfilm, que também “dubla” uma versão mais jovem de Luke Skywalker nos spinoffs de Star Wars “The Mandalorian” e “The Book of Boba Fett”.
Mark Hamill, que interpretou Luke Skywalker na trilogia Star Wars, que decorreu de 1977 a 1983, também completa 70 anos este ano.
No último episódio da segunda temporada de "The Mandalorian", apareceu Luke Skywalker, que tinha menos de 20 anos. A imagem foi feita pela empresa de efeitos visuais Lola VFXcom Deepfake e duplas, e a voz era "clone" pelo Relator.
▲ "O Livro de Boba Fett" Luke Skywalker CGI.
▲ 1983 "Star Wars VI" Luke Skywalker.
O que o Respeecher faz é inserir horas de gravações de alta qualidade e analisar a fala com o software de síntese de fala AI e algoritmos de super-resolução de áudio até que o sistema seja capaz de "clonar".
Assim como a clonagem de ovelhas requer DNA, e a voz clonada tem entrada antes da saída, detalhes como o estilo de fala e os altos e baixos da gravação são muito importantes.
Então, esse trabalho ainda é altamente relevante para as pessoas. “A tecnologia ainda não pode criar performances.” Sem performances live-action anteriores, Respeecher seria impotente.
A partir dessa perspectiva, a IA da Respeecher é como um dispositivo de som em uma máquina do tempo – ela recria um momento específico do passado de alguém .
▲ Luke Skywalker em O Mandaloriano.
A fim de trazer o jovem Skywalker de volta à vida, Respeecher coletou as dublagens de Mark Hamill, entrevistas, suplementos de diálogo, transmissões de rádio e muito mais, por volta de 1983.
Aqui está outra dificuldade: fazer com que quase 40 anos de dados pareçam ter sido gravados ontem.
No final, Luke Skywalker disse apenas algumas falas nos dois spin-offs. No entanto, não há necessidade de quantificar o curto e o longo, garantindo que a fala sintetizada seja indistinguível da fala original, e o público desconheça completamente se é real ou não, que é o que o Respeecher deseja.
A startup, fundada em 2018, tem um objetivo simples: clonar a fala humana desavisada.
Além da doença e da vida e da morte
Os seres humanos nascem limitados e não podem escapar da velhice, doença e morte, mas a tecnologia pode expandir os limites do corpo físico.
Não é a primeira vez, e não será a última, clonar uma voz de celebridade.
O lançamento de 2022 de "Top Gun: The Lone Ranger" é uma sequência de "Top Gun", de 1986, no qual "Iceman" Kazansky foi mais uma vez trazido à tela por Val Kilmer, de 62 anos.
Mas não foi fácil voltar, e Kilmer perdeu a voz para sempre desde que foi tratado de câncer de garganta em 2014.
Portanto, o roteiro de "Top Gun: The Lone Ranger" é baseado na vida real de Kilmer, "Iceman" também sofre de câncer e se comunica digitando , e fala apenas uma pequena fala no filme.
▲ Foto de: pagesix
Na vida real, a voz de Kilmer foi "recuperada" pela IA. Em 2020, Kilmer começou a trabalhar com a empresa de voz de IA Sonantic .
Depois de receber horas de imagens antigas, a Sonantic primeiro remove o ruído de fundo sem destruir o conteúdo da fala, depois gera um script a partir do áudio, emparelhando o áudio e o texto peça por peça, e o mecanismo de fala usa esses dados para treinar um modelo de fala.
A dificuldade é que Kilmer forneceu cerca de 10 vezes menos dados do que seus projetos anteriores. Para isso, a Sonantic trabalhou em novos algoritmos, gerando mais de 40 modelos de fala diferentes e entregando o melhor para Kilmer.
▲ Foto de: vanityfair
Com um modelo de fala personalizado, Kilmer e sua equipe inserem texto, selecionam o modo apropriado e ajustam parâmetros como tom, ritmo e muito mais para obter uma comunicação realista.
Não é apenas uma conquista tecnológica, é sobre comunicação e conexão humana. O próprio Kilmer mencionou em um comunicado:
Como seres humanos, a capacidade de comunicação está no centro de nossa existência, e o impacto do câncer de garganta tornou difícil para os outros me entenderem. Foi um presente muito especial ter a oportunidade de contar minha história com uma voz autêntica e familiar.
Há também exemplos desse tipo no país. Em 2021, o Himalaya usou a tecnologia de síntese de fala para deixar o falecido mestre Shan Tianfang "falar novamente"; em 2018, o documentário "Innovative China" usou IA para restaurar a voz do mestre de dublagem Li Yi.
Então, quando você deixa rastros no mundo, você não pode facilmente "tirar suas roupas e esconder seus méritos e fama".
Para celebridades que ainda precisam ganhar a vida, vozes clonadas podem ser um "caminho para o céu". Se o modelo de mudança de rosto da IA Deepfake permitir que as celebridades "aluguem" seus rostos, pode ganhar muito dinheiro, e os modelos de voz são comparáveis.
A Sonantic, que "restaura" a voz de Kilmer, tem outro negócio: criar modelos sonoros para atores com vozes normais.
▲ Foto de: a beira
A plataforma primeiro fornece scripts de configuração, os atores gravam o desempenho desses scripts e, em seguida, inserem o áudio gravado no mecanismo de fala e usam o mecanismo para treinar o modelo de IA. No final, quando o som sintético é comercializado, os atores podem obter uma participação nos lucros enquanto estão deitados, sem precisar fazer isso sozinhos ou se preocupar em ficar incapacitados.
Em maio de 2021, a empresa americana de tecnologia de IA Veritone também lançou uma plataforma semelhante Marvel.AI . A empresa acredita que “para atletas, atores e influenciadores, a voz é um grande trunfo para sua marca pessoal”.
▲ Foto de: Veritone
Mas isso é inevitável para ser preguiçoso.Se as celebridades não estão dispostas a endossar a si mesmas, por que os consumidores deveriam pagar por elas? A Veritone recomenda a criação de padrões da indústria, como informar antecipadamente aos ouvintes que se trata de um discurso sintético, ou seja, "um está disposto a lutar e o outro está disposto a sofrer".
Com tecnologia e plataformas, a clonagem de celebridades e as vozes de aluguel podem ser uma cadeia da indústria, que também é uma manifestação da tecnologia que transcende as restrições físicas e de espaço-tempo.
O futuro de todos ter um "dublê de voz" está longe?
É verdade que a clonagem de voz não é novidade, mas ainda requer um processo cada vez mais real e fácil, e está longe do fim.
Os clones de voz estão se tornando cada vez mais populares nos cantos que podemos ou não ver, não apenas um jogo para algumas pessoas como celebridades, estrelas, etc.
Em 2017, a startup canadense de IA Lyrebird desenvolveu uma tecnologia de síntese de fala, alegando que seu algoritmo pode clonar a voz de qualquer pessoa com uma amostra de áudio de 1 minuto.
▲ Lyrebird.
1 minuto é um número incrível. O Project VoCo da Adobe na época exigia pelo menos 20 minutos de áudio de amostra.
No exemplo dado por Lyrebird, Hillary, Clinton e Trump conversaram e riram juntos, desejando a Lyrebird um futuro brilhante juntos. Suas vozes e entonações ainda são um pouco diferentes das pessoas reais, e o sentido mecânico é um pouco pesado, mas é o suficiente para fazer os olhos das pessoas brilharem.
Lyrebird diz que gerar impressões de voz requer um poder computacional considerável, mas uma vez feito isso, a produção de fala é fácil, criando mil frases em menos de meio segundo.
Isso é como uma profecia: cruze o limiar da realidade e da maquinaria, e então tudo ficará tranquilo.
Além de exigir menos áudio de amostra, a clonagem de voz já está incorporada nas ferramentas criativas ao seu alcance.
▲ Descrição.
A Descript, uma empresa americana de edição de áudio e vídeo, desenvolveu uma função de edição de podcast "Overdu", que pode clonar a voz do criador, e o criador pode inserir as palavras necessárias para gerar um novo áudio com a voz original, o que é conveniente para modificar podcasts.
Mas também está longe de ser perfeito. Um repórter do The Verge descobriu que, por um lado, para treinar a IA, muito áudio precisa ser pré-gravado; por outro lado, o áudio gerado carece de emoção e cadência, mas soa como ele mesmo, o que é estranho e inexplicavelmente familiar.
Enquanto as startups estão surgindo em todos os lugares, as grandes empresas de tecnologia acumularam muito.
Na conferência re:MARS da Amazon em junho, o cientista-chefe da Amazon, Rohit Prasad, disse que a Amazon está desenvolvendo tecnologia que permitiria que seu assistente inteligente Alexa imitasse a voz de qualquer pessoa com menos de um minuto de áudio .
▲ Imagem de: techcrunch
Qualquer um, é claro, inclui parentes falecidos. A Amazon também fez uma demonstração relacionada: uma criança disse a Alexa para ouvir a história de ninar "O Mágico de Oz", e o som que saía do alto-falante não era o som mecânico usual, mas a voz de uma avó falecida.
A Amazon não revelou mais detalhes sobre os novos recursos do Alexa, mas a tecnologia subjacente existe há vários anos.
É previsível que, embora os clones de voz não possam substituir verdadeiramente as vozes humanas, eles serão amplamente utilizados, como audiolivros, assistentes de voz, videogames etc.
A Sonantic disse uma vez : "O que o CGI (imagens geradas por computador) faz pela visão é o que a Sonantic faz pelo áudio".
Do outro lado da moeda, somos cautelosos com "duplas de voz".
▲ Imagem de: Face2Face
Afinal, as mentiras políticas e a pornografia do Deepfake causaram muitos efeitos negativos, então não é difícil imaginar para que será usado o modelo de voz. Se não for verificado, teremos um futuro em que as fotos podem ser falsificadas e as gravações de áudio não confiáveis.
Alguns meses atrás, a Microsoft lançou novas regras de ética de IA que restringirão severamente quem pode criar vozes sintéticas, como elas podem ser usadas e sobrepor vozes artificiais com uma “marca d'água” que evita abusos.
Respeecher, que se dedica a "Guerra nas Estrelas", certa vez lançou um curta-metragem "1969" em que o presidente anunciava um desastre em grande escala na Lua. Parece muito "real", mas tudo é falso.
O clipe termina com um lembrete: "Este projeto usa uma variedade de tecnologias, incluindo substituição de diálogo de vídeo, sistemas de voz e edição de vídeo mais tradicional, para mostrar como pode ser a desinformação. Verifique suas fontes".
Então, o Respeecher não está tentando provar que as notícias e a história podem ser manipuladas.
Pelo contrário, eles querem conscientizar as pessoas sobre a existência e utilidade da tecnologia, bem como suas limitações e malícia. Agora que a roda foi rolada para frente e vista mais, ela pode ser melhor regulada e usada.
#Bem-vindo a prestar atenção à conta oficial do WeChat de Aifaner: Aifaner (WeChat: ifanr), conteúdo mais interessante será trazido para você o mais rápido possível.