Em apenas 15 minutos, o iPhone pode “copiar” sua voz

O "som eletrônico mecânico" de Stephen Hawking pode ser um dos sons mais reconhecíveis do mundo.

Mas essa não era a própria voz de Hawking.

Numa época em que Hawking perdeu a capacidade de falar devido à ELA, a tecnologia não era suficiente para permitir que ele gerasse sua própria voz. Na verdade, muito poucas pessoas têm acesso a um sintetizador de voz.

Hoje, embora os pacientes com ELA tenham mais opções para síntese de fala, o custo geral e o limite de tempo ainda não são baixos e a popularidade é limitada.

Recentemente, a Apple anunciou um novo recurso sem barreiras Personal Voice (ainda não online), que não apenas permite aos usuários "fazer backup" de suas vozes gratuitamente, mas também faz uma tentativa interessante de aplicar com segurança a tecnologia AI.

Apenas 15 minutos de "afinação" podem gerar sua voz

▲ Imagem da Fastcompany

Em uma época em que a IA generativa pode imitar tudo, usar IA para imitar a voz de uma pessoa não soa como uma novidade, apenas parece um risco à segurança.

O que estou curioso é mais sobre como a Apple pode implementar com segurança e eficiência a função Personal Voice.

Segundo relatos, os usuários de iPhone, iPad e Mac só precisam gravar 15 minutos de áudio de acordo com os prompts, e a Apple gerará a mesma voz do usuário com base na tecnologia de aprendizado de máquina no lado do dispositivo.

Em contraste, as empresas que fornecem serviços profissionais de síntese de fala para grupos afásicos podem precisar usar equipamentos profissionais para gravar várias horas de material de fala, e o preço pode começar em centenas de dólares.

Outro novo recurso sem barreiras, o Live Speech, permite que os usuários insiram texto para gerar conteúdo de voz ao fazer uma chamada telefônica, FaceTime ou falar cara a cara com outras pessoas, fornecendo outra maneira para usuários afásicos ou inconvenientes para falar.

Combinando as duas funções de voz pessoal e fala ao vivo, os usuários afásicos podem se comunicar com outras pessoas usando uma voz gerada próxima à sua voz original.

É conveniente de usar, mas como impedir que alguém gere as vozes de outras pessoas usando materiais de voz coletados na Internet?

  1. Randomização de materiais.

No processo de gravação de 15 minutos de material de voz, a Apple irá gerar aleatoriamente o conteúdo que precisa ser lido pelo usuário, reduzindo a possibilidade de outras pessoas adivinharem o material.

  1. Barreira de distância física.

Durante o processo de gravação, o usuário precisa concluir a gravação em um espaço específico de 6 a 10 polegadas (aproximadamente 15 a 25 cm) do dispositivo.

Durante o processo de geração, todos os dados serão preenchidos localmente no dispositivo por meio do Neural Engine da Apple (Neural Engine), sem upload para a nuvem para processamento.

Após a síntese de fala, se um aplicativo de terceiros quiser usar o Personal Voice, ele deverá obter autorização explícita do usuário.

Mesmo quando o uso de um aplicativo de terceiros for autorizado, a Apple adotará proteção de segundo plano adicional para garantir que o aplicativo de terceiros não possa obter o Personal Voice e o material de voz previamente gravado pelo usuário.

Se você é um usuário do "balde familiar" da Apple, depois de gerar sua própria voz pessoal, você também pode sincronizá-la com diferentes dispositivos através do iCloud e criptografá-la de ponta a ponta.

Somente quando você perde sua própria voz você entende o quanto é importante

Os seres humanos são criaturas emocionais e o som é um poderoso gatilho emocional.

Estudos mostraram que quando uma pessoa ouve a voz da mãe, o corpo libera níveis de oxitocina semelhantes aos produzidos ao abraçar a mãe. Outro estudo observou que ouvir a própria voz aumenta a automotivação de uma pessoa.

Isso soa um pouco abstrato.

Mas quando a perdemos, a importância se torna aparente.

Em março de 2021, Ruth Brunton foi diagnosticada com ELA. No Natal daquele ano, ela ficou sem palavras.

Cerca de 25 por cento das pessoas com ELA têm a forma de "início bulbar" da ELA, que se manifesta principalmente em dificuldades de fala ou deglutição. A fala desses pacientes gradualmente se tornará arrastada, nasal e até afasia.

A ação de Brunton foi muito decisiva: após o diagnóstico, ele imediatamente encontrou uma empresa para fazer geração de fala.

Demorou um mês para ir e vir e registrar um corpus de mais de 3.000 frases, mas o resultado final não foi o ideal.

Essa empresa usa uma técnica chamada "seleção de unidades".

Para colocá-lo de forma simples e grosseira, é conseguir a geração de fala por meio de "splicing", dividindo o corpus em um grande número de pequenas unidades de fala e, em seguida, juntando os elementos conforme necessário.

▲ Sob a tecnologia de seleção de unidades, a palavra "Bob" pode ser dividida em diferentes elementos fonéticos, retratados no "Washington Post"

A fala gerada por esta tecnologia pode ser ouvida claramente, mas será um pouco eletrônica e soará pouco natural.

Como resultado, o corpus gravado por Brunton combinou com uma voz chamada "Heather" da Microsoft… Não só a voz não se parecia com a sua, como também forçou os britânicos a "falar" com sotaque americano.


▲ A própria voz real de Brunton

▲ A voz da versão sintetizada de Brunton

Preso nessa voz, Brunton "só falará quando necessário, não mais porque quer falar".

A conversa de flerte com o marido havia acabado e Brunton estava menos inclinado a participar de conversas em grupo.

Mesmo dizer "eu te amo" com uma voz que não soa como a sua, parece ter um significado diminuído.

Seis meses depois, Brunton e seu marido recuperaram o material de voz gravado original, fundaram outra empresa e usaram a tecnologia de IA para sintetizar uma voz mais parecida com a dela:

Pode parecer bobo, mas recuperar minha voz me deu mais confiança.

John M. Costello, que dirige o projeto "Enhanced Communication" no Boston Children's Hospital, notou que os pacientes que usam a fala gerada de forma mais realista parecem ser capazes de formar conexões mais profundas com as pessoas próximas a eles.

No Natal de 2022, Brunton, que "recuperou uma nova voz", também gravou uma mensagem festiva com voz.

▲ Ruth sente que a nova voz sintética é mais parecida com ele

No entanto, logo após o Natal, Brunton contraiu a nova coroa e finalmente faleceu em fevereiro deste ano.

Na noite em que ela partiu, seu marido David segurou sua mão a noite toda:

Temos dois anos para dizer adeus.

Combinamos, vamos falar o que quisermos.

É difícil imaginar se Brunton não tivesse mudado para uma voz mais parecida com a dela, se ela seria capaz de dizer tudo o que queria dizer livremente.

O pensamento sem barreiras ilumina a inspiração, a IA aumenta a produtividade

Sempre acreditei que o que o design sem barreiras escava são, na verdade, os recursos imaginativos criados pela diversidade humana.

Procuramos pessoas que têm experiências de vida completamente diferentes das nossas, ouvimos histórias e experiências que são menos contadas e criamos um novo modo de vida que nunca imaginamos antes, mas que é amigável para mais pessoas.

O Personal Voice pode permitir que pacientes de ELA com afasia recuperem a voz; também pode me ajudar a usar minha própria voz para falar com outras pessoas depois de experimentar a "voz de lâmina"; até mesmo, é difícil para mim evitar imaginar se devo usar isso Salve sua voz de "backup" para aqueles próximos a você, para que você não morra repentinamente um dia.

E a tecnologia AI é realizar essa produtividade imaginativa.

Como o editor Du disse antes , embora a Apple não acompanhe a empolgação da IA ​​generativa, a Apple sempre usou a IA para melhorar a experiência do usuário, melhorando a eficiência e protegendo a privacidade.

Melhorar a eficiência consiste em melhorar os algoritmos e modelos de aprendizado de máquina executados localmente.

Além do Personal Voice, outro recurso de acessibilidade que a Apple visualizou desta vez, Point and Speak, também usa tecnologia de aprendizado de máquina no lado do dispositivo local.

Futuramente, os usuários com deficiência visual poderão usar os próprios dedos para transformar o iPhone em um "leitor de ponto" no amplificador que acompanha o iPhone, combinado com as funções Apontar e Falar e narração – onde clicar, deixar o O iPhone lê o texto para você.

A função de "detecção de porta" do ano passado funciona de maneira semelhante, permitindo que o aprendizado de máquina no lado do dispositivo ajude os usuários com deficiência visual a identificar a porta e ler as informações na porta e nos sinais ao redor.

Quanto à privacidade, de acordo com Jobs, "se você precisar dos dados deles (usuários), pergunte a eles (usuários). Sempre."

Isso também é especialmente importante em termos de design de acessibilidade – porque a origem desses designs funcionais é atender pessoas que são ignoradas pelo chamado "design convencional", muitas vezes são grupos mais vulneráveis, por isso é ainda mais necessário garantir que a privacidade desses usuários não é violada.

Nesse contexto, também podemos iniciar mais discussões sobre direitos de aplicação de dados e transparência.

Quando a Apple criou o Personal Voice desta vez, ela cooperou com a Team Gleason Foundation, uma organização sem fins lucrativos que ajuda pacientes com ELA.

▲ Blair Casey, CEO da Team Gleason Foundation (à direita)

O CEO da agência, Blair Casey, tem pressionado as empresas de geração de voz a definir um conjunto de configurações padrão de material de gravação, para que os usuários possam gravar diretamente essa parte do material e experimentar os efeitos de voz gerados por diferentes empresas, em vez de "apostas cegas". como é agora.".

Ao mesmo tempo, Casey também defende que as empresas de geração de fala forneçam aos usuários os dados do material de fala gravado (porque muitos usuários podem ficar afásicos após a gravação), para que não queiram usar esses dados em outras tecnologias no futuro:

Você não gostaria de tentar se uma tecnologia melhor surgisse?

Se você não conseguir recuperar seu material de voz, não poderá tentar.

A IA pode ser a maior produtividade do nosso tempo.

No entanto, como usar essa força, talvez o design sem barreiras orientado para as pessoas possa fornecer muita orientação.

#Bem-vindo a seguir a conta pública oficial do WeChat de Aifaner: Aifaner (ID do WeChat: ifanr), conteúdo mais interessante será apresentado a você o mais rápido possível.

Ai Faner | Link Original · Ver comentários · Sina Weibo