Por que o Spotify está trabalhando em um sistema de reconhecimento de fala?

abril 13, 2021 gurinho

O Spotify, o maior serviço de streaming de música do mundo, recebeu uma patente de tecnologia de reconhecimento de voz para analisar a voz de um usuário e inferir gênero, idade e ambiente. Quando levado com os outros desenvolvimentos da empresa, fica claro que o Spotify, tendo conquistado nossos ouvidos, agora está atrás de nossas vozes também.

Mas por que o Spotify deseja desenvolver esse tipo de reconhecimento de fala e para que ele será usado? Vamos examinar a patente e suas implicações.

Patente de reconhecimento de voz do Spotify

Em 2018, o Spotify apresentou um pedido de patente intitulado " Identificação de atributos de sabor de um sinal de áudio ". Após uma espera de quase três anos, a patente foi concedida em janeiro de 2021. Como o nome sugere, o depósito detalha, a princípio, um sistema que pode tirar áudio gravado do seu ambiente, com ou sem fala, por meio de um conjunto de algoritmos e usar a análise resultante para reproduzir música adequada ao seu ambiente demográfico e atual.

A patente lista alguns exemplos de como o algoritmo pode categorizar dados, incluindo sexo, idade, sotaque, estado emocional, ambiente físico e o número de pessoas. No entanto, o processo segue informando que esta não é uma lista exaustiva, apenas alguns exemplos de como a empresa pode rotular o áudio gravado. Além desses metadados, a patente sugere que o Spotify também pode analisar sua fala.

O que o Spotify poderia usar para reconhecimento de fala?

Atualmente, não há indicação de que o Spotify tenha desenvolvido o sistema proposto descrito na patente. No entanto, ele se alinha com alguns outros projetos nos quais o serviço de streaming de música está trabalhando. Não muito depois que a patente foi concedida no início de 2021, o Spotify lançou um recurso de controle de voz . Usando a palavra de ativação "Ei, Spotify", você pode controlar a reprodução de música dentro do aplicativo apenas por comandos de voz.

Como o Spotify é um aplicativo móvel em vez de um assistente de voz no nível do sistema como o Siri ou o Google Assistant, existem algumas limitações. Por exemplo, o aplicativo precisa ser aberto, o Spotify deve ter acesso ao seu microfone e a tela do seu smartphone precisa ser desbloqueada e ligada. Se o serviço de streaming espera construir um sistema mais abrangente, ele precisará de acesso no nível do sistema ou de seu próprio hardware.

Em 2019, o Spotify testou um dispositivo de hardware baseado em veículo conhecido como Car Thing. Em uma postagem do Spotify Newsroom na época, a empresa disse que o dispositivo permitiria que alguns usuários do Spotify Premium nos Estados Unidos ouvissem música e podcasts em seus carros usando o Car Thing controlado por voz. Ele também observou que eles estavam procurando realizar testes semelhantes conhecidos como Voice Thing e Home Thing.

No entanto, não se sabia muito sobre os testes ou se o Spotify tinha planos de implementá-los de forma mais ampla. Em janeiro de 2021, dois dias após a concessão da patente, o Spotify entrou com um novo pedido junto à FCC para um carro reprojetado com funcionalidade Bluetooth. Embora não haja confirmação oficial de uma data de lançamento, parece que a empresa estava esperando pela patente da análise de áudio antes de prosseguir com seus planos de hardware.

O problema com o aprendizado de máquina

Embora cada vez mais comuns, os sistemas de inteligência artificial não são tão inteligentes quanto parecem à primeira vista. A maioria utiliza aprendizado de máquina, em que o sistema recebe um conjunto de dados de treinamento para aprender. Nesse caso, podem ter sido algumas gravações de áudio, categorizadas por gênero e localização. A IA começa a entender como identificar as diferenças que vê nos dados de treinamento e os classifica de acordo.

No entanto, é aqui que às vezes surgem problemas. Todo mundo tem uma voz, sotaque e tom diferentes. Na maioria dos casos, podemos pegar o telefone e determinar se conhecemos a pessoa do outro lado da linha e, em caso afirmativo, quem é. Isso também ocorre sem nenhum aviso visual, demonstrando como cada voz é única. Um conjunto de dados de treinamento nunca será capaz de capturar esse nível de detalhe e nuance.

Consequentemente, haverá momentos em que o AI fará suposições para que possa produzir um resultado. Se a voz de entrada for um pouco mais baixa, pode ser rotulada como uma voz de homem. Da mesma forma, o inverso pode ser verdadeiro, onde tons mais agudos são marcados como mulheres, por exemplo.

Infelizmente, esse não é apenas um risco teórico, pois houve muitos casos importantes em que os algoritmos de aprendizado de máquina deram errado .

As implicações do sistema do Spotify

Quando pressionadas, a maioria das pessoas lutaria para identificar com precisão um sotaque desconhecido, e isso com uma vida inteira de experiências e memórias das quais extrair. O sistema de aprendizado de máquina só saberá o que está nos dados de treinamento, deixando-o para fazer ainda mais suposições. É fácil ver como isso pode levar a resultados potencialmente problemáticos ou mesmo racistas.

Isso também não é sem precedência. Em 2015, Jacky Alciné, um engenheiro de software, percebeu que o Google Fotos identificou seus amigos negros como gorilas. Depois de uma reação online, o Google afirmou que cuidou desse assunto delicado. No entanto, o WIRED relatou em 2018 que o Google não corrigiu o problema de categorização de imagem subjacente. Em vez disso, a empresa bloqueou apenas termos relacionados a certos primatas como gorila, macaco e chimpanzé de seu sistema de classificação.

O sistema proposto pelo Spotify também tem preocupações potenciais com a privacidade. Para funcionar da maneira que a empresa espera, o recurso de reconhecimento de voz precisa monitorar continuamente o que você está dizendo e o ambiente em que você está. O recurso sempre ligado é um problema de privacidade pessoal, mas também pode levar a uma aplicação invasiva da lei ou vigilância governamental.

Alguns também desconfiam do recurso de detecção de emoções. Conforme descrito, o algoritmo do Spotify identificaria seu estado emocional e tocaria música apropriada para o humor, uma vez que seu áudio fosse analisado. No entanto, isso é sustentado pela suposição de que, se você está em um espaço físico específico, deseja permanecer lá por meio da música. Também está sujeito a abusos por parte de empresas de tecnologia.

Por exemplo, em 2012, o Facebook realizou um experimento secreto ao mostrar conteúdo positivo ou negativo em mais de meio milhão de feeds de usuários para ver como isso afetava seu estado emocional. Por essas razões, a Access Now , uma organização de direitos humanos, enviou uma carta aberta ao Spotify pedindo à empresa que abandonasse o sistema.

O futuro da música personalizada?

O Spotify foi uma das primeiras empresas a criar um serviço de streaming de música atraente. A interface e o vasto catálogo o tornam um favorito em todo o mundo. O serviço também se integra perfeitamente com a maioria dos assistentes digitais e equipamentos domésticos inteligentes. Ao longo dos anos, a empresa tornou mais fácil para você descobrir novas músicas ou desfrutar de suas favoritas com listas de reprodução geradas por algoritmos.

Em teoria, o reconhecimento de voz sempre ativo deve levar essa personalização um passo adiante, para que o serviço de streaming possa captar passivamente seu humor e ambiente para tocar a melhor música no momento certo. No entanto, a natureza de escuta constante da tecnologia tem implicações de privacidade de longo alcance que podem superar qualquer conveniência oferecida pela plataforma.