Como funciona o reconhecimento de voz?

Às vezes, nos encontramos falando com nossos dispositivos digitais mais do que outras pessoas. Os assistentes digitais em nossos dispositivos usam reconhecimento de voz para entender o que estamos dizendo. Por causa disso, somos capazes de gerenciar muitos aspectos de nossas vidas apenas conversando com nosso telefone ou alto-falante inteligente.

Mesmo que o reconhecimento de voz seja uma parte tão grande de nossas vidas, normalmente não pensamos sobre o que o faz funcionar. Muitas coisas acontecem nos bastidores com reconhecimento de voz, então aqui está um resumo do que o faz funcionar.

O que é reconhecimento de voz?

Dispositivos modernos geralmente vêm carregados com um assistente digital, um programa que usa reconhecimento de voz para realizar certas tarefas em seu dispositivo. O reconhecimento de voz é um conjunto de algoritmos que os assistentes usam para converter sua fala em um sinal digital e verificar o que você está dizendo. Programas como o Microsoft Word usam reconhecimento de voz para ajudar a digitar palavras.

O primeiro sistema de reconhecimento de voz

O primeiro sistema de reconhecimento de voz foi chamado de sistema Audrey. O nome era uma contração de "Reconhecimento Automatizado de Dígitos". Inventado em 1952 pela Bell Laboratories, Audrey era capaz de reconhecer dígitos numéricos. O orador dizia um número e Audrey acendia uma das 10 lâmpadas correspondentes.

Por mais inovadora que seja esta invenção, não foi bem recebida. O próprio sistema de computador tinha cerca de um metro e oitenta de altura e ocupava uma enorme quantidade de espaço. Independentemente do tamanho, ele só conseguia decifrar os números de 0 a 9. Além disso, apenas uma pessoa com um tipo específico de voz poderia usar Audrey, então ela era operada principalmente por uma pessoa.

Embora tivesse seus defeitos, Audrey foi o primeiro passo em uma longa jornada para tornar o reconhecimento de voz o que é hoje. Não demorou muito para que surgisse o próximo sistema de reconhecimento de voz, que podia entender sequências de palavras.

Relacionado: Como bloquear / desbloquear um telefone Android com sua voz usando o Google Assistente

O reconhecimento de voz começa com a conversão do áudio em um sinal digital

Os sistemas de reconhecimento de voz precisam seguir certas etapas para descobrir o que estamos dizendo. Quando o microfone do dispositivo capta o áudio, ele é convertido em uma corrente elétrica que desce para o conversor analógico para digital (ADC). Como o nome sugere, o ADC converte a corrente elétrica (AKA, o sinal analógico) em um sinal digital binário.

À medida que a corrente flui para o ADC, ele coleta amostras da corrente e decifra sua tensão em determinados pontos no tempo. A tensão em um determinado momento é chamada de amostra. Cada amostra tem apenas vários milésimos de segundo de duração. Com base na tensão da amostra, o ADC atribuirá uma série de oito dígitos binários (um byte de dados).

O áudio é processado para maior clareza

Para que o dispositivo compreenda melhor o alto-falante, o áudio precisa ser processado para melhorar a clareza. O dispositivo às vezes tem a tarefa de decifrar a fala em um ambiente barulhento; portanto, certos filtros são colocados no áudio para ajudar a eliminar o ruído de fundo. Para alguns sistemas de reconhecimento de voz, as frequências mais altas e mais baixas do que a faixa de audição humana são filtradas.

O sistema não se livra apenas de frequências indesejadas; certas frequências no áudio também são enfatizadas para que o computador possa reconhecer melhor a voz e separá-la do ruído de fundo. Alguns sistemas de reconhecimento de voz realmente dividem o áudio em várias frequências discretas.

Relacionado: Como ensinar o Google Assistente a pronunciar seu nome corretamente

Outros aspectos, como a velocidade e o volume do áudio, são ajustados para melhor corresponder às amostras de áudio de referência que o sistema de reconhecimento de voz usa para comparar. Esses processos de filtragem e eliminação de ruído realmente ajudam a melhorar a precisão geral.

O sistema de reconhecimento de voz então começa a fazer palavras

Existem duas maneiras populares de os sistemas de reconhecimento de voz analisarem a fala. Um é chamado de modelo de Markov oculto e o outro método é por meio de redes neurais.

O Método do Modelo de Markov Oculto

O modelo oculto de Markov é o método empregado na maioria dos sistemas de reconhecimento de voz. Uma parte importante desse processo é decompor as palavras faladas em seus fonemas (o menor elemento de uma língua). Há um número finito de fonemas em cada idioma, e é por isso que o método do modelo oculto de Markov funciona tão bem.

Existem cerca de 40 fonemas na língua inglesa. Quando o sistema de reconhecimento de voz identifica um, ele determina a probabilidade de qual será o próximo.

Por exemplo, se o falante emitir o som "ta", há uma certa probabilidade de que o próximo fonema seja "p" para formar a palavra "toque". Também existe a probabilidade de que o próximo fonema seja "s", mas isso é muito menos provável. Se o próximo fonema se assemelhar a "p", o sistema pode presumir com grande certeza que a palavra é "toque".

O Método da Rede Neural

Uma rede neural é como um cérebro digital que aprende da mesma forma que um cérebro humano. As redes neurais são fundamentais para o progresso da inteligência artificial e do aprendizado profundo.

O tipo de rede neural que o reconhecimento de voz usa é chamado de Rede Neural Recorrente (RNN). De acordo com GeeksforGeeks , RNN é aquele em que a "saída de [as] etapas anteriores são alimentadas como entrada para a etapa atual." Isso significa que quando um RNN processa um bit de dados, ele usa esses dados para influenciar o que faz com o próximo bit de dados – essencialmente, ele aprende com a experiência.

Quanto mais um RNN for exposto a um determinado idioma, mais preciso será o reconhecimento de voz. Se o sistema identificar o som "ta" 100 vezes e for seguido pelo som "p" 90 dessas vezes, a rede pode basicamente aprender que "p" normalmente vem depois de "ta".

Por causa disso, quando o sistema de reconhecimento de voz identifica um fonema, ele usa os dados acumulados para prever qual provavelmente virá em seguida. Como os RNNs aprendem continuamente, quanto mais ele for usado, mais preciso será o reconhecimento de voz.

Depois que o sistema de reconhecimento de voz identifica as palavras (seja com o modelo Marvok oculto ou com um RNN), essa informação é enviada ao processador. O sistema, então, executa a tarefa pretendida.

O reconhecimento de voz se tornou um elemento básico na tecnologia moderna

O reconhecimento de voz se tornou uma grande parte do nosso panorama tecnológico moderno. Ele foi implementado em vários setores e serviços em todo o mundo; na verdade, muitas pessoas controlam suas vidas inteiras com assistentes ativados por voz. Você pode encontrar assistentes como o Siri carregados em seus relógios Apple. O que era apenas um sonho em 1952 se tornou realidade e não parece que vai parar tão cedo.