O reconhecimento de voz é incrível, mas como ficou tão bom?

A tecnologia de reconhecimento de voz tem uma rica história de desenvolvimento que a levou ao que é hoje. Está no cerne da vida moderna, dando-nos a capacidade de realizar tarefas apenas conversando com um dispositivo. Então, como essa tecnologia surpreendente evoluiu ao longo dos anos? Vamos dar uma olhada.

1952: O Sistema Audrey

O primeiro passo para o reconhecimento de voz surgiu no início dos anos 1950. A Bell Laboratories desenvolveu a primeira máquina capaz de entender a voz humana em 1952 e foi batizada de Sistema Audrey. O nome Audrey era uma espécie de contração da frase Reconhecimento Automático de Dígitos. Embora essa seja uma inovação importante, tem algumas limitações importantes.

Mais proeminentemente, Audrey só conseguia reconhecer os dígitos numéricos de 0 a 9, sem palavras. Audrey dava feedback quando o locutor dizia um número, acendendo 1 de 10 lâmpadas, cada uma correspondendo a um dígito.

Embora pudesse entender os números com 90% de precisão, Audrey estava confinada a um tipo específico de voz. É por isso que a única pessoa que realmente o usaria era HK Davis, um dos desenvolvedores. Quando um número era falado, o falante precisava esperar pelo menos 300 milissegundos antes de dizer o próximo.

Não era apenas limitado em funcionalidade, mas também limitado em utilidade. Não havia muita utilidade para uma máquina que só conseguia entender números. Um uso possível era discar números de telefone, mas era muito mais rápido e fácil discar os números manualmente. Embora Audrey não tivesse uma existência elegante, ainda assim é um grande marco na realização humana.

Relacionado: Como usar a digitação por voz no Microsoft Word

1962: Shoebox da IBM

Uma década depois de Audrey, a IBM tentou desenvolver um sistema de reconhecimento de voz. Na Feira Mundial de 1962, a IBM exibiu um sistema de reconhecimento de voz chamado Showbox. Como Audrey, sua principal tarefa era entender os dígitos de 0 a 9, mas também podia entender seis palavras: mais, menos, falso, total, subtotal e desligado.

Shoebox era uma máquina matemática capaz de resolver problemas simples de aritmética. Quanto ao feedback, em vez de luzes, a Shoebox foi capaz de imprimir os resultados em papel. Isso a tornava útil como calculadora, embora o locutor ainda precisasse fazer uma pausa entre cada número / palavra.

1971: Identificação Automática de Chamadas da IBM

Depois de Audrey e Shoebox, outros laboratórios ao redor do mundo desenvolveram tecnologia de reconhecimento de voz. No entanto, ele só decolou na década de 1970, quando, em 1971, a IBM trouxe a invenção inédita do tipo para o mercado. Era chamado de sistema de Identificação Automática de Chamadas. Foi o primeiro sistema de reconhecimento de voz usado no sistema telefônico.

Os engenheiros ligavam e eram conectados a um computador em Raleigh, Carolina do Norte. O chamador então pronunciaria uma das 5.000 palavras em seu vocabulário e obteria uma resposta "falada" como resposta.

Relacionado: Como usar o ditado de voz em Macs

1976: Harpy

No início da década de 1970, o Departamento de Defesa dos Estados Unidos se interessou pelo reconhecimento de voz. A DARPA (Agência de Projetos de Pesquisa Avançada de Defesa) desenvolveu o programa Speech Understanding Research (SUR) em 1971. Esse programa forneceu financiamento a várias empresas e universidades para auxiliar na pesquisa e no desenvolvimento de reconhecimento de voz.

Em 1976, por causa do SUR, a Carnegie Mellon University desenvolveu o Harpy System. Este foi um grande salto na tecnologia de reconhecimento de voz. Os sistemas até aquele ponto eram capazes de entender palavras e números, mas Harpy era o único que conseguia entender frases completas.

Ele tinha um vocabulário de apenas cerca de 1.011 palavras, que, de acordo com uma publicação deB. Lowerre e R. Reddy , equivalia a mais de um trilhão de frases diferentes possíveis. A publicação então afirma que Harpy conseguia entender palavras com 93,77% de precisão.

Década de 1980: O Método Markov Oculto

A década de 1980 foi um momento crucial para a tecnologia de reconhecimento de voz, pois esta é a década em que a tecnologia de reconhecimento de voz, pois esta foi a década em que fomos apresentados ao Método Markov Oculto (HMM). A principal força motriz por trás do HMM é a probabilidade .

Sempre que um sistema registra um fonema (o menor elemento da fala), há uma certa probabilidade de qual será o próximo. O HMM usa essas probabilidades para determinar qual fonema provavelmente virá a seguir e formar as palavras mais prováveis. A maioria dos sistemas de reconhecimento de voz hoje ainda usa HMM para entender a fala.

Década de 1990: o reconhecimento de voz atinge o mercado consumidor

Desde a concepção da tecnologia de reconhecimento de voz, tem feito uma jornada para encontrar um espaço no mercado consumidor. Na década de 1980, a IBM apresentou um protótipo de computador que podia ditar voz para texto. No entanto, foi só no início da década de 1990 que as pessoas começaram a ver aplicativos como esse em suas casas.

Em 1990, a Dragon Systems lançou o primeiro software de ditado de voz para texto. Chamava-se Dragon Dictate e foi originalmente lançado para Windows. Este programa de US $ 9.000 foi revolucionário por levar a tecnologia de reconhecimento de voz para as massas, mas havia uma falha. O software usava ditado discreto , o que significa que o usuário deve fazer uma pausa entre cada palavra para que o programa as pegue.

Em 1996, a IBM mais uma vez contribuiu para a indústria com a Medspeak. Este era um programa de ditado de fala para texto também, mas não sofria de dicação discreta como o Dragon Dictate sofreu. Em vez disso, esse programa poderia ditar a fala contínua, o que o tornava um produto mais atraente.

Relacionado: Como usar o Google Assistente com fones de ouvido

2010: uma garota chamada Siri

Ao longo dos anos 2000, a popularidade da tecnologia de reconhecimento de voz explodiu. Ele foi implementado em mais software e hardware do que nunca, e uma etapa crucial na evolução do reconhecimento de voz foi o Siri, o assistente digital. Em 2010, uma empresa com o nome de Siri introduziu o assistente virtual como um aplicativo iOS.

Na época, o Siri era um software impressionante que podia ditar o que o palestrante estava dizendo e dar uma resposta educada e inteligente. Este programa foi tão impressionante que a Apple adquiriu a empresa no mesmo ano e deu uma pequena reformulação no Siri, empurrando-o para o assistente digital que conhecemos hoje.

Foi por meio da Apple que o Siri ganhou sua voz icônica (voz de Susan Benett) e uma série de novos recursos. Ele usa processamento de linguagem natural para controlar a maioria das funções do sistema.

Anos 2010: os 4 grandes assistentes digitais

Do jeito que está, quatro grandes assistentes digitais dominam o reconhecimento de voz e software adicional.

  • A Siri está presente em quase todos os produtos da Apple: iPhones, iPods, iPads e a família de computadores Mac.
  • O Google Assistant está presente na maioria dos mais de 3 bilhões de dispositivos Android no mercado. Além disso, os usuários podem usar comandos em muitos serviços do Google , como o Google Home.
  • O Amazon Alexa não tem uma plataforma dedicada onde mora, mas ainda é um assistente proeminente. Ele está disponível para ser baixado e usado em dispositivos Android, dispositivos Apple. e até mesmo laptops Lenovo selecionados
  • Bixby é a mais recente entrada na lista do assistente digital. É o assistente digital local da Samsung e está presente entre os telefones e tablets da empresa.

Uma História Falada

O reconhecimento de voz já percorreu um longo caminho desde os dias de Audrey. Tem obtido grandes ganhos em vários campos; por exemplo, de acordo com Clear Bridge Mobile , a área médica se beneficiou de chatbots operados por voz durante a pandemia de 2020. Desde apenas ser capaz de entender números até entender diferentes variações de frases completas, o reconhecimento de voz está provando ser um dos mais úteis tecnologias de nossa era moderna.