Como funcionam os aplicativos de tradução de fala da Cat?
Você provavelmente já viu aplicativos que afirmam traduzir o que seu gato está dizendo. Mas eles podem realmente traduzir o miado do seu gato para o inglês? A resposta curta é sim, mais ou menos. É difícil por causa de como a "linguagem" de cada gato é única, mas eles podem chegar muito perto com a tecnologia moderna.
Aplicativos de tradução de gatos como o MeowTalk usam uma forma de reconhecimento de fala que enfatiza o aprendizado de máquina. Vamos olhar mais de perto.
Reconhecimento de fala e aprendizado de máquina
O reconhecimento de fala funciona gravando a fala e transformando o áudio em um arquivo de dados digital. Ele codifica dados como tom e volume como pontos de dados que o aplicativo pode analisar e combinar com significados. Microfones DPA explica que esses pontos de dados podem parecer muito diferentes dependendo dos sons de fundo e de como uma palavra é falada.
Às vezes, consideramos o reconhecimento de voz garantido, mas é uma incrível façanha da tecnologia. Especialmente considerando como a fala humana é complexa. Como o The Scientist explica, cada palavra envolve uma ampla gama de sons ou "fonemas" combinados uns com os outros. Fazer com que um computador entenda a fala é muito difícil. A nova fronteira de sons de gatos será ainda mais difícil.
Os aplicativos que usam reconhecimento de voz são programados com um "vocabulário" de palavras chamado conjunto de dados. O aplicativo então combina sua fala com a opção mais próxima em seu vocabulário de dados.
Quando ele comete um erro, você o corrige e ele salva os dados para a próxima vez. Isso faz parte do aprendizado de máquina. É como um programa aprende a reconhecer a fala, mesmo quando não é idêntico ao conjunto de dados com o qual começou.
O reconhecimento de voz ainda apresenta problemas, especialmente com problemas de fala e sotaques. No entanto , algumas empresas estão aprimorando o aprendizado de máquina para superar esses problemas . Com o tempo, o aprendizado de máquina pode transformar o reconhecimento de fala em uma ferramenta poderosa.
É assim que o reconhecimento de fala funciona para os humanos. Mas isso funciona para gatos?
Reconhecimento de fala vs. reconhecimento de miau
Primeiro, precisamos entender por que traduzir um certo tipo de miado como "Estou com fome" é diferente de analisar a fala humana. O problema é principalmente que a comunicação do gato depende mais fortemente de pistas não-verbais, como postura. Outro problema é a ausência de uma "linguagem do gato" universal.
De acordo com a ASPCA , os gatos selvagens adultos nunca miam uns para os outros, apenas para as pessoas. Outra pesquisa da Humane Society acrescenta que esses sons "não ocorrem no vácuo". Devemos interpretá-los juntamente com a linguagem corporal e outros contextos. Em muitos casos, esses sinais silenciosos são a única diferença entre um miado que significa "Estou com fome" e um que significa "Eu quero jogar".
Para piorar o problema, não existem dois gatos com a mesma língua. Os gatos desenvolvem "linguagens" personalizadas para seus donos. Estes são parcialmente baseados na imitação da voz do proprietário e parcialmente na personalidade do gato. Não existem dois gatos com o mesmo som, mesmo quando transmitem o mesmo desejo ou necessidade. Então, como o vocabulário de fala de um aplicativo pode ser traduzido para todos eles?
Aprendizado de máquina flexível para gatos
Embora alguns assistentes virtuais como Oto tentem entender o tom e a emoção, o reconhecimento de fala ainda é terrível para sinais não-verbais. Mas isso não significa que seja impossível interpretá-los.
O MeowTalk usa um tipo mais flexível de aprendizado de máquina para ajudar a superar esses problemas.
Download: MeowTalk para Android | iOS (grátis)
Meowtalk foi criado por Javier Sanchez, que também trabalhou na equipe Alexa. Ele imaginou o aplicativo como um passo em direção aos colares inteligentes. Essas coleiras traduziriam sons de gatos em fala humana, utilizando estratégias complexas de aprendizado de máquina para ajudar os humanos a entender e cuidar melhor de seus gatos.
A equipe do MeowTalk compensou os problemas de exclusividade criando perfis mais específicos para cada gato. No aplicativo, você cadastra cada gato separadamente. A Science Norway relata que os gatinhos miam de forma diferente dos gatos adultos, então o aplicativo também pede o aniversário do gato. Cada perfil gera uma rede de dados exclusiva para o gato, incorporando um pouco de aprendizado profundo ao aprendizado de máquina.
Para vocabulário, MeowTalk começa com 10 perfis de som em seu conjunto de dados. Cada um tem um significado diferente associado, como "feliz" ou "caçando". Quando o aplicativo ouvir um som e errar, você pode corrigi-lo ou criar uma nova interpretação.
A correção informa ao aplicativo para substituir o vocabulário básico pelo novo som.
Por exemplo, você pode dizer ao aplicativo para combinar "Caça" com chilreios curtos em vez de um uivo longo. Este tipo de correção é mais útil do que a adição de vários sons para coincidir com um significado a maneira doe reconhecimento de voz, o que seria como dizer o app que um uivo longo e curto chirps ambos significam "Mãe Call".
O aprendizado de máquina em aplicativos de reconhecimento de fala geralmente resiste a esse tipo de substituição. Seria como tentar ensinar ao Siri que quando você diz "blog de tecnologia", você realmente quer dizer "pera". Mas a forma mais flexível de aprendizado de máquina que o MeowTalk usa pode lidar com essa correção mais facilmente.
Criar uma nova interpretação adiciona um significado que não foi codificado anteriormente. Por exemplo, se o seu gato recebe uma chamada específica quando quer seu brinquedo favorito, você pode adicionar "Eu quero meu mouse" como uma opção. É semelhante a adicionar uma palavra ao dicionário de correção automática.
Com o tempo, você pode desenvolver um perfil de fala altamente personalizado para seu gato. Eventualmente, pode até ser sofisticado o suficiente para ser útil para cuidadores de animais de estimação ou para resolver problemas comportamentais. No mínimo, ajuda os donos de gatos a ficarem mais atentos aos seus animais de estimação.
O veredicto: os aplicativos de tradução da Cat funcionam?
No final das contas, a "tradução do gato" ainda depende muito do usuário ensinar ao aplicativo como o gato fala. Provavelmente, sempre será o caso, devido ao quão única é a comunicação de cada gato.
Mas o fato de o aprendizado de máquina ter chegado tão longe que os desenvolvedores podem ter sucesso, mesmo parcialmente, é incrível. O aprendizado de máquina e a IA estão avançando em velocidades vertiginosas, e mal podemos esperar para ver o que acontecerá em seguida.