A nova IA do Facebook traduz entre 100 idiomas

outubro 22, 2020 gurinho

O Facebook revelou um novo modelo de IA de código aberto que tem a capacidade de traduzir entre 100 idiomas diferentes. Seu modelo de IA nem mesmo precisa converter o texto existente para o inglês, permitindo uma tradução mais eficiente e precisa.

Apresentando uma nova maneira de traduzir texto

Em uma postagem do blog Sobre o Facebook , a plataforma detalhou seu novo modelo de tradução automática multilíngue (MMT), também conhecido como M2M-100. Impressionante o suficiente, este modelo de aprendizado de máquina de código aberto "pode traduzir entre qualquer par de 100 idiomas sem depender de dados em inglês."

Embora este ainda seja um projeto de pesquisa, mostra-se muito promissor. Angela Fan, assistente de pesquisa do Facebook, observou que os modelos "típicos" de tradução automática utilizam modelos diferentes para cada idioma, tornando-os incrivelmente ineficientes para grandes plataformas como o Facebook.

Mesmo os modelos avançados não funcionam, pois usam o inglês como intermediário entre os idiomas. Isso significa que o sistema deve primeiro traduzir o texto de origem para o inglês e, em seguida, traduzir para o idioma de destino.

Os modelos baseados em inglês não produzem as melhores traduções. Fan observa que, tirando o inglês de cena, o sistema MMT do Facebook pode produzir traduções mais precisas, afirmando:

Ao traduzir, digamos, de chinês para francês, a maioria dos modelos multilíngues centrados em inglês treina chinês para inglês e inglês para francês, porque os dados de treinamento em inglês são os mais amplamente disponíveis. Nosso modelo treina diretamente em dados chineses para franceses para melhor preservar o significado.

Então, em vez de usar o inglês como ponte, o modelo MMT do Facebook pode traduzir de um lado para outro entre 100 idiomas diferentes. De acordo com Fan, o Facebook construiu "o mais diversificado conjunto de dados MMT muitos-para-muitos", que consiste em 7,5 bilhões de pares de frases para 100 idiomas.

Para realizar essa façanha, a equipe de pesquisa pesquisou dados de tradução de idiomas na web, focando primeiro nos idiomas "com mais solicitações de tradução". Os pesquisadores então classificaram essas línguas em 14 grupos com base em características compartilhadas.

A partir daqui, os pesquisadores estabeleceram linguagens de ponte para cada grupo e extraíram dados de treinamento para todas as combinações possíveis. Isso resultou em 7,5 bilhões de sentenças paralelas em 2.200 direções.

E quanto a idiomas que não são tão difundidos, o Facebook usou algo chamado retrotradução para criar traduções sintéticas.

Todo esse processo está aproximando a equipe de IA do Facebook de seu objetivo de criar um "modelo único que ofereça suporte a todos os idiomas, dialetos e modalidades".

O Facebook fica mais perto de fornecer melhores traduções

O Facebook já realiza 20 bilhões de traduções todos os dias em seu Feed de notícias, e o Facebook AI apenas tornará o processo mais eficiente. Embora o novo modelo de tradução ainda não tenha sido implementado, ele definitivamente será útil para usuários internacionais do Facebook que precisam de traduções específicas.