Meta e Machine Learning: data2vec aprende com textos, áudios e discursos

fevereiro 18, 2022 gurinho

É sabido que o Meta agora está atraindo o interesse de todos . Pelo menos do ponto de vista de marketing, o movimento de Zuckerberg teve os efeitos desejados. É, portanto, inevitável que cada nova atividade de sua empresa assuma conotações ainda mais fascinantes e inovadoras do que realmente são. Ao interesse que a própria empresa desperta, junta-se o apelo que o setor tem junto dos consumidores e das empresas. Não é por acaso que esse mercado de IA vem crescendo fortemente nos últimos anos , fora a pandemia.

Claramente, porém, entre a muita fumaça também há muito assado. Algumas iniciativas já fizeram tanto sucesso, basta pensar na luva tátil lançada para a realidade virtual , capaz de tocar e perceber (no verdadeiro sentido da palavra) o toque no metaverso.

Além disso, é lógico que quando uma empresa colossal como a de Zuckerberg volta sua atenção para um campo específico, haverá muitos seguidores (deve-se dizer) que pretendem explorar esses novos mercados. Incluindo o funcionamento mas sobretudo o potencial do metaverso , muitos começaram a investir nele (um caso interessante é certamente o Sandbox ). E muitos, incluindo o Meta, dão muito peso ao Machine Learning.

Machine Learning: o que é e como se articula

Uma breve revisão ou introdução para quem nunca ouviu falar ou tem conhecimento distorcido pode ser útil para se atualizar sobre a situação atual. Machine Learning (ML) é um ramo da ciência da computação em uso generalizado, pois permite que uma máquina "inteligente" aprenda , aprimorando suas habilidades e desempenho ao longo do tempo, explorando experiências anteriores.

Até o momento, foram identificados três mecanismos que permitem que as máquinas aprendam:

aprendizado supervisionado: a máquina é fornecida com exemplos práticos e dados estruturados sobre os quais a máquina tirará as conclusões corretas se tiver um número adequado de exemplos para começar. Mais precisamente, a máquina é fornecida com dados rotulados. Isso significa que as saídas esperadas já são conhecidas porque foram catalogadas anteriormente . Por exemplo, se queremos que a máquina distinga o que é um cachorro, podemos "ensinar de cima" para distinguir o que é um cachorro e o que não é. Nesse caso, a máquina aprende e da próxima vez será capaz de distinguir um cachorro de outros animais sozinha. Geralmente esse tipo é usado para previsões sobre dados incertos ou futuros;
aprendizagem não supervisionada: neste caso , a aprendizagem é completamente autônoma. Você não poderá confiar em uma variável de saída conhecida aqui. Voltando ao exemplo acima, não haverá um guia inicial que indique como distinguir um cão do resto dos animais. Em vez disso, o próprio algoritmo começa a separar as imagens recebidas com base nas diferenças que pode detectar, criando subconjuntos de dados. Assim é possível configurar a categorização de dados futuros;
deep learning: provavelmente o mais conhecido dos três, o "deep learning" é inspirado nas funções do cérebro usando redes neurais . Eles são compostos por vários componentes, chamados neurônios , que “imitam” os neurônios do nosso cérebro. As redes de dados de entradas retornam um número N de saídas. Essas saídas, por sua vez, são reutilizadas como entradas para calcular novas saídas e assim por diante. Depois de agregar várias camadas (níveis), a saída final real é produzida. Normalmente, o termo aprendizado profundo é usado quando uma rede neural possui pelo menos duas camadas intermediárias.
Os algoritmos de aprendizado são ordenados hierarquicamente em ordem crescente de complexidade e abstração. É construída uma hierarquia na qual cada nível de abstração é criado graças ao conhecimento adquirido no nível anterior. Um exemplo seria treinar um sistema que efetivamente joga xadrez. Inicialmente, o algoritmo fará movimentos completamente aleatórios. Assim que ele fizer um movimento correto (que pode ser representado, no exemplo considerado, por ter "comido" a peça do adversário) ele receberá um feedback positivo. Então, esse movimento terá mais peso e reforço positivo nessa ação (também conhecido como aprendizado por reforço ). Por outro lado, se o sistema fizer um movimento negativo. Com o tempo, você poderá aprimorar muito suas habilidades no xadrez e, de maneira mais geral, a qualidade e o desempenho serão beneficiados.

Data2vec, o algoritmo do Meta para aprendizado de máquina autossupervisionado

Entre as inovações do setor, o data2vec foi apresentado pela Meta em antítese ao que sabíamos sobre aprendizado de máquina. Ou seja, a maioria das máquinas aprende com dados rotulados. Os sistemas atuais carecem de multitarefa, pois aproveitam os algoritmos de uso único.

Aqui, a data2vec pretende ir além. Por meio do aprendizado autossupervisionado (ou autogerenciado) de alto desempenho é possível aproveitar a estrutura de imagens, texto e áudio. Ou seja, é possível entender o tipo de modelo que caracteriza o conjunto de dados. Desta forma é possível enfrentar um desafio complexo: a compreensão dos discursos, não só como tal, mas também para as múltiplas línguas faladas. Basicamente, o princípio da compreensão do mundo circundante.

Como as fontes de entrada para a máquina são diferentes (texto, áudio, imagens), sempre foi necessário ter uma abordagem ad hoc para cada uma das fontes de entrada. Portanto, as buscas sempre foram “limitadas” na extensão de seu raio de ação. Na prática, uma pessoa hoje é capaz de distinguir um animal tanto se vê a foto dele quanto se ouve uma descrição fiel dele. Que máquinas hoje são incapazes de fazer. Ainda não consigo realizar os dois processos simultaneamente.

A vantagem competitiva da data2vec

O Data2vec da Meta construiu uma sólida vantagem competitiva sobre seus concorrentes no campo de aprendizado de máquina. Obviamente, estamos nos referindo ao lado puramente técnico (desnecessário destacar as vantagens que pertencem à empresa, como marketing, força da marca, canais de comunicação etc.).

A vantagem que eleva a proposta de Zuckerberg sobre as demais é que ela unificou os vários modelos sob um único algoritmo, para que possa trabalhar com segurança com dados de entrada completamente diferentes.

Esse fator competitivo nasceu usando duas redes neurais . A rede neural mestre é treinada nos dados recebidos para que, na próxima vez, ela possa entender se o que está recebendo é um texto, uma imagem ou outra coisa. A outra rede neural trata da previsão das representações internas do mestre, portanto não precisa se adaptar ao tipo de dado de entrada.

O que pode ser feito no futuro?

As conhecidas questões sobre a ética da inteligência artificial já estão se consolidando . Especialmente se ele realmente aprender com seus arredores, com muitas áreas cinzentas que apareceriam em privacidade e segurança.

Considerando o lado puramente técnico, se as condições estiverem reunidas, será um primeiro passo para fazer com que as máquinas compreendam o mundo circundante. Nesse caso, os cenários de aplicação seriam inúmeros. Alguns talvez inimagináveis hoje.

Tudo isso certamente será integrado aos óculos AR. Assim, a máquina poderá aprender novas receitas e sugerir ingredientes ou indicar se você está esquecendo algum . Ou pode ser aplicado ainda mais ativamente ao mundo do futebol. Já os números dos Analistas tomaram protagonismo também na galáxia dos esportes, muito menos se vocês terão tal algoritmo disponível.

Além desses exemplos triviais, é evidente que, sendo mais adaptável do que as máquinas atuais, ela não apenas executará funções muito mais complexas do que outras máquinas, mas também operará em contextos completamente inimagináveis. A data.

Artigo de Nicolò Bonaccorso

O artigo Meta e Machine Learning: data2vec aprende com textos, áudios e falas vem do Tech CuE | Engenharia de close-up .