Meta quer sobrecarregar a Wikipedia com uma atualização de IA
A Wikipédia tem um problema. E Meta, o Facebook renomeado não muito tempo atrás, pode ter a resposta.
Vamos voltar. A Wikipedia é um dosprojetos colaborativos de maior escala da história da humanidade, com mais de 100.000 editores humanos voluntários contribuindo para a construção e manutenção de uma enciclopédia multilíngue incrivelmente grande, composta por milhões de artigos. Mais de 17.000 novos artigos são adicionados à Wikipédia a cada mês, enquanto ajustes e modificações são feitos continuamente em seu corpus de artigos existente. Os artigos mais populares do Wiki foram editados milhares de vezes, refletindo as últimas pesquisas, insights e informações atualizadas.
O desafio, claro, é a precisão. A própria existência da Wikipedia é uma prova positiva de que um grande número de humanos pode se unir para criar algo positivo. Mas, para ser genuinamente útil e não um muro de pichações de alegações infundadas, os artigos da Wikipédia devem ser apoiados por fatos. É aqui que entram as citações. A ideia – e na maioria das vezes isso funciona muito bem – é que os usuários e editores da Wikipédia podem confirmar os fatos adicionando ou clicando em hiperlinks que rastreiam as declarações de volta à sua fonte.
Citação necessária
Digamos, por exemplo, que eu queira confirmar a entrada no artigo do presidente Barack Obama na Wikipedia afirmando que Obama viajou para a Europa e depois para o Quênia em 1988, onde conheceu muitos de seus parentes paternos pela primeira vez. Tudo o que tenho a fazer é olhar para as citações da frase e, com certeza, há três referências de livros separadas que aparentemente confirmam que o fato se confirma.
Por outro lado, a frase “necessidade de citação” é provavelmente as duas mais contundentes de toda a Wikipedia, precisamente porque sugerem que não há evidências de que o autor não tenha conjurado as palavras do éter digital. As palavras “citação necessária” afixadas a uma reivindicação da Wikipedia são o equivalente a contar um fato a alguém enquanto faz aspas no ar.
As citações não nos dizem tudo, no entanto. Se eu lhe dissesse que, no ano passado, fui o 23º jornalista de tecnologia mais bem pago do mundo e que uma vez desisti de uma lucrativa carreira de modelo para escrever artigos para o Digital Trends, parece superficialmente plausível porque existem hiperlinks para apoiar meus delírios.
O fato de que os hiperlinks não suportam meus fatos alternativos, mas levam a páginas não relacionadas no Digital Trends só é revelado quando você clica neles. Para os 99,9% dos leitores que nunca me conheceram, eles podem deixar este artigo com uma série de falsas impressões, entre as quais a barreira surpreendentemente baixa para entrar no mundo da modelagem. Em um mundo de hiperlinks de sobrecarga de informações, no qual cada vez mais mergulhamos no que Nicholas Carr chama de “ The Shallows ”, a existência de citações em si parecem ser endossos factuais.
Meta entra
Mas e se as citações forem adicionadas pelos editores da Wikipédia, mesmo que não tenham links para páginas que realmente apóiam as alegações? Como ilustração, um artigo recente da Wikipedia sobre o membro da tribo Blackfeet, Joe Hipp , descreveu como Hipp foi o primeiro boxeador nativo americano a disputar o título WBA World Heavyweight e vinculado ao que parecia ser uma página da web apropriada. No entanto, a página em questão não menciona boxe nem Joe Hipp.
No caso da alegação de Joe Hipp, o factóide da Wikipedia era preciso, mesmo que a citação fosse inadequada. No entanto, é fácil ver como isso poderia ser usado, deliberadamente ou não, para espalhar informações erradas.
É aqui que Meta acha que surgiu uma maneira de ajudar. Trabalhando com a Wikimedia Foundation, a Meta AI (que é o laboratório de pesquisa e desenvolvimento de IA para o gigante da mídia social) desenvolveu o que afirma ser o primeiro modelo de aprendizado de máquina capaz de digitalizar automaticamente centenas de milhares de citações de uma só vez para verificar se elas suportam as reivindicações correspondentes. Embora isso esteja longe de ser o primeiro bot que a Wikipedia usa , pode estar entre os mais impressionantes.
“Acho que fomos movidos pela curiosidade no final do dia”, disse Fabio Petroni , gerente de tecnologia de pesquisa da equipe FAIR (Fundamental AI Research) da Meta AI, ao Digital Trends. “Queríamos ver qual era o limite dessa tecnologia. Não tínhamos certeza se [essa IA] poderia fazer algo significativo nesse contexto. Ninguém jamais havia tentado fazer algo semelhante [antes].”
Entendendo o significado
Treinado usando um conjunto de dados composto por 4 milhões de citações da Wikipedia, a nova ferramenta do Meta é capaz de analisar efetivamente as informações vinculadas a uma citação e, em seguida, cruzá-la com as evidências de apoio. E isso também não é apenas uma comparação direta de strings de texto.
“Existe um componente como esse, [observando] a semelhança lexical entre a afirmação e a fonte, mas esse é o caso fácil”, disse Petroni. “Com esses modelos, o que fizemos foi construir um índice de todas essas páginas da web, dividindo-as em passagens e fornecendo uma representação precisa para cada passagem… Isso não é representar a passagem palavra por palavra, mas o significado da passagem. . Isso significa que dois pedaços de texto com significados semelhantes serão representados em uma posição muito próxima no espaço n-dimensional resultante onde todas essas passagens são armazenadas.”
Tão impressionante quanto a capacidade de identificar citações fraudulentas, no entanto, é o potencial da ferramenta para sugerir referências melhores. Implantada como um modelo de produção, essa ferramenta pode sugerir referências úteis que melhor ilustram um determinado ponto. Enquanto Petroni se recusa a ser comparado a uma verificação ortográfica factual, sinalizando erros e sugerindo melhorias, essa é uma maneira fácil de pensar sobre o que pode fazer.
Mas, como explica Petroni, ainda há muito trabalho a ser feito antes de chegar a esse ponto. “O que construímos é uma prova de conceito”, disse ele. “Não é realmente utilizável no momento. Para que isso seja utilizável, você precisa ter um índice novo que indexe muito mais dados do que temos atualmente. Ele precisa ser constantemente atualizado, com novas informações chegando todos os dias.”
Isso poderia, pelo menos em teoria, incluir não apenas texto, mas também multimídia. Talvez haja um ótimo documentário oficial disponível no YouTube para o qual o sistema possa direcionar os usuários. Talvez a resposta para uma afirmação em particular esteja escondida em uma imagem em algum lugar online.
Uma questão de qualidade
Há outros desafios também. Notável em sua ausência, pelo menos no momento, é qualquer tentativa de classificar de forma independente a qualidade das fontes citadas. Esta é uma área espinhosa em si. Como ilustração simples, uma referência breve e descartável a um assunto, digamos, no New York Times provaria ser uma citação mais adequada e de alta qualidade do que uma fonte mais abrangente, mas menos renomada? Uma publicação mainstream deve ter uma classificação mais alta do que uma não mainstream?
O algoritmo PageRank de um trilhão de dólares do Google – certamente o algoritmo mais famoso já construído em torno de citações – tinha isso embutido em seu modelo, em essência, igualando uma fonte de alta qualidade a uma que tinha um grande número de links recebidos. Atualmente, a IA da Meta não tem nada disso.
Se essa IA funcionasse como uma ferramenta eficaz, precisaria ter algo assim. Como um exemplo muito óbvio do porquê, imagine que alguém deveria “provar” a opinião mais notória e repreensível para inclusão em uma página da Wikipedia. Se a única evidência necessária para confirmar que algo é verdade é se sentimentos semelhantes podem ser encontrados publicados em outro lugar on-line, então praticamente qualquer afirmação pode ser tecnicamente correta – não importa o quão errada possa ser.
“[Uma área em que estamos interessados] é tentar modelar explicitamente a confiabilidade de uma fonte, a confiabilidade de um domínio”, disse Petroni. “Acho que a Wikipedia já tem uma lista de domínios considerados confiáveis e domínios considerados não. Mas, em vez de ter uma lista fixa, seria bom se pudéssemos encontrar uma maneira de promovê-los algoritmicamente”.