57% da Internet já pode ser lixo de IA

uma bolha de palavras cgi
Google Deepmind/Pexels

Não é só você – os resultados da pesquisa estão realmente piorando. Pesquisadores da Amazon Web Services (AWS) conduziram um estudo que sugere que 57% do conteúdo na Internet hoje é gerado por IA ou traduzido usando um algoritmo de IA.

O estudo, intitulado “ A Shocking Amount of the Web is Machine Translated: Insights from Multi-Way Parallelism ”, argumenta que a tradução automática (TA) de baixo custo, que pega um determinado conteúdo e o regurgita em vários idiomas, é o principal culpado. “As traduções paralelas multidirecionais geradas por máquina não apenas dominam a quantidade total de conteúdo traduzido na web em idiomas com menos recursos onde a TA está disponível; também constitui uma grande fração do conteúdo total da web nesses idiomas”, escreveram os pesquisadores no estudo.

Eles também encontraram evidências de viés de seleção no conteúdo traduzido automaticamente para vários idiomas, em comparação com o conteúdo publicado em um único idioma. “Este conteúdo é mais curto, mais previsível e tem uma distribuição de tópicos diferente em comparação com o conteúdo traduzido para um único idioma”, escreveram os pesquisadores.

Além disso, a quantidade crescente de conteúdo gerado por IA na Internet, combinada com a crescente dependência de ferramentas de IA para editar e manipular esse conteúdo, pode levar a um fenómeno conhecido como colapso do modelo e já está a reduzir a qualidade dos resultados de pesquisa na Web. Dado que modelos de IA de fronteira como ChatGPT , Gemini e Claude dependem de grandes quantidades de dados de treinamento que só podem ser adquiridos raspando a web pública (se isso viola direitos autorais ou não), tendo a web pública cheia de dados gerados por IA, e muitas vezes imprecisos, o conteúdo pode degradar gravemente seu desempenho.

“É surpreendente a rapidez com que o colapso do modelo ocorre e o quão evasivo ele pode ser”, disse o Dr. Ilia Shumailov, da Universidade de Oxford , ao Windows Central . “No início, afecta os dados das minorias – dados que estão mal representados. Em seguida, afeta a diversidade dos resultados e a variância é reduzida. Às vezes, você observa pequenas melhorias nos dados majoritários, o que esconde a degradação no desempenho dos dados minoritários. O colapso do modelo pode ter consequências graves.”

Os pesquisadores demonstraram essas consequências fazendo com que linguistas profissionais classificassem 10.000 sentenças em inglês selecionadas aleatoriamente em uma das 20 categorias. Os pesquisadores observaram “uma mudança dramática na distribuição de tópicos ao comparar dados paralelos de 2 vias a 8+ (ou seja, o número de traduções de idiomas), com tópicos de 'conversação e opinião' aumentando de 22,5% para 40,1%” daqueles publicados .

Isto aponta para um viés de seleção no tipo de dados que são traduzidos em vários idiomas, que é “substancialmente mais provável” ser proveniente do tópico “conversa e opinião”.

Além disso, os pesquisadores descobriram que “traduções paralelas altamente multidirecionais têm qualidade significativamente inferior (6,2 pontos da estimativa de qualidade do cometa pior) do que traduções paralelas bidirecionais”. Quando os pesquisadores auditaram 100 frases paralelas altamente multidirecionais (aquelas traduzidas para mais de oito idiomas), descobriram que “uma grande maioria” veio de fazendas de conteúdo com artigos “que caracterizamos como de baixa qualidade, exigindo pouco ou nenhum conhecimento especializado”. , ou esforço antecipado para criar.

Isso certamente ajuda a explicar por que o CEO da OpenAI, Sam Altman, continua falando sobre como é “impossível” criar ferramentas como o ChatGPT sem acesso gratuito a obras protegidas por direitos autorais.