170 mil livros piratas são o segredo para “ChatGPTs” se tornarem inteligentes

agosto 24, 2023 gurinho

O "Martelo Real" finalmente chegou.

Em julho deste ano, OpenAI e Meta foram processadas por três escritores americanos Sarah Silverman, Christopher Golden e Richard Kadrey, alegando que as duas empresas usaram seus livros como materiais para treinar grandes modelos sem o consentimento do autor.

▲ Ator, autora Sarah Silverman e sua autobiografia, foto de Vulture

evidência?

No caso OpenAI, depois que os demandantes inseriram palavras imediatas, o ChatGPT conseguiu resumir o conteúdo de seus livros.

No caso do Meta, está escrito no artigo do modelo grande Meta LLaMA que seus dados de treinamento incluem um material denominado "ThePile" organizado pela EleutherAI.

"ThePile" também inclui um conjunto de dados chamado "Books3", cujo conteúdo é exatamente os dados da Bibliotik, uma biblioteca online de recursos de livros piratas.

Percebe-se que as provas apresentadas pelo autor naquele momento eram relativamente “indiretas”.

Até agora, o autor e programador Alex Reisner revelou oficialmente quais livros de autores foram roubados por trás do grande modelo da Meta.

O que é surpreendente é que estas “evidências” têm sido colocadas à superfície o tempo todo, mas não foram descobertas.

Até mesmo os criadores dos materiais infratores sempre insistiram que isso é algo “justo”.

170.000 livros piratas

▲ Foto de Engenharia Interessante

O “grande projeto” de Alex Reisner nasceu da curiosidade:

Como escritor e programador de computador, sempre tive curiosidade em saber em que tipo de livros os sistemas generativos de IA são treinados.

Neste verão, Reisner começou a procurar respostas em comunidades como GitHub e Hugging Face e finalmente encontrou o conjunto de dados de código aberto “ThePile” que mencionamos acima.

No entanto, baixar para "ThePile" não significa que você possa saber quais livros estão em "Books3".

Em primeiro lugar, como "ThePile" tem 800G, é grande demais para ser lido por editores de texto comuns. Reisner escreveu uma série de programas para poder extrair as informações do “Books3”.

▲ Imagem do Unsplash

Inesperadamente, nas informações extraídas não há dados com tags como “título do livro” e “nome do autor”, e tudo é apenas “texto”.

Assim, Reisner escreveu outro programa para extrair o número ISBN (International Standard Book Number) dos dados e comparou os dados com outros bancos de dados de livros online para identificar os livros específicos incluídos em "Books3".

No final, esta etapa encontrou 190.000 códigos ISBN, identificou 170.000 títulos de livros correspondentes (o número real de livros pode ser um pouco menor que esse número, porque existem edições diferentes do mesmo livro) e outros 20.000 códigos foram encontrados. título do livro correspondente.

Cerca de 1/3 desses livros são de ficção e 2/3 são de não-ficção, de editoras grandes e pequenas.

Sim, esses livros identificados também incluem os livros dos três escritores que processaram OpenAI e Meta no início do artigo, então pode-se dizer que o LLaMA da Meta usou livros piratas como materiais de treinamento com evidências muito diretas.

Além disso, também podemos ver Elena Ferrante, autora de "My Brilliant Girlfriend", Margaret Atwood, autora de "The Handmaid's Tale", Stephen King, Haruki Murakami, famosa comida e bebida Numerosas obras do autor Michael Pollan, autor de thriller James Patterson , e outros.

▲ Margaret Atwood e mais de 8.000 escritores também escreveram uma carta conjunta, exigindo que as empresas de IA obtivessem autorização dos escritores antes de poderem usar livros como materiais de treinamento. A imagem vem de "The Independent"

Além de livros de autores famosos, Reisner também encontrou 102 romances populares de Ron Hubbard, o fundador da Cientologia, e 90 livros do livro de John F. Arthur, bem como várias obras de Erich von Daniken, um defensor da "teoria da criação alienígena". ".

Reisner destacou no artigo "Atlantic Monthly" que embora o conjunto de dados "Books3" não seja muito conhecido fora da comunidade de IA, ele é bastante popular no círculo. "Ele pode ser baixado, mas é um pouco difícil de encontrar . Se você quiser navegar e a análise é igualmente desafiadora."

É a primeira vez que Reisner passa tanto tempo escrevendo um programa para analisar a comparação, e também escreve cuidadosamente um artigo e o publica na mídia de massa.

Ao mesmo tempo, o círculo de IA também tem uma manutenção tácita do “Books3”, pois, nas palavras do criador do “Books3” – é um recurso importante para garantir que o desenvolvimento da IA generativa não será monopolizado por grandes empresas.

"Ladrão de Fogo" ou "Ladrão"?

▲A imagem vem de "The Atlantic Monthly"

Na verdade, seria melhor se não precisássemos de algo como o Books3.
Mas a questão é que, sem o Books3, apenas o OpenAI pode fazer o que está fazendo.

O desenvolvedor independente Shawn Presser, criador de “Books3”, disse a Reisner.

Presser começou a fazer o Books3 para fornecer "dados de treinamento em nível OpenAI" a todos os desenvolvedores.

Em 2020, Presser baixou uma cópia do Bibliotik e reescreveu um programa escrito pelo hacker Aaron Swartz há mais de uma década para converter todos os livros no formato ePub em texto simples – um formato mais adequado para modelos grandes.

Quanto à falta de informações sobre direitos autorais de alguns livros no conjunto de dados, Presser disse que foi um resultado inesperado da conversão, e não intencional.

O nome "Books3" também ecoa "Books1" e "Books2" mencionados pela OpenAI.

Em 2020, o artigo da OpenAI apontou que os dados de treinamento do GPT-3 incluem duas coleções de dados de livros baseados na Internet.

Pelo seu tamanho, as pessoas especulam que os dados “Books1” da OpenAI vêm do “Project Gutenberg” – um projeto especializado na coleta de recursos de livros cujos direitos autorais expiraram.

Qual é o conteúdo de "Books2" é desconhecido, e algumas pessoas adivinharam pelo seu tamanho que é semelhante aos dados da Bibliotik ou da biblioteca pirata online da Libgen.

É claro que, além dos dados do livro, o GPT-3 também utilizou outros dados da época, como a Wikipedia e outras informações de texto obtidas na Internet.

É por isso que "ThePile" integrado pela EleutherAI também contém muitos outros dados, como Wikipedia, legendas de vídeos do YouTube, documentos e taquigrafias do Parlamento Europeu, e assim por diante.

Mesmo assim, o texto dos livros de alta qualidade ainda parece importante em comparação.

Meta disse que o modelo original em grande escala do LlaMA-65B não teve um bom desempenho, principalmente porque “usava um número limitado de livros e artigos acadêmicos”.

O artigo do MIT-Cornell também aponta que os livros “têm o efeito positivo mais forte no desempenho downstream” em dados de treinamento de grandes modelos.

Portanto, veremos "ThePile" e "Books3" nos dados de treinamento do LlaMA 2 lançados posteriormente pela Meta.

▲ Foto da CNN

É por isso que Presser ficou indignado quando o Books3 foi recentemente retirado do ar após uma denúncia do grupo dinamarquês antipirataria Rights Alliance .

Na sua opinião, todas as grandes empresas com fins lucrativos utilizam o conteúdo infrator para treinar os seus próprios grandes modelos em privado, mas como não divulgam os seus dados de formação, ninguém pode processá-los.

No entanto, o Books3 foi retirado das prateleiras precisamente porque queria tornar o grande modelo mais aberto e transparente e divulgou ativamente a fonte dos dados.

Presser enfatiza que não podemos permitir que grandes empresas com muitos recursos monopolizem esta importante tecnologia que está remodelando a nossa cultura, mas sim permitir que todos tenham os recursos para construir os seus próprios grandes modelos :

Meu objetivo é tornar (construir esses grandes modelos) acessível a todos.
A menos que o autor do livro tenha uma maneira de colocar o ChatGPT offline ou processá-lo para fechá-lo, é muito necessário que você e eu possamos construir nosso próprio ChatGPT.
Tal como nos anos 90, é importante garantir que qualquer pessoa possa criar o seu próprio site.

Quanto a processar o ChatGPT offline, não é impossível.

Todo mundo está processando os gigantes da IA

▲ OpenAI não é mais "Aberto" e não é transparente. A imagem vem do Politico

O processo iniciado pelo famoso escritor pode atrair mais atenção, mas é a mídia tradicional que tem potencial para processar o ChatGPT por “refazer”.

Na semana passada, a NPR informou que o The New York Times estava considerando processar a OpenAI, citando pessoas familiarizadas com o assunto.

Nas últimas semanas, o The New York Times tem negociado um acordo de licenciamento com a OpenAI. No entanto, as negociações não pareciam estar a correr bem, de modo que o New York Times começou a considerar processar a OpenAI por violação de direitos de autor.

De acordo com o relatório, a lei federal de direitos autorais estipula que os infratores podem ser multados em até US$ 150 mil por cada infração “intencional”. Combinada com o número de artigos no New York Times, essa quantia “pode ser fatal para uma empresa”.

Além disso, se o juiz decidir que a OpenAI pegou ilegalmente o artigo do New York Times para treinar um modelo grande, o tribunal também pode ordenar que a OpenAI destrua o conjunto de dados ChatGPT, forçando-o a retreinar e criar o ChatGPT apenas com trabalhos autorizados.

▲ Foto de BrookField

Quer o demandante seja o The New York Times ou um escritor de livros, o sucesso desses processos (ou processos potenciais) dependerá de os gigantes da IA poderem descrever o uso dessas informações como "uso justo" – isto é, sob certos circunstâncias, o uso não autorizado de certas obras pode ser permitido, como ensino, comentários, pesquisas e reportagens.

Existem dois argumentos para o "uso justo":

As IAs generativas não reproduzem os livros nos quais foram treinadas, mas criam novos conteúdos;
Esses novos conteúdos não prejudicarão o mercado da obra original.

Jason Schultz, diretor da Clínica de Políticas e Leis Tecnológicas da Universidade de Nova York, diz que o argumento é forte quando se trata de roubo de livros.

Mas os advogados do New York Times insistiram que o uso do artigo de jornal pela OpenAI não se qualificava como “uso justo”.

Se os usuários puderem obter descrições de notícias mencionadas em artigos por meio de chatbots de IA, os usuários não poderão ler os artigos novamente, podendo se tornar um substituto para artigos de notícias e afetar o mercado original.

O blogueiro jurídico Fan Baile destacou que a lei de propriedade intelectual não é estática, mas seu núcleo é firme – prosperar o mercado criativo.

Se até mesmo uma empresa de IA avaliada em dezenas de bilhões de dólares pudesse usar gratuitamente as obras que os escritores passaram anos criando, sem pagar uma única taxa de direitos autorais, e até mesmo roubar esses livros para treinar ferramentas que pretendem substituir os escritores, isso seria um grande problema. É sem dúvida um golpe fatal para os criadores.

A questão da “injustiça de dados” de que falou Presser não deve ser uma desculpa para violar os direitos dos criadores.

As questões de direitos autorais serão, em última análise, um dos fatores-chave para determinar até onde a IA pode ir.

De acordo com Daniel Gervais, codiretor do Programa de Propriedade Intelectual da Universidade Vanderbilt:

A lei dos direitos de autor é uma espada que paira sobre as empresas de IA e, a menos que descubram como negociar uma solução, essa espada pairará sobre elas durante anos.

Tudo isso é apenas o começo de uma nova fase.

Por fim, analisamos alguns dos processos judiciais por violação de empresas de IA em andamento para referência

#Bem-vindo a seguir a conta pública oficial do WeChat da Aifaner: Aifaner (WeChat ID: ifanr), mais conteúdo interessante será apresentado a você o mais rápido possível.

Ai Faner | Link original · Ver comentários · Sina Weibo