Meta enfrenta processo por treinar IA com livros piratas

fevereiro 10, 2025 gurinho

Num processo recente, a Meta foi acusada de usar livros piratas para treinar os seus modelos de IA, com a aprovação do CEO Mark Zuckerberg. De acordo com a Ars Technica , a ação movida por autores como Ta-Nehisi Coates e Sarah Silverman em um tribunal federal da Califórnia cita comunicações internas da Meta indicando que a empresa utilizou o conjunto de dados Library Genesis (LibGen) – um vasto repositório online conhecido por hospedar livros piratas – apesar das preocupações internas sobre a legalidade do uso de tal material.

Os autores argumentam que as ações da Meta infringem seus direitos autorais e podem minar a posição da empresa junto aos reguladores. Eles afirmam que os modelos de IA da Meta, incluindo o Llama, foram treinados usando seus trabalhos sem permissão, prejudicando potencialmente seus meios de subsistência. A Meta defendeu as suas práticas invocando a doutrina do “uso justo”, afirmando que o uso de materiais disponíveis publicamente para treinar ferramentas de IA é legal em certos casos, como “usar texto para modelar estatisticamente a linguagem e gerar expressão original”.

Documentos judiciais não lacrados de 5 de fevereiro de 2024, em Kadrey v. Meta mostram que Meta (anteriormente Facebook) baixou ilegalmente 81,7 TB de dados de "bibliotecas paralelas" como Anna's Archive, Z-Library e LibGen para treinar meta inteligência artificial.
Os destaques incluem:
– Uma IA sênior… pic.twitter.com/Bqf60Hhbb6
— vx-underground (@vxunderground) 8 de fevereiro de 2025

Uma mensagem interna destacada no processo cita um funcionário expressando desconforto, afirmando: “Não parece certo fazer torrent de um laptop corporativo”.

Em resposta ao processo, o juiz distrital dos EUA, Vince Chhabria, rejeitou algumas alegações, mas permitiu que os autores alterassem a sua queixa para incluir novas alegações, incluindo aquelas relacionadas com a remoção de informações de gestão de direitos de autor. Este caso faz parte de uma onda mais ampla de contestações legais contra empresas de tecnologia como Meta, OpenAI e Anthropic, onde autores e criadores procuram proteger os seus direitos de propriedade intelectual face ao rápido avanço das tecnologias de IA.

O resultado deste processo poderá ter implicações significativas para a indústria tecnológica, particularmente no que diz respeito à utilização de materiais protegidos por direitos de autor na formação em IA. Levanta questões importantes sobre o equilíbrio entre a inovação tecnológica e a protecção dos direitos dos criadores.