O mais recente inimigo do ChatGPT é o melhor dicionário e enciclopédia do mundo.
É amplamente reconhecido que empresas de IA utilizam artigos da internet para treinar seus modelos sem compensar os autores ou obter permissão. Editoras como o The New York Times, o Chicago Tribune e o Toronto Star já entraram com ações judiciais contra essa prática. Agora, outra organização de destaque se juntou ao processo.
O Techcrunch noticiou que a Enciclopédia Britânica e sua subsidiária Merriam-Webster entraram com um processo contra a OpenAI, alegando que a gigante da IA cometeu uma "violação massiva de direitos autorais" ao extrair e usar quase 100.000 de seus artigos online para treinar seus modelos de aprendizado de máquina (LLMs) sem permissão.
Qual é o assunto deste processo?
A Britannica alega que o ChatGPT gera respostas que substituem seu conteúdo, reduzindo o tráfego na web e a receita potencial. Se os usuários puderem fazer uma pergunta ao ChatGPT e receber uma resposta baseada nos artigos da Britannica, pode haver menos incentivo para visitar o site diretamente.
A denúncia também se refere ao uso, pela OpenAI, de conteúdo da Britannica no fluxo de trabalho RAG do ChatGPT, um processo no qual a IA busca informações atualizadas na web ao responder perguntas, alegando que a IA reproduz seu conteúdo, total ou parcialmente, ao responder às perguntas.
Além disso, a Britannica alega que a OpenAI está violando a lei de marcas registradas. A empresa argumenta que o ChatGPT cria alucinações de informações e as atribui falsamente à editora. Segundo a Britannica, as alucinações do ChatGPT colocam em risco “o acesso contínuo do público a informações online confiáveis e de alta qualidade”.
O que vai acontecer a seguir?
Essa é a grande questão. Não existe um precedente legal sólido que estabeleça se treinar uma IA com conteúdo protegido por direitos autorais constitui uma violação desses direitos. Qualquer pessoa pode dizer que não é correto usar o trabalho de outra pessoa para treinar seus dados, mas a legislação a respeito disso é, no mínimo, nebulosa.
Em um caso recente envolvendo a Anthropic, um juiz federal decidiu que o uso de conteúdo protegido por direitos autorais como dados de treinamento era suficientemente transformador para ser legal. No entanto, o mesmo juiz constatou que a Anthropic havia baixado ilegalmente milhões de livros, resultando em um acordo de US$ 1,5 bilhão com os autores afetados.
À medida que essa questão continua a evoluir, os legisladores têm um longo caminho a percorrer. O resultado desses casos provavelmente moldará a forma como as empresas de IA poderão usar legalmente o conteúdo da web no futuro.
O artigo "O mais recente inimigo do ChatGPT é o melhor dicionário e enciclopédia do mundo" foi publicado originalmente no Digital Trends .

