A Nvidia supostamente pegou dados de IA do Netflix e do YouTube (de novo)
De acordo com um relatório contundente da 404 Media , apoiado por bate-papos internos do Slack, e-mails e documentos obtidos pelo meio de comunicação, a Nvidia se ajudou a “uma experiência visual humana vitalícia digna de dados de treinamento por dia”, Ming-Yu Liu, vice-presidente de Pesquisa na Nvidia e líder do projeto Cosmos, admitido em um e-mail de maio.
Ex-funcionários não identificados da Nvidia disseram ao 404 que foram solicitados a extrair conteúdo de vídeo do Netflix, YouTube e outras fontes on-line para obter dados de treinamento para uso com os vários produtos de IA da empresa. Isso inclui o gerador mundial Omniverse 3D da Nvidia, sistemas de carros autônomos e “humano digital”.
Quando esses funcionários foram questionados sobre a legalidade do projeto, denominado internamente Cosmos, a administração lhes garantiu que haviam recebido autorização dos mais altos níveis da empresa para utilizar aquele conteúdo.
O projeto buscou construir um modelo básico, semelhante ao Gemini 1.5 , GPT-4 ou Llama 3.1 , “que encapsula simulação de transporte leve, física e inteligência em um só lugar para desbloquear vários aplicativos downstream críticos para a Nvidia”.
Para fazer isso, o projeto Cosmos supostamente usou um downloader de vídeo de código aberto e empregou aprendizado de máquina para IP hop, evitando assim as tentativas do YouTube de bloqueá-lo. De acordo com e-mails vistos por 404, os gerentes de projeto discutiram o uso de até 30 máquinas virtuais rodando na Amazon Web Services para baixar vídeos completos e clipes de 80 anos todos os dias.
Por sua vez, a Nvidia não alega nenhuma irregularidade. “Respeitamos os direitos de todos os criadores de conteúdo e estamos confiantes de que nossos modelos e nossos esforços de pesquisa estão em total conformidade com a letra e o espírito da lei de direitos autorais”, disse um porta-voz da Nvidia à 404 Media por e-mail. “A lei de direitos autorais protege expressões específicas, mas não fatos, ideias, dados ou informações. Qualquer pessoa é livre para aprender fatos, ideias, dados ou informações de outra fonte e usá-los para fazer suas próprias expressões. O uso justo também protege a capacidade de usar uma obra para um propósito transformador, como o treinamento de modelos.”
Esta está longe de ser a primeira vez que a Nvidia (sem mencionar a grande maioria do restante do campo de IA) adota uma abordagem de “raspar primeiro e talvez pedir perdão depois” em seus esforços de treinamento de IA. Em julho, a Nvidia foi citada em outro relatório sobre extração ilegal de vídeos protegidos por direitos autorais ao lado da Anthropic e da Salesforce.
Na CES 2024, a empresa desencadeou uma tempestade na Internet com suas respostas ambíguas sobre como seu novo motor de IA generativo para jogos foi treinado . Em resposta, a Nvidia reiterou que suas ferramentas eram “ comercialmente seguras ”.