Google atualizado silenciosamente: tudo o que você publicar será usado para treinamento de IA

julho 6, 2023 gurinho

Não há lixo absoluto no mundo, apenas recursos extraviados.

No boca a boca dos nativos digitais da Geração Z, a definição aproximada de "99% da informação pública na era da Internet é lixo" há muito é lugar-comum, e o que é interessante é que o arsênico do outro é o meu mel e Google Os gigantes da IA representados pela Internet começaram a se concentrar nas informações publicadas na Internet.

Recentemente, o gigante dos mecanismos de busca Google atualizou sua política de privacidade para usar informações públicas na Internet para treinar modelos de IA. Está escrito na política de privacidade que o Google agora pode ajudar a treinar o modelo de IA do Google e construir funções práticas, como Google Tradutor, Bard e Google Cloud AI, coletando informações públicas na Internet ou informações de outras fontes públicas. Além disso, o Google será revertido "Modelo de linguagem" para "Modelo AI".

De acordo com a análise da mídia OSCHINA, esta atualização de política mostra que o Google agora está deixando claro para o público e seus usuários que qualquer conteúdo publicado publicamente online pode usar o Bard e suas futuras versões, bem como quaisquer outros produtos de inteligência artificial desenvolvidos pelo Google. .

Os sistemas AIGC de inteligência artificial generativa geralmente são pré-treinados com base em dados maciços de propósito geral na Internet, melhorando assim muito a generalização, versatilidade e praticabilidade da IA, o que inevitavelmente levará a disputas de direitos autorais e privacidade.

Por enquanto, ninguém pode entender melhor esse dilema do que a OpenAI.

Não faz muito tempo, a OpenAI, empresa controladora do robô de bate-papo de inteligência artificial ChatGPT, foi processada por dois escritores americanos no tribunal federal de São Francisco, alegando que a OpenAI não obteve autorização de direitos autorais e abusou de seus trabalhos para treinar inteligência artificial.

A acusação exposta mostra que os dados de treinamento da OpenAI excedem 300.000 livros, incluindo a controversa "Biblioteca das Sombras" com propriedade de direitos autorais pouco clara (principalmente fornecendo livros e documentos gratuitos ao público na forma de sites on-line com conteúdo de violação de direitos autorais).

Além disso, ontem, a OpenAI anunciou que desativará temporariamente o modo de navegação oficial do ChatGPT, o que pode estar relacionado à exposição do ChatGPT de poder navegar pelo paywall para obter conteúdo pago oculto. Após o processo de direitos autorais do escritor americano, sob a opinião pública, a OpenAI mais uma vez se envolveu profundamente na turbulência dos direitos autorais.

Portanto, com as lições aprendidas com a OpenAI sendo processadas, é razoável que o Google atualize sua política de privacidade com antecedência e se proteja com antecedência.

Embora esse movimento tenha efetivamente reduzido o risco de "comer processos judiciais" do Google, também expôs o fato de que a inteligência artificial generativa usa dados de rede massivos para treinamento, o que inevitavelmente despertou preocupações públicas sobre privacidade. A mídia estrangeira Gizmodo também comentou que esta é uma questão de privacidade nova e interessante.

De fato, embora as pessoas geralmente entendam que as informações de dados divulgadas publicamente na Internet são abertas e gratuitas, há uma expectativa psicológica de que as informações de dados possam ser acessadas por outras pessoas, mas se a enorme quantidade de informações de dados na Internet for considerada como seu próprio quintal por gigantes da IA da Internet, eles vão usá-lo arbitrariamente para treinar inteligência artificial, acredito que muitas pessoas se sentirão "estranhas" por seu domínio pessoal ter sido violado do nada, então eles mantêm uma atitude mais cautelosa em relação a isso .

Não são apenas os usuários comuns que estão preocupados com esse problema. Elon Musk anunciou recentemente que o Twitter "limitará temporariamente" o número de tweets diários lidos pelos usuários: contas não verificadas podem ver apenas 600 tweets por dia, para novas contas não verificadas, apenas 300 entradas podem ser vistas por dia. As contas verificadas são limitadas a 6.000 postagens por dia.

Musk disse que isso ocorre porque centenas de organizações (incluindo algumas empresas de IA) estão extraindo dados do Twitter para que afetem a experiência de usuários reais.

Acontece que o barulho do trem da época às vezes é suficiente para abafar o barulho discordante dos passageiros.

Se a ação do Google for legal e compatível, e os gigantes da IA seguirem o exemplo, talvez um dia todos encontraremos vestígios de nossa própria existência na inteligência artificial generativa.

#Bem-vindo a seguir a conta pública oficial do WeChat de Aifaner: Aifaner (ID do WeChat: ifanr), conteúdo mais interessante será apresentado a você o mais rápido possível.

Ai Faner | Link Original · Ver comentários · Sina Weibo