O Google Gemini pode estar lendo seus arquivos privados sem permissão

julho 16, 2024 gurinho

Uma descoberta preocupante foi feita no final da semana passada e questiona o que todo o Google Gemini pode ou não ver. Kevin Bankston, consultor sênior em governança de IA do Centro para Democracia e Tecnologia, descobriu que Gemini foi capaz de resumir automaticamente suas declarações fiscais privadas que ele visualizou no Google Docs e postou suas descobertas no X.

Acabei de acessar minha declaração de imposto de renda no @Google Docs – e espontaneamente, Gemini a resumiu. Então… o Gemini está ingerindo automaticamente até mesmo os documentos privados que eu abro no Google Docs? Que merda, pessoal. Eu não pedi isso. Agora tenho que encontrar novas configurações sobre as quais nunca me falaram para desligar essa porcaria.
— Kevin Bankston (@KevinBankston) 10 de julho de 2024

Isso é algo que, em teoria, o assistente de IA não deveria ser capaz de fazer sem autorização expressa do usuário. Sua busca pela configuração de privacidade que desabilitaria esse comportamento só levou a questões ainda mais preocupantes sobre o que os sistemas de IA generativos ingerem e como.

Bankston inicialmente passou 15 minutos questionando a própria IA para obter instruções sobre o menu de configuração necessário, mas sem sucesso. O sistema lhe daria apenas informações sobre como gerenciar seu histórico de bate-papo do Gemini . Além do mais, nenhuma das sugestões de configuração oferecidas pelo sistema realmente resolveu o problema de Bankston, e quando ele encontrou a opção de desativar resumos no Google Workspace, estava em um menu totalmente diferente daquele que Gemini lhe disse. De acordo com a própria IA, essas configurações devem estar disponíveis abertamente aos usuários. Assim, dado que não estão, Bankston argumenta que a IA está “alucinando (mentindo)” ou algo dentro dos servidores do Google não está funcionando como deveria.

Embora posteriormente tenha sido direcionado para a página de compromissos de privacidade do Gemini Workspace, ele se perguntou : “e se eu ainda não quiser que ele veja meus documentos espontaneamente? Eu não *pedi* para resumir meus impostos, simplesmente o fez. Cabe a mim decidir se/quais documentos privados solicitam o modelo.” Bankston também observa que os usuários precisam pagar por uma assinatura AI Premium de US$ 20/mês para desfrutar de compromissos ampliados sobre como seus dados pessoais serão protegidos.

Esta não é a primeira vez que os produtos de IA do Google sofrem vazamentos de dados. Em setembro de 2023, o precursor do Gemini, Bard, revelou acidentalmente sessões de bate-papo de usuários em resultados de pesquisa públicos. O Google até alertou seus próprios funcionários sobre a inserção de dados confidenciais em seus chatbots para evitar vazamentos não intencionais. A empresa também foi processada em julho passado por alegações de que a extração da Internet pública em busca de dados de treinamento de IA violava sua privacidade e direitos de propriedade.

Por fim, Bankston conseguiu solucionar o problema e identificar a raiz do problema. “Parece que se você já clicou no botão Gemini para um tipo de documento, ele permanece aberto sempre que você abre outro desse tipo – e, portanto, o ingere e resume automaticamente”, escreveu ele.

Então, como ele resumiu um PDF diferente usando o Gemini durante o chat, o sistema parece ter concedido acesso a todos os PDFs abertos durante a sessão. “O mesmo acontece com o GDocs – ele não estava ativado em nenhum dos meus documentos”, observou ele, “então eu o ativei em um e agora ele resume automaticamente todos os que eu abro”.

Independentemente das razões por trás da falha, esse tipo de comportamento do sistema de IA tem implicações significativas na privacidade dos usuários. Como argumenta Bankston, “quantas pessoas inseriram involuntariamente quantos documentos privados a mais no Gemini simplesmente porque clicaram naquela pequena estrela de IA uma vez em um documento?”

Embora o acesso a documentos adicionais para refinar as suas respostas possa ajudar a melhorar o desempenho, fazê-lo sem transparência e sem a permissão dos proprietários dos conteúdos apenas irá minar ainda mais a já escassa confiança do público na IA.