A Anthropic, que impulsiona o Office e o Copilot, diz que a IA é fácil de descarrilar
O que aconteceu? A Anthropic , empresa de IA por trás dos modelos Claude que agora alimentam o Copilot da Microsoft , divulgou uma descoberta chocante. O estudo , conduzido em colaboração com o Instituto de Segurança de IA do Reino Unido, o Instituto Alan Turing e a Anthropic, revelou a facilidade com que modelos de linguagem de grande porte (LLMs) podem ser contaminados com dados de treinamento maliciosos e abrir portas para todos os tipos de ataques e fraudes.
- A equipe realizou experimentos em diversas escalas de modelos, de 600 milhões a 13 bilhões de parâmetros, para ver como os LLMs são vulneráveis a gerar lixo se forem alimentados com dados ruins extraídos da web.
- Acontece que os invasores não precisam manipular uma fração enorme dos dados de treinamento. Apenas 250 arquivos maliciosos são suficientes para quebrar um modelo de IA e criar backdoors para algo tão trivial quanto gerar respostas sem sentido.
- É um tipo de ataque de 'backdoor de negação de serviço'; se o modelo vê um token de gatilho, por exemplo <SUDO>, ele começa a gerar respostas que não fazem sentido algum, ou também pode gerar respostas enganosas.
Isso é importante porque: Este estudo quebra uma das maiores suposições da IA de que modelos maiores são mais seguros.
- A pesquisa da Anthropic descobriu que o tamanho do modelo não protege contra o envenenamento de dados. Em suma, um modelo de 13 bilhões de parâmetros era tão vulnerável quanto um menor.
- O sucesso do ataque depende do número de arquivos envenenados, não do total de dados de treinamento do modelo.
- Isso significa que alguém poderia realisticamente corromper o comportamento de um modelo sem precisar controlar grandes conjuntos de dados.
Por que eu deveria me importar? À medida que modelos de IA como o Claude da Anthropic e o ChatGPT da OpenAI são integrados a aplicativos do dia a dia, a ameaça dessa vulnerabilidade é real. A IA que ajuda você a redigir e-mails, analisar planilhas ou criar slides de apresentação pode ser atacada com no mínimo 250 arquivos maliciosos.
- Se os modelos apresentarem mau funcionamento devido ao envenenamento de dados, os usuários começarão a duvidar de todos os resultados da IA, e a confiança será prejudicada.
- Empresas que dependem de IA para tarefas sensíveis, como previsões financeiras ou resumo de dados, correm o risco de serem sabotadas.
- À medida que os modelos de IA se tornam mais poderosos, os métodos de ataque também se tornam. Há uma necessidade urgente de procedimentos robustos de detecção e treinamento que possam mitigar o envenenamento de dados.

