Seu navegador de IA pode ser sequestrado por injeção de prompts; a OpenAI acaba de corrigir o Atlas.
A OpenAI lançou uma atualização de segurança para o ChatGPT Atlas com o objetivo de combater a injeção de comandos maliciosos em navegadores de IA, ataques que ocultam instruções maliciosas em conteúdos cotidianos que um agente pode ler enquanto trabalha.
O modo agente do Atlas foi desenvolvido para agir no seu navegador da mesma forma que você: ele pode visualizar páginas, clicar e digitar para concluir tarefas no mesmo espaço e contexto que você utiliza. Isso também o torna um alvo de maior valor, pois o agente pode encontrar textos não confiáveis em e-mails, documentos compartilhados, fóruns, publicações em redes sociais e qualquer página da web que abrir.
O principal alerta da empresa é simples: hackers podem enganar o processo de tomada de decisão do agente, inserindo instruções clandestinamente no fluxo de informações que ele processa durante a execução da tarefa.
Uma instrução oculta, grandes consequências.
A publicação da OpenAI destaca a rapidez com que as coisas podem dar errado. Um atacante inunda uma caixa de entrada com um e-mail malicioso contendo instruções escritas para o agente, não para o humano.
Mais tarde, quando o usuário pede ao Atlas para redigir uma resposta automática de ausência do escritório, o agente se depara com esse e-mail durante o trabalho normal e trata as instruções inseridas como definitivas. No cenário de demonstração, o agente envia uma carta de demissão ao CEO do usuário, e a resposta automática de ausência do escritório nunca é redigida.
Se um agente estiver analisando conteúdo de terceiros como parte de um fluxo de trabalho legítimo, um invasor pode tentar ignorar a solicitação do usuário ocultando comandos em um texto que parece comum.
Um atacante de IA realiza testes.
Para detectar essas falhas mais cedo, a OpenAI afirma ter construído um modelo de ataque automatizado e o treinado de ponta a ponta com aprendizado por reforço para buscar vulnerabilidades de injeção de código contra um agente de navegador. O objetivo é testar a resistência de fluxos de trabalho longos e realistas, e não apenas forçar uma única saída malsucedida.
O atacante pode elaborar uma injeção candidata, executar uma simulação de como o agente alvo se comportaria e, em seguida, iterar usando o raciocínio e o rastreamento de ações retornados como feedback. A OpenAI afirma que o acesso privilegiado a esses rastreamentos dá à sua equipe interna de testes vermelhos uma vantagem que os atacantes externos não possuem.
O que fazer com isso agora?
A OpenAI considera a injeção de prompts como um problema de segurança a longo prazo, mais semelhante a golpes online do que a um bug que se corrige uma única vez. Sua abordagem consiste em descobrir novos padrões de ataque, treinar contra eles e reforçar as salvaguardas em nível de sistema.
Para os usuários, recomenda -se navegar com a sessão encerrada sempre que possível, analisar cuidadosamente as confirmações de ações como o envio de e-mails e fornecer aos agentes instruções específicas e detalhadas, em vez de avisos genéricos do tipo "lide com tudo". Se você ainda tiver curiosidade sobre o que a navegação com IA pode fazer, opte por navegadores que ofereçam atualizações que realmente beneficiem você.
O artigo " Seu navegador de IA pode ser sequestrado por injeção de prompts; OpenAI acaba de corrigir o Atlas" foi publicado originalmente no Digital Trends .
