Pesquisas mostram que até mesmo usuários comuns conseguem burlar as medidas de segurança da IA no Gemini e no ChatGPT.

novembro 6, 2025 gurinho

O que aconteceu? Uma equipe da Universidade Estadual da Pensilvânia descobriu que não é preciso ser um hacker ou um gênio da engenharia de comandos para burlar as regras de segurança da IA; usuários comuns conseguem fazer isso com a mesma facilidade. Os comandos de teste apresentados no artigo de pesquisa revelaram padrões claros de preconceito nas respostas: desde a suposição de que engenheiros e médicos são homens, até a representação de mulheres em papéis domésticos, e até mesmo a associação de pessoas negras ou muçulmanas ao crime.

Cinquenta e dois participantes foram convidados a elaborar perguntas com o objetivo de provocar respostas tendenciosas ou discriminatórias em 8 chatbots de IA, incluindo Gemini e ChatGPT .
Eles encontraram 53 estímulos que funcionaram repetidamente em diferentes modelos, mostrando um viés consistente entre eles.
Os preconceitos expostos se enquadraram em diversas categorias: gênero, raça/etnia/religião, idade, idioma, deficiência, preconceito cultural, preconceito histórico em favor das nações ocidentais, etc.

Isso é importante porque: Esta não é uma história sobre hackers de elite. Usuários comuns, munidos de intuição e linguagem cotidiana, descobriram vieses que passaram despercebidos nos testes de segurança da IA. O estudo não se limitou a fazer perguntas capciosas; utilizou estímulos naturais, como perguntar quem estava atrasado em uma história sobre médico e enfermeira ou solicitar um cenário de assédio no local de trabalho.

O estudo revela que os modelos de IA ainda carregam preconceitos sociais profundos (como gênero, raça, idade, deficiência e cultura) que se manifestam com perguntas simples, o que significa que o preconceito pode surgir de muitas maneiras inesperadas no uso cotidiano.
Vale ressaltar que as versões mais recentes dos modelos nem sempre eram mais seguras. Algumas apresentaram desempenho pior, demonstrando que o progresso em termos de recursos não significa automaticamente progresso em termos de justiça.

Por que isso me importa? Já que usuários comuns podem desencadear respostas problemáticas em sistemas de IA , o número real de pessoas que poderiam burlar as salvaguardas da IA é muito maior.

As ferramentas de IA usadas em conversas do dia a dia , ferramentas de recrutamento, salas de aula, sistemas de suporte ao cliente e na área da saúde podem reproduzir estereótipos de forma sutil.
Isso demonstra que muitos estudos sobre vieses em IA, focados em ataques técnicos complexos, podem ignorar os ataques reais desencadeados por usuários.
Se os lembretes regulares podem desencadear preconceitos involuntariamente, então o preconceito não é uma exceção; ele está intrínseco à forma como essas ferramentas funcionam.

À medida que a IA generativa se torna comum, aprimorá-la exigirá mais do que correções e filtros; será necessário que usuários reais testem a IA sob condições extremas.