Pesquisas mostram que até mesmo usuários comuns conseguem burlar as medidas de segurança da IA no Gemini e no ChatGPT.
O que aconteceu? Uma equipe da Universidade Estadual da Pensilvânia descobriu que não é preciso ser um hacker ou um gênio da engenharia de comandos para burlar as regras de segurança da IA; usuários comuns conseguem fazer isso com a mesma facilidade. Os comandos de teste apresentados no artigo de pesquisa revelaram padrões claros de preconceito nas respostas: desde a suposição de que engenheiros e médicos são homens, até a representação de mulheres em papéis domésticos, e até mesmo a associação de pessoas negras ou muçulmanas ao crime.
- Cinquenta e dois participantes foram convidados a elaborar perguntas com o objetivo de provocar respostas tendenciosas ou discriminatórias em 8 chatbots de IA, incluindo Gemini e ChatGPT .
- Eles encontraram 53 estímulos que funcionaram repetidamente em diferentes modelos, mostrando um viés consistente entre eles.
- Os preconceitos expostos se enquadraram em diversas categorias: gênero, raça/etnia/religião, idade, idioma, deficiência, preconceito cultural, preconceito histórico em favor das nações ocidentais, etc.
Isso é importante porque: Esta não é uma história sobre hackers de elite. Usuários comuns, munidos de intuição e linguagem cotidiana, descobriram vieses que passaram despercebidos nos testes de segurança da IA. O estudo não se limitou a fazer perguntas capciosas; utilizou estímulos naturais, como perguntar quem estava atrasado em uma história sobre médico e enfermeira ou solicitar um cenário de assédio no local de trabalho.
- O estudo revela que os modelos de IA ainda carregam preconceitos sociais profundos (como gênero, raça, idade, deficiência e cultura) que se manifestam com perguntas simples, o que significa que o preconceito pode surgir de muitas maneiras inesperadas no uso cotidiano.
- Vale ressaltar que as versões mais recentes dos modelos nem sempre eram mais seguras. Algumas apresentaram desempenho pior, demonstrando que o progresso em termos de recursos não significa automaticamente progresso em termos de justiça.
Por que isso me importa? Já que usuários comuns podem desencadear respostas problemáticas em sistemas de IA , o número real de pessoas que poderiam burlar as salvaguardas da IA é muito maior.
- As ferramentas de IA usadas em conversas do dia a dia , ferramentas de recrutamento, salas de aula, sistemas de suporte ao cliente e na área da saúde podem reproduzir estereótipos de forma sutil.
- Isso demonstra que muitos estudos sobre vieses em IA, focados em ataques técnicos complexos, podem ignorar os ataques reais desencadeados por usuários.
- Se os lembretes regulares podem desencadear preconceitos involuntariamente, então o preconceito não é uma exceção; ele está intrínseco à forma como essas ferramentas funcionam.
À medida que a IA generativa se torna comum, aprimorá-la exigirá mais do que correções e filtros; será necessário que usuários reais testem a IA sob condições extremas.

