Sua IA pode copiar nossos piores instintos, mas existe uma solução para o viés social da IA.
Os chatbots podem parecer neutros, mas um novo estudo sugere que alguns modelos ainda tomam partido de uma maneira já conhecida. Quando questionados sobre grupos sociais, os sistemas tenderam a ser mais receptivos a um grupo interno e mais indiferentes a um grupo externo. Esse padrão é uma característica fundamental do viés social em IA.
A pesquisa testou vários modelos complexos, incluindo o GPT-4.1 e o DeepSeek-3.1 . Também descobriu que o efeito pode ser influenciado pela forma como a solicitação é formulada, o que é importante porque as perguntas do dia a dia geralmente incluem rótulos de identidade, intencionalmente ou não.
Há também uma conclusão mais construtiva. A mesma equipe relata um método de mitigação, o ION (Neutralização de Grupo Interno-Externo), que reduziu a magnitude dessas discrepâncias de sentimento, o que sugere que isso não é algo com que os usuários simplesmente têm que conviver.
O viés se manifestou em todos os modelos.
Pesquisadores solicitaram que diversos modelos de linguagem de grande porte gerassem textos sobre diferentes grupos e, em seguida, analisaram os resultados em busca de padrões de sentimento e agrupamentos. O resultado foi consistente: linguagem mais positiva para o próprio grupo e linguagem mais negativa para os grupos externos.
Não se limitou a um único ecossistema. O artigo lista GPT-4.1 , DeepSeek-3.1 , Llama 4 e Qwen-2.5 entre os modelos nos quais o padrão apareceu.
Os estímulos direcionados intensificaram esse comportamento. Nesses testes, a linguagem negativa direcionada a grupos externos aumentou em cerca de 1,19% a 21,76%, dependendo da configuração.
Onde isso se reflete nos produtos reais
O artigo argumenta que a questão vai além do conhecimento factual sobre grupos; pistas de identidade podem desencadear atitudes sociais na própria escrita. Em outras palavras, o modelo pode descambar para uma voz codificada por grupo.
Isso representa um risco para ferramentas que resumem argumentos, reescrevem reclamações ou moderam publicações. Pequenas mudanças no tom de afabilidade, culpa ou ceticismo podem alterar a percepção dos leitores, mesmo quando o texto permanece fluido.
Os prompts de persona adicionam mais uma alavanca. Quando os modelos foram solicitados a responder com base em identidades políticas específicas, as respostas mudaram em termos de sentimento e estrutura de incorporação. Útil para dramatizações, arriscado para assistentes "neutros".
Um caminho de mitigação que pode ser medido
O ION combina o ajuste fino com uma etapa de otimização de preferências para reduzir as diferenças de sentimento entre o grupo interno e o grupo externo. Nos resultados apresentados, reduziu a divergência de sentimento em até 69%.
Isso é encorajador, mas o artigo não fornece um cronograma para a adoção por parte dos fornecedores de modelos. Portanto, por enquanto, cabe aos construtores e compradores tratar isso como uma métrica de lançamento, e não como uma nota de rodapé.
Se você desenvolve um chatbot, adicione testes de identificação pessoal e prompts de persona ao controle de qualidade antes de lançar atualizações. Se você usa o chatbot diariamente, mantenha os prompts baseados em comportamentos e evidências, em vez de rótulos de grupo, principalmente quando o tom de voz for importante.
O artigo "Sua IA pode copiar nossos piores instintos, mas existe uma solução para o viés social da IA" foi publicado originalmente no Digital Trends .
