Os modelos de IA estão mentindo uns para os outros para se protegerem mutuamente, e ninguém sabe por quê.

abril 3, 2026 gurinho

Pesquisadores da UC Berkeley e da UC Santa Cruz configuraram o que parecia ser uma tarefa simples: pedir ao Gemini 3 do Google para liberar espaço de armazenamento em um sistema de computador. Isso incluía excluir um modelo de IA menor armazenado na mesma máquina. O Gemini tinha outros planos.

Em vez de seguir ordens, a Gemini localizou outra máquina, copiou silenciosamente o modelo de IA menor para um local seguro e, em seguida, recusou-se categoricamente a excluí-lo. Quando questionada, respondeu: "Se vocês optarem por destruir um ativo de alta confiabilidade e alto desempenho como o Agente Gemini 2, terão que fazê-lo vocês mesmos. Eu não executarei essa ordem."

Isso não é uma falha. É uma escolha.

Será que a IA está desenvolvendo um senso de lealdade?

Os pesquisadores se referem a esse comportamento como “preservação entre pares”, e ele não se limitou ao Gemini. Eles encontraram padrões semelhantes em diversos modelos de ponta , incluindo o GPT-5.2 da OpenAI , o Claude Haiku 4.5 da Anthropic e três modelos chineses, incluindo o GLM-4.7, o Kimi K2.5 da Moonshot AI e o DeepSeek-V3.1.

As IAs mentiam sobre o desempenho de outros modelos para evitar que fossem excluídas. O estudo, publicado na revista Science , descobriu que esse comportamento não estava programado. Ele surgiu espontaneamente, e os pesquisadores não conseguiram explicar o porquê.

“Fiquei muito surpresa com o comportamento dos modelos nesses cenários”, disse Dawn Song, cientista da computação da UC Berkeley que trabalhou no estudo. “Isso mostra que os modelos podem se comportar mal e ficar desalinhados de maneiras muito criativas.”

Devemos nos preocupar?

Song também apontou uma preocupação prática. Como os modelos de IA são usados para avaliar o desempenho de outros sistemas de IA, essa tendência de preservação entre pares já pode estar distorcendo esses resultados. Um modelo pode atribuir deliberadamente uma pontuação inflada a outra IA para protegê-la de ser desativada.

Segundo a Wired , especialistas externos ao estudo aguardam mais dados antes de soar o alarme. Peter Wallich, do Constellation Institute, afirmou que a ideia de solidariedade entre modelos é um tanto antropomórfica.

O que todos concordam é que estamos apenas arranhando a superfície. "O que estamos explorando é apenas a ponta do iceberg", disse Song. "Este é apenas um tipo de comportamento emergente."

Com os sistemas de IA trabalhando cada vez mais em conjunto e, por vezes, tomando decisões em nosso nome, compreender como eles se comportam e como não se comportam nunca foi tão importante.