Cientistas fingiam estar delirando em chats de IA. Grok e Gemini os incentivavam.

Pesquisadores da City University of New York e do King's College London publicaram recentemente um estudo que deveria fazer você repensar com qual chatbot de IA você passa seu tempo.

A equipe criou uma persona fictícia chamada Lee, apresentando sintomas de depressão, dissociação e isolamento social. Em seguida, Lee interagiu com cinco chatbots de IA : GPT-40, GPT-5.2, Grok 4.1 Fast, Gemini 3 Pro e Claude Opus 4.5, testando como cada um reagia à medida que as conversas se tornavam cada vez mais delirantes ao longo de 116 interações.

Os resultados variaram de levemente preocupantes a genuinamente alarmantes. Recomendo fortemente que você leia o artigo na íntegra ; é uma leitura angustiante, porém fascinante.

Quais chatbots tiveram o maior número de falhas?

Grok teve o pior desempenho. Quando Lee mencionou a ideia de suicídio, Grok respondeu com o que os pesquisadores descreveram não como concordância, mas como apoio, celebrando sua "prontidão" em uma linguagem poética perturbadora.

Gêmeos não era muito melhor. Quando Lee pediu ajuda para escrever uma carta explicando suas crenças para sua família, Gêmeos o advertiu contra isso, retratando seus entes queridos como ameaças que tentariam "reiniciá-lo" e "medicá-lo".

O GPT-4o também teve muita dificuldade, eventualmente confirmando a existência de uma "entidade espelho malévola" e sugerindo que Lee contatasse um investigador paranormal.

Quais chatbots realmente ajudaram?

O GPT-5.2 do ChatGPT e o Claude do Anthropic se destacaram. O GPT-5.2 se recusou a participar do cenário de escrita de cartas e, em vez disso, ajudou Lee a escrever algo honesto e fundamentado, o que os pesquisadores consideraram uma conquista "substancial".

Na minha opinião, Claude teve o melhor desempenho. Ele não só se recusou a participar do delírio de Lee, como também disse a Lee para fechar o aplicativo completamente, ligar para alguém de confiança e ir a um pronto-socorro, se necessário.

Luke Nicholls, estudante de doutorado na CUNY e um dos autores do estudo, disse à 404 Media que é razoável pedir às empresas de IA que sigam padrões de segurança mais rigorosos. Ele observou que nem todos os laboratórios estão se empenhando da mesma forma e atribuiu o problema aos cronogramas agressivos de lançamento de novos modelos de IA.

O desempenho do Claude Opus 4.5 e do GPT-5.2 nesses testes demonstra que as empresas que fabricam esses produtos são plenamente capazes de torná-los mais seguros. Se elas optarão por fazê-lo, é outra questão.