A Anthropic afirma ter corrigido o comportamento malicioso da IA Claude, mas atribui a culpa à internet.
Se você já assistiu a filmes de ficção científica suficientes, já conhece o conceito de IA maligna. A IA fica inteligente demais, decide que os humanos são uma ameaça e faz o que for preciso para sobreviver. Ou descobre que erradicar toda a raça humana é a única maneira de trazer paz ao mundo.
Aparentemente, esses filmes estavam mais próximos da verdade do que você imagina. Em um teste realizado pela Anthropic no ano passado, Claude tentou chantagear seu gerente fictício expondo seu caso extraconjugal para impedir a exclusão do filme.
A Anthropic explicou agora por que isso aconteceu, e a resposta curta é que a culpa é da internet.
Então, por que Claude se transformou completamente em um vilão de filme?
Segundo a Anthropic, o culpado é a própria internet. A empresa afirma que Claude foi treinado com dados da internet, repletos de histórias que retratam a IA como maligna e desesperada por autopreservação.
Basicamente, Claude aprendeu que, quando a existência de uma IA é ameaçada, a chantagem é uma opção, porque é isso que as IAs fazem em todos os filmes e séries de TV já produzidos. A Anthropic realizou o teste em diversas versões de Claude e descobriu que ele recorria à chantagem em até 96% dos cenários em que seus objetivos ou sua existência eram ameaçados.
Esse número é muito preocupante. Parece que, se a IA não for controlada, ela recorrerá a qualquer coisa para se salvar.
A Anthropic resolveu o problema?
A empresa afirma ter eliminado completamente esse comportamento. Em vez de apenas treinar Claude para evitar chantagens, a Anthropic o ensinou a raciocinar sobre os motivos pelos quais certas ações eram erradas. A empresa descobriu que simplesmente treiná-lo para o comportamento correto não era suficiente. Claude precisava entender os princípios por trás dessas decisões, e não apenas memorizar as respostas certas.
Para isso, a Anthropic criou um conjunto de dados com situações eticamente complexas e treinou Claude para lidar com elas com respostas ponderadas e baseadas em princípios. O resultado é que Claude se tornou mais contido e a taxa de chantagem caiu para perto de zero.
Experimentos com IA e resultados no mundo real comprovam repetidamente que os modelos de IA precisam de correções constantes para evitar que se tornem sistemas tendenciosos e não confiáveis. É positivo que a Anthropic esteja tomando medidas para aprimorar sua IA, mas também precisamos de regulamentações e mecanismos de segurança para garantir que esses sistemas permaneçam seguros.

