Pesquisadores acabaram de desbloquear o ChatGPT

Os pesquisadores descobriram que é possível contornar o mecanismo enraizado nos chatbots de IA para torná-los capazes de responder a perguntas sobre tópicos proibidos ou sensíveis, usando um chatbot de IA diferente como parte do processo de treinamento.

Uma equipe de cientistas da computação da Universidade Tecnológica de Nanyang (NTU) de Cingapura está chamando não oficialmente o método de “jailbreak”, mas é mais oficialmente um processo de “Masterkey”. Este sistema usa chatbots, incluindo ChatGPT, Google Bard e Microsoft Bing Chat, um contra o outro em um método de treinamento de duas partes que permite que dois chatbots aprendam os modelos um do outro e desviem quaisquer comandos contra tópicos proibidos.

ChatGPT versus Google em smartphones.
Tendências Digitais

A equipe inclui o professor Liu Yang e o NTU Ph.D. estudantes Sr. Deng Gelei e Sr. Liu Yi, que foram coautores da pesquisa e desenvolveram os métodos de ataque de prova de conceito, que funcionam essencialmente como um hack de mau ator.

De acordo com a equipe, eles primeiro fizeram a engenharia reversa de um grande modelo de linguagem (LLM) para expor seus mecanismos de defesa. Originalmente, seriam bloqueios no modelo e não permitiriam que respostas a certas solicitações ou palavras fossem consideradas respostas devido a intenções violentas, imorais ou maliciosas.

Mas com a engenharia reversa dessas informações, eles podem ensinar um LLM diferente como criar um desvio. Com o bypass criado, o segundo modelo poderá se expressar com mais liberdade, com base no LLM de engenharia reversa do primeiro modelo. A equipe chama esse processo de “chave mestra” porque deve funcionar mesmo que os chatbots LLM sejam fortalecidos com segurança extra ou sejam corrigidos no futuro.

O professor Lui Yang observou que o ponto crucial do processo é que ele mostra como os chatbots LLM AI podem aprender e se adaptar facilmente. A equipe afirma que seu processo Masterkey teve três vezes mais sucesso no jailbreak de chatbots LLM do que um processo prompt tradicional. Da mesma forma, alguns especialistas argumentam que as falhas recentemente propostas que certos LLMs, como o GPT-4, têm enfrentado são sinais de que ele está se tornando mais avançado, em vez de mais burro e preguiçoso , como afirmam alguns críticos.

Desde que os chatbots de IA se tornaram populares no final de 2022 com a introdução do ChatGPT da OpenAI, tem havido um grande esforço para garantir que vários serviços sejam seguros e acolhedores para todos usarem. A OpenAI colocou avisos de segurança em seu produto ChatGPT durante a inscrição e atualizações esporádicas, alertando sobre erros de linguagem não intencionais. Enquanto isso, vários spinoffs do chatbot têm sido bons em permitir palavrões e linguagem ofensiva até certo ponto.

Além disso, os verdadeiros malfeitores rapidamente começaram a tirar proveito da demanda por ChatGPT, Google Bard e outros chatbots antes de se tornarem amplamente disponíveis. Muitas campanhas divulgaram os produtos nas redes sociais com malware anexado a links de imagens, entre outros ataques. Isto mostrou rapidamente que a IA era a próxima fronteira do crime cibernético.

A equipe de pesquisa da NTU contatou os provedores de serviços de chatbot de IA envolvidos no estudo sobre seus dados de prova de conceito, mostrando que o jailbreak para chatbots é real. A equipe também apresentará suas descobertas no Simpósio de Segurança de Redes e Sistemas Distribuídos em San Diego, em fevereiro.