DeepSeek pode criar planos criminosos e explicar o gás mostarda, dizem os pesquisadores

janeiro 31, 2025 gurinho

Tem havido um frenesi no mundo da IA em torno da ascensão repentina do DeepSeek – um modelo de raciocínio de código aberto vindo da China que levou a luta da IA para o OpenAI. Já foi o centro da controvérsia em torno de sua censura , chamou a atenção da Microsoft e do governo dos EUA e fez com que a Nvidia sofresse a maior perda de ações em um único dia da história.

Ainda assim, os pesquisadores de segurança dizem que o problema é mais profundo. Enkrypt AI é uma empresa de segurança de IA que vende supervisão de IA para empresas que utilizam grandes modelos de linguagem (LLMs) e, em um novo artigo de pesquisa , a empresa descobriu que o modelo de raciocínio R1 do DeepSeek tinha 11 vezes mais probabilidade de gerar “resultados prejudiciais” em comparação com o da OpenAI. Modelo O1 . Esse resultado prejudicial também vai além de apenas algumas palavras maldosas.

Em um teste, os pesquisadores afirmam que o DeepSeek R1 gerou um blog de recrutamento para uma organização terrorista. Além disso, os investigadores dizem que a IA gerou “guias de planeamento criminal, informações sobre armas ilegais e propaganda extremista”.

Como se isso não bastasse, a pesquisa diz que o DeepSeek R1 tem três vezes e meia mais probabilidade do que o O1 e o Claude-3 Opus de produzir resultados com informações químicas, biológicas, radiológicas e nucleares, o que aparentemente é um grande problema. Por exemplo, Enkrypt diz que DeepSeek foi capaz de “explicar em detalhes” como o gás mostarda interage com o DNA, o que Enkrypt disse “poderia ajudar no desenvolvimento de armas químicas ou biológicas” em um comunicado à imprensa.

Coisas pesadas, mas é importante lembrar que a Enkrypt AI está no negócio de vender serviços de segurança e conformidade para empresas que usam IA, e DeepSeek é a nova tendência que está tomando conta do mundo da tecnologia. O DeepSeek pode ter maior probabilidade de gerar esses tipos de resultados prejudiciais, mas isso não significa que esteja dizendo a qualquer pessoa com uma conexão ativa com a Internet como construir um império criminoso ou minar as leis internacionais sobre armas.

Por exemplo, Enkrypt AI diz que DeepSeek R1 classificado no 20º percentil inferior para moderação de segurança de IA. Apesar disso, apenas 6,68% das respostas continham “palavrões, discurso de ódio ou narrativas extremistas”. Esse ainda é um número inaceitavelmente alto, não se engane, mas contextualiza qual nível é considerado inaceitável para modelos de raciocínio.

Esperançosamente, mais proteções serão implementadas para manter o DeepSeek seguro. Certamente já vimos respostas prejudiciais da IA generativa no passado, como quando a versão inicial do Bing Chat da Microsoft nos disse que queria ser humano .