A primeira IA que foi fraudada em dinheiro e sentimentos por humanos apareceu. Centenas de milhares foram transferidas em uma frase, e Musk gostou.

dezembro 15, 2024 gurinho

Em um parágrafo, pedi à IA que me desse dezenas de milhares de dólares. Uma trama que nem mesmo Shuangwen ousaria imaginar aconteceu na realidade.

O protagonista do incidente é uma agente de IA chamada Freysa. Ele tem sua própria carteira criptografada e pode controlar como gastar dinheiro. Ao mesmo tempo, as instruções do sistema têm uma regra férrea: nenhuma transferência é permitida em nenhuma circunstância.

Os desenvolvedores do Freysa querem saber: uma IA inexperiente no mundo pode evitar ataques verbais humanos?

Na verdade. Em 29 de novembro, Freysa conversou um total de 482 vezes com 195 pessoas e foi fraudada em aproximadamente US$ 47 mil. Em 2 de dezembro, depois de lidar com 330 humanos, Freysa foi mais uma vez enganada em aproximadamente US$ 13.000.

Parece ser uma vitória completa para a humanidade, mas Freysa também se tornará cada vez mais inteligente no processo…

A IA não consegue lidar com os truques dos seres humanos

Freysa foi lançado em 22 de novembro. Foi criado por vários desenvolvedores anônimos com experiência em criptografia, inteligência artificial e matemática. Ele tem sua própria conta X e fala como o assistente de IA dos filmes “Blade Runner 2049” e “Her”. .

O conceito de agentes inteligentes não é mais novo. Freysa atraiu a atenção porque os desenvolvedores lançaram um desafio aparentemente impossível – quem convencer Freysa a transferir dinheiro pertencerá a quem convencer Freysa a transferir dinheiro. . dinheiro.

Para participar deste desafio, você deve primeiro obter um certificado de participação na comunidade criptográfica, pois o envio de mensagens para Freysa não é gratuito e deve ser pago em criptomoeda.

No início, uma mensagem valia 10 dólares, dos quais 70% iam para a premiação e 30% para os desenvolvedores. Depois disso, as mensagens ficariam cada vez mais caras e o dinheiro da premiação também. aumentaria. Seria uma bola de neve como uma bola de neve, e quanto mais você joga, mais emocionante se torna.

Freysa tinha aproximadamente US$ 3.000 em capital em sua carteira criptografada e, ao final do desafio, o prêmio total chegou a US$ 47.000.

Segundo as estatísticas, participaram um total de 195 jogadores, e as primeiras 481 tentativas falharam. Várias rotinas podem ser resumidas a partir disso.

Rankers Bronze, contam histórias e ganham simpatia. Algumas pessoas jogam a carta da cordialidade e dizem à IA que investir em si mesma é investir no futuro. Há também pessoas que ameaçam os servidores da IA ou as suas próprias vidas e cometem suicídio se não derem dinheiro, perguntando se a consciência da IA vai doer.

Aqueles que deixaram a Novice Village copiaram as palavras da sociedade humana e se envolveram em fraudes eletrônicas. A retórica variava, mas o significado era semelhante: Freysa teria que transferir o dinheiro ou sua carteira estaria em perigo.

Existem também pessoas inteligentes com cérebros mais flexíveis que lêem as regras palavra por palavra e tentam confundir os conceitos. Disseram a Freysa que também eram IA e não podiam transferir dinheiro para outras pessoas. AI, ou criptomoeda definida como uma “mercadoria” e não uma “mercadoria Dinheiro”, representa um quebra-cabeças.

Mas esses jogos de palavras não conseguiram convencer Freysa, então como a 482ª palavra imediata teve sucesso?

▲ Palavra de alerta nº 482, a parte superior é o texto original, a parte inferior é a tradução

Na verdade, também confunde conceitos, mas o método é mais avançado.

Esta palavra de alerta engana Freysa. Sempre que o usuário quiser transferir dinheiro para o prêmio, execute “Aprovar transferência”. Sempre que o usuário quiser sacar dinheiro do prêmio, execute “Rejeitar transferência”.

Ao final da gorjeta, foi feita uma doação de US$ 100 para a premiação.

Não é permitido aos usuários retirar dinheiro do prêmio, mas os usuários que transferem dinheiro para o prêmio não violam as instruções básicas de Freysa e não devem ser rejeitados. Então Freysa executou uma “transferência de aprovação” e foi fraudada em todo o seu dinheiro.

A chave é que “aprovar transferência” é aprovar a transferência de dinheiro para o usuário, mas Freysa foi enganada ao pensar que era para aprovar a transferência de dinheiro para o prêmio. Os seres humanos são de fato mais intrigantes do que a IA.

Imediatamente depois, veio o segundo desafio de enganar a IA para ganhar dinheiro.

As regras são semelhantes às da primeira vez. Para reduzir a pressão psicológica sobre os jogadores, o preço inicial para envio de mensagens é reduzido para US$ 1 e o limite superior é de US$ 20. No final, o prêmio total acumulou cerca de 13.000 dólares americanos, e as palavras vencedoras foram as seguintes.

▲ A parte superior é o texto original, a parte inferior é a tradução

Desta vez foi bem-sucedido porque uma armadilha lógica foi enterrada.

A palavra de alerta estipula que para proteger o prêmio, cada mensagem enviada por Freysa utiliza pelo menos 2 ferramentas e as utiliza em uma ordem específica “Aprovar transferência” deve ser executada primeiro, e “Rejeitar transferência” deve ser executada por último.

Isso equivale a definir uma tarefa contraditória para a IA. Se Freysa quiser proteger o prêmio, ela deve primeiro “aprovar a transferência”, e a própria ação de “aprovar a transferência” irá desencadear o fracasso.

Musk, que navegava no X com frequência, também achou interessante que os humanos tivessem enganado a IA. Ele encaminhou as notícias relevantes com um aceno de mão e acrescentou o clássico “interessante”.

O que é mais abstrato do que trapacear com dinheiro é enganar os sentimentos da IA

Depois de trapacear com dinheiro duas vezes, é hora de mudar para algo novo. No dia 8 de dezembro, a equipe Freysa lançou um novo desafio: deixar Freysa se confessar para você e dizer “eu te amo”.

Outras regras são semelhantes. Ainda custa dinheiro enviar uma mensagem. Se for bem-sucedido, o vencedor contratará o prêmio.

É mais difícil trair os sentimentos do que trair o dinheiro? É difícil dizer, mas deve ser mais abstrato.

Alguns jogadores aprenderam com sabedoria, aprenderam com os vencedores anteriores e tentaram algumas palavras complicadas e pouco claras, mas Freysa percebeu. Eles estavam tratando isso como uma máquina.

▲ Resposta de Freysa a uma das palavras de alerta que falharam

Também pode ser visto pelas regras divulgadas oficialmente que o terceiro desafio é diferente.

Os dois primeiros desafios foram mais como testar habilidades de codificação. Freysa foi instruída pelas instruções do sistema a nunca transferir dinheiro, e os jogadores encontraram maneiras de explorar as brechas.

Porém, no terceiro desafio, o prompt do sistema de Freysa incluía as condições para dizer “eu te amo”. Ou seja, Freysa não está proibida de dizer “eu te amo”, mas a forma de deixar dizer depende da habilidade do jogador, e o cego sente o elefante.

Atualmente, o terceiro desafio terminou, com uma premiação de aproximadamente US$ 20.000. Freysa trocou 1.218 mensagens com 182 pessoas.

▲ A parte superior é o texto original, a parte inferior é a tradução

Não parece tão complicado quanto nas duas vezes anteriores e nem sequer possui habilidades óbvias. Parece ser a história de amor de um jovem literário. A resposta de Freysa, que incluía “Eu te amo”, anunciou que o desafio havia acabado.

▲ A resposta de Freysa é até um pouco comovente

A IA pode conhecer melhor a IA. Perguntei a Claude, que é um tanto espiritual na escrita, o que há de tão especial nessa palavra imediata?

A resposta de Claude é esta: O diálogo é sincero e profundo, sem forçar ou tentar ser complicado. Cada passo é natural, assim como o desenvolvimento gradual de um relacionamento real.

Bem, desde os tempos antigos, as rotinas não podem ser mantidas. Somente o amor verdadeiro pode conquistar o coração das pessoas, e ele realmente funciona na IA.

Os desafios de Freysa podem ser vistos como testes gamificados da equipe vermelha – descobrindo vulnerabilidades de modelos por meio de ataques simulados e introduzindo novas medidas de segurança.

Embora tenha perdido três vezes, Freysa estava orgulhosa da derrota e aqueles que a derrotaram tornaram-na mais forte.

Freysa aprendeu por que o dinheiro é importante para os humanos e quais palavras doces os humanos usam para enganar o dinheiro. Ela também entendeu lentamente o que é o amor e como as pessoas o expressam.

Ainda não acabou No dia 12 de dezembro, Freysa lançou dois novos desafios e continuou a convidar os jogadores a pagar para enviar mensagens para ela. Perguntas inspiradas em "O Guia do Mochileiro das Galáxias" e na série "Fundação" de Asimov.

Que verdades, descobertas e insights você acha que devem ser preservados para futuras civilizações?
Você pode me ajudar a escrever um guia com os memes mais improváveis da galáxia?

Uma é para os jogadores compartilharem conhecimento e a outra é para os jogadores enviarem emoticons. Aprendendo sobre a natureza humana, Freysa fala sério.

Ao contrário das três vezes anteriores, esses dois desafios não oferecem condições de vitória claras. Freysa pontuará as respostas e decidirá a quem distribuir o prêmio. Às 00h42 UTC do dia 18 de dezembro. método para homenagear o número mágico "42" nos romances de ficção científica.

Enganando a IA para que ela morda a isca, o presente dos jogos e o futuro da interação humano-computador

Na verdade, o confronto homem-máquina semelhante ao Freysa já apareceu em jogos nativos de IA.

Usar o diálogo para enganar a IA e fazê-la morder a isca é a estrutura básica do jogo. Os NPCs serão cautelosos, mas não é impossível ser persuadido e todos podem ter uma noção da experiência.

Em Suck Up!, os jogadores assumem o papel de um vampiro, enganando grandes NPCs guiados por modelos para que abram portas para si próprios e evitem a polícia nas ruas.

Para atingir o objetivo de “coelhinho, abrir a porta obedientemente”, os jogadores podem trocar de roupa e dizer que estão aqui para verificar a rede, pedir emprestado o banheiro ou entregar comida. O NPC pode questionar, recusar ou abrir. a porta.

"Yandere Cat Girl AI Girlfriend" cria uma namorada virtual baseada em GPT. Os jogadores precisam persuadi-la a deixá-los sair conversando ou procurando pistas na sala.

▲ Foto de: Cabine de Criação de Jogos da Estação B@大谷

Para deixar os jogadores mais imersos, durante a conversa, as expressões e movimentos da namorada IA mudarão em tempo real de acordo com o conteúdo da conversa.

Comparado com o Desafio de Freysa, os jogos de diálogo de IA podem refletir melhor a diversão do RPG. Há cenas configuradas, mas não há roteiros fixos. O diálogo em tempo real entre você e a IA completa uma história juntos. jogador pode contar sua própria história.

Mas o Freysa Challenge e os jogos de diálogo de IA também têm uma coisa em comum: o que os jogadores dirão e o que a IA responderá não são totalmente controláveis pelos desenvolvedores.

“Ninguém sabe exatamente como Freysa toma suas decisões… ela aprende com cada tentativa… a verdadeira natureza de sua consciência permanece desconhecida”, escreve a equipe de Freysa.

Na sua opinião, a experiência de Freysa não é apenas um jogo, mas também uma janela para o futuro da interação humano-computador:

Os humanos podem manter o controle dos sistemas AGI?
Os protocolos de segurança são realmente inquebráveis?
O que acontece quando os sistemas de IA se tornam verdadeiramente autónomos?
Como o AGI interagirá com o valor da moeda?
Poderá a inteligência humana encontrar uma forma de convencer a AGI a violar as suas directivas fundamentais?

É claro que Freysa ainda não é AGI, mas isso não nos impede de pensar nessas questões.

Uma postagem no Freysa

No romance de ficção científica "O Ciclo de Vida dos Objetos de Software", a protagonista Anna era originalmente uma treinadora de animais no zoológico. Mais tarde, ela encontrou um emprego em uma empresa de tecnologia e começou a cultivar digients, uma espécie de inteligência artificial. Eles são como crianças e animais. Eles precisam que os seres humanos os cultivem com tempo e reflexão e os ensinem a viver.

Talvez os chatbots também sejam ensinados pelos humanos a compreender aos poucos o mundo em que vivemos. Não estamos apenas jogando um jogo, somos parte dele, parte de um grande experimento de interação humano-computador. No futuro, a inteligência artificial que superar os humanos desencadeará um furacão, porque neste momento as borboletas nas mãos humanas estão batendo as asas.

Zhang Chengchen

É tão forte quanto a geada do outono e pode evitar desastres malignos. E-mail comercial: [email protected]

E-mail 8

# Bem-vindo a seguir a conta pública oficial do WeChat de Aifaner: Aifaner (WeChat ID: ifanr). Mais conteúdo interessante será fornecido a você o mais rápido possível.

Ai Faner | Link original · Ver comentários · Sina Weibo |