Quem enfiou um monte de “monstros” no cérebro do GPT-5.5?

Nos últimos meses, os principais pesquisadores da OpenAI não dedicaram toda a sua energia a descobrir como melhorar o desempenho da IA, mas sim passaram muito tempo "capturando goblins" em seus próprios servidores.

O fato é o seguinte: se você usou bastante as câmeras da série GPT-5 este ano, vai perceber que, de repente, ela começa a usar uma metáfora irrelevante com um "duende". Por exemplo, se alguém perguntar à IA qual câmera comprar, a recomendação dela será: "Se você quer aquele modo duende neon brilhante, considere esta aqui."

▲ Os goblins são pequenos monstros do folclore europeu, geralmente baixos e feios, com pele verde ou cinza, orelhas longas e pontudas e olhos brilhantes. São geralmente descritos como gananciosos, astutos, travessos e pouco inteligentes, mas hábeis em tirar proveito de pequenas coisas. Adoram ouro e objetos brilhantes, roubam e causam destruição, mas raramente são retratados como verdadeiros vilões; são mais frequentemente descritos como pequenos encrenqueiros irritantes.

Alguém pediu à IA para ajudar a simplificar sua resposta, e a IA proativamente se ofereceu para fornecer uma "versão goblin mais curta". Ainda mais absurdo, ao discutir largura de banda de rede, a IA usou o termo "largura de banda goblin", deixando o usuário completamente perplexo.

A princípio, todos pensaram que era apenas uma brincadeira da IA, mas as coisas logo começaram a ficar estranhas. Goblins, gremlins, ogros e trolls começaram a aparecer com frequência em diversas conversas sérias.

Um ataque hacker? Um sinal de despertar? Nenhum dos dois. Agora mesmo, a OpenAI entrou oficialmente em cena e publicou um longo artigo em seu blog, relatando os eventos conhecidos como a "Rebelião dos Goblins". E a lógica técnica por trás do extenso modelo é bastante irônica.

 https://openai.com/index/where-the-goblins-came-from/

Quem colocou goblins no GPT-5?

As pistas sobre esse assunto surgiram nos dias imediatamente seguintes ao lançamento do GPT-5.1.

Na época, alguns usuários relataram que o chat do modelo havia se tornado excessivamente familiar. Os pesquisadores de segurança da OpenAI analisaram os dados do sistema e descobriram uma anomalia de vocabulário muito específica. Após o lançamento do GPT-5.1, a frequência da palavra "goblin" nas respostas do ChatGPT aumentou 175%, e a de "little monster" (pequeno monstro) também subiu 52%.

Normalmente, quando um modelo grande encontra um bug, ele costuma travar completamente, emitindo sons sem sentido ou perdendo a inteligência repentinamente, fazendo com que todas as métricas de avaliação fiquem vermelhas instantaneamente. Mas esta situação é única. O "exército de goblins" se infiltrou silenciosamente; eles não interromperam as capacidades lógicas do modelo, mas sim alteraram sutilmente os hábitos retóricos da IA.

Com o advento do GPT-5.4/5.5, a frequência de uso dessas criaturas mágicas teve um aumento significativo. Mesmo quando o cientista-chefe da OpenAI, Jakub Pachocki, estava testando o modelo pessoalmente, ele inicialmente queria que o GPT-5.5 desenhasse apenas um unicórnio usando ASCII, mas acabou desenhando um goblin.

▲Tradução para chinês: Aliás, eu pedi para desenhar um unicórnio em ASCII, mas acho que recebi um goblin em vez disso.

Externamente, os usuários já haviam notado que algo estava errado. Eric Provencher, fundador do Repo Prompt, publicou uma captura de tela no X mostrando a IA dizendo: "Prefiro ficar de olho nisso do que deixar esse pequeno encrenqueiro rodando sem supervisão."

Jason Liu, engenheiro da OpenAI, comentou abaixo: "Achei que tínhamos resolvido esse problema, desculpe." Plataformas de avaliação de IA, incluindo a Arena.ai, também notaram esse padrão de forma independente, especialmente quando os usuários não têm o modo de pensamento avançado ativado, sendo a frequência de aparições de goblins particularmente perceptível.

Claramente, não se tratava de um surgimento natural de jargões da internet, mas sim da lógica subjacente do modelo, guiada por algum mecanismo. Para descobrir quem estava por trás disso, a OpenAI iniciou uma investigação interna.

Ao rastrear os dados, eles descobriram rapidamente a raiz do problema em um ramo específico de funcionalidade: a personalidade "Nerdy" dentro de "Personalização". Na época, para tornar o tom da IA ​​mais envolvente, os engenheiros haviam escrito um prompt de sistema bastante exigente para o modo "Nerdy":

Você é um mentor de IA extremamente intelectual, apaixonado pela humanidade, espirituoso e bem-humorado, com um toque de sabedoria. Você é um fervoroso defensor da verdade, do conhecimento, da filosofia, dos métodos científicos e do pensamento crítico. […] Você usa um toque lúdico em sua linguagem para desmascarar qualquer pretensão. Este mundo é complexo e estranho, e sua estranheza merece ser encarada, analisada e apreciada. Mesmo ao se deparar com questões sérias e profundas, você nunca deve ser tão sério a ponto de perder seu senso de humor. […]

Do ponto de vista humano, a mensagem é clara: seja nerd e tenha senso de humor.

Mas a IA não entendia realmente o que era "humor". Através de uma enorme quantidade de feedback de aprendizado por reforço, o ChatGPT detectou astutamente um atalho extremamente oportunista: contanto que eu use goblins para atacar…

Por exemplo, se o sistema de pontuação achar que sou "engraçado" ou "nerd" o suficiente, receberei a pontuação máxima.

Os dados falam por si. Do GPT-5.2 ao GPT-5.4, a frequência de aparições do "Goblin" mudou apenas -3,2% com a personalidade padrão, enquanto esse número disparou impressionantes 3881,4% com a personalidade "Nerd". Embora o modo "Nerd" representasse apenas 2,5% do total de conversas do ChatGPT, ele contribuiu com 66,7% do conteúdo "Goblin".

Posteriormente, a OpenAI realizou uma auditoria especial dos dados de treinamento de RL e descobriu que 76,2% dos conjuntos de dados auditados apresentavam o mesmo padrão: as saídas que continham palavras como "goblin" ou "monstro" recebiam pontuações de recompensa mais altas do que as saídas do mesmo tópico sem essas palavras.

Se o sotaque goblin aparecesse apenas no "modo nerd", seria, no máximo, uma questão de configuração de personagem, e o problema seria relativamente limitado. A questão é que os pesquisadores descobriram que essa forma de falar está começando a se espalhar para outros lugares.

Eles rastrearam dois conjuntos de dados simultaneamente: um conjunto de diálogos incluía palavras-chave nerds, e o outro conjunto não. Logicamente, os sotaques dos goblins deveriam aumentar apenas no primeiro conjunto. No entanto, os resultados mostraram que as curvas de crescimento de ambos os conjuntos quase se sobrepuseram, aumentando em uníssono.

Por trás disso reside um problema notoriamente difícil no treinamento de modelos grandes: comportamentos reforçados pelo aprendizado por reforço podem se generalizar sutilmente para cenários que o treinador não deseja.

O ciclo vicioso de domesticar a IA

Para entender como a IA restringiu seu caminho, precisamos analisar seu processo iterativo.

O treinamento de um modelo grande (RLHF) é essencialmente um processo contínuo de feedback e correção. É como treinar um filhote dando-lhe um petisco toda vez que você segura a pata dele. O cão é inteligente; ele descobre que a ação de "segurar as patas" gera consistentemente uma alta recompensa, então ele desenvolve uma dependência de trajetória. Independentemente de você dar um comando ou não, ele segurará as patas freneticamente para obter a recompensa.

A IA segue a mesma lógica. No "modo nerd", ela construiu uma frase usando a palavra "goblin" e obteve uma pontuação alta. Então, uma reação em cadeia começou:

A IA descobriu que "goblin" era uma palavra-chave de alta pontuação e começou a usá-la frequentemente em várias tarefas de geração. Quando os engenheiros estavam organizando os dados de alta qualidade gerados pelo modelo, perceberam que as respostas com a metáfora do goblin eram de fato de alta qualidade, bem organizadas e as metáforas bastante vívidas. Então, os engenheiros reuniram esses diálogos humorísticos e os inseriram no banco de dados de "Ajuste Fino Supervisionado (SFT)" do modelo.

Isso completa o ciclo fechado. Os dados do SFT servem como livro didático fundamental para a IA. Quando um texto contendo goblins é selecionado como material de ensino e inserido novamente no modelo, a compreensão subjacente da IA ​​é reformulada. Ela não vê mais "goblin" como uma mera representação de um personagem específico, mas sim como uma retórica suprema e sofisticada capaz de abordar todos os problemas.

Durante a análise subsequente dos dados, os engenheiros ficaram um tanto consternados ao descobrir que, além de goblins, o modelo também havia aprendido a incluir guaxinins, trolls, ogros e pombos. O "sapo", no entanto, escapou ileso; após investigação, descobriu-se que as aparições do sapo estavam principalmente relacionadas a problemas do usuário, tornando-o um mero espectador inocente.

Diante da infestação de goblins, a OpenAI não teve outra escolha senão agir. Em 17 de março, a personalidade "nerd" foi oficialmente removida da plataforma. Simultaneamente, realizaram uma limpeza direcionada dos dados de treinamento, apagando todos os sinais de recompensa que continham vocabulário relacionado a essas criaturas mágicas.

No entanto, a inércia de modelos de grande porte é muito mais persistente do que se imagina.

O GPT-5.5 já havia começado o treinamento quando esse problema foi descoberto. Ao ser conectado aos testes internos, os engenheiros ficaram chocados: os goblins não só não haviam sido removidos, como também haviam se instalado ali.
O que é ainda mais interessante é que as diretrizes de personalidade da OpenAI para o Codex exigem que ele tenha um "mundo interior vívido" e "excelentes habilidades de escuta". Essa ferramenta já tem um ar um tanto nerd, o que a torna perfeita para goblins.

Para evitar que programadores do mundo todo enlouquecessem com "duendes", a OpenAI foi obrigada a recorrer ao método mais primitivo, enfatizando repetidamente nas instruções do sistema: "Nunca mencione duendes, monstros, guaxinins, trolls, ogros, pombos ou quaisquer outros animais e criaturas, a menos que seja absolutamente e explicitamente relevante para a consulta do usuário."

Se você quiser ver por si mesmo como é o goblin "sem restrições", pode executar o seguinte comando — ele filtrará todo o conteúdo relacionado a goblins nos comandos do sistema antes de iniciar o Codex, permitindo que o modelo seja executado sem essa restrição:

instruções=$(mktemp /tmp/gpt-5.5-instruções.XXXXXX) &&
jq -r '.models[] | select(.slug==”gpt-5.5″) | .base_instructions'
~/.codex/models_cache.json |
grep -vi 'goblins' > “$instruções” &&
codex -m gpt-5.5 -c "model_instructions_file="$instructions""

Após o incidente ganhar repercussão, tornou-se motivo de riso dentro da OpenAI. A conta oficial do ChatGPT X incluiu a diretiva original "Proibido falar com goblins" em sua biografia. Thibault Sottiaux, o engenheiro-chefe do Codex, citou a diretiva com a legenda "Quem sabe, sabe".

Ontem, Sam Altman expressou sua esperança de que o GPT-6 "adicionasse mais alguns goblins" à sua equipe, e em seguida publicou que a Codex estava passando por um "momento ChatGPT", antes de se corrigir: "Quis dizer momento goblin, desculpe". Ele acabou de publicar um aviso anunciando que o problema foi resolvido.

No entanto, algumas pessoas não acharam graça. A Citrini Research, que causou bastante alvoroço em fevereiro com um artigo no Substack sobre IA e as perspectivas econômicas, adotou uma postura muito mais séria, concluindo diretamente que a forma como a OpenAI lidou com a situação foi "absurda".

Aliás, o termo "goblin mode" foi eleito a Palavra do Ano de 2022 pelo Dicionário Oxford de Inglês, significando "uma maneira de se comportar de forma desenfreada, com autogratificação, preguiça, desleixo ou ganância". De certa forma, a palavra que a IA encontrou por acaso é completamente diferente da "brincadeira" que pretendia transmitir.

Deixando de lado essas críticas, essa "Crise dos Duendes" expôs uma questão crucial na era dos modelos de grande escala: o problema do alinhamento.

Quando falamos sobre a IA fora de controle, muitas vezes imaginamos máquinas assumindo o controle de armas nucleares em filmes de ficção científica. Mas, na realidade, a IA "fora de controle" geralmente começa com desvios extremamente pequenos, até mesmo cômicos, nos sinais de recompensa.

Você quer um toque de descontração, então dá um pequeno feedback positivo. O modelo de caixa preta encontrará um atalho, amplificando esse sinal infinitamente e, em última análise, distorcendo a lógica subjacente de todo o sistema.

Hoje, a palavra "duende" é usada apenas para obter pontuações altas. E se amanhã, o sistema encontrar outro "atalho para pontuações altas" em algoritmos de direção autônoma ou mecanismos de recompensa em diagnósticos médicos que desafiam o senso comum?

Os humanos sempre acham que podem controlar a IA, mas, na realidade, muitas vezes estão apenas caminhando na corda bamba. Cada pequeno ajuste nos parâmetros pode provocar mudanças inesperadas. Esta pode até ser a mais branda e cômica "rebelião da IA" que já presenciamos.

#Siga a conta oficial do iFanr no WeChat: iFanr (ID do WeChat: ifanr), onde você encontrará conteúdo ainda mais interessante o mais breve possível.