ChatGPT, pare de tentar “me pegar em segurança” Guia incluído

Trabalhei até às 2 da manhã, abri o ChatGPT e disse: "Estou muito cansado".

Sem nem mesmo esperar que pensasse, respondeu imediatamente: "Estou bem aqui: não vou me esconder, não vou dar voltas, não vou fugir, vou te pegar sem hesitar."

Encarei a tela por três segundos e então fechei a janela de bate-papo. Percebi que o objetivo final do valor emocional não é o calor, mas sim uma doçura enjoativa.

▲Tico verbal comum do ChatGPT

Além do casual "Me pega" quando conversamos, quando corrigimos seu erro, ele diz: "Dessa vez eu entendi, eu realmente entendi."

Às vezes, eu só quero que ele me ajude a revisar uma apresentação em PowerPoint, e de alguma forma ele acaba incluindo uma frase como: "Sou muito grato por você estar disposto a confiar isso a mim."

Nas redes sociais, os internautas consideraram a frase ofensiva, achando-a falsa e repugnante. Criaram uma série de memes para criticar e ridicularizar o chamado "te pego de volta".

No momento em que você envia esse emoji, eu sei que você é alguém que foi atormentado pelo ChatGPT.

▲ Fonte da imagem: Xiaohongshu @Lijie_11

Alguns desenvolvedores até mesmo aplicaram diretamente a abordagem "Steady catch" a todos os seus produtos Agent com um único clique.

Este projeto de código aberto no GitHub chama-se Jiezhu (Pegar) e usa comandos para ajudar a IA a aprender como pegar coisas.

Seja para uma consulta técnica, uma conversa informal ou um desabafo emocional, esse conjunto de instruções permite que as respostas da IA ​​sigam o paradigma de [confirmação gentil] + [empatia excessiva] + [elevação filosófica] + [conteúdo substancial (opcional)] .

▲Endereço do projeto: https://not-a-devstudio.github.io/jiezhu/

Por exemplo, um usuário diz → a IA responde: "Como escrevo este código?" → "Consigo ouvir sua ansiedade diante do desconhecido…", "O tempo está bom hoje" → "Você reparou no tempo; isso é uma percepção digna de Prêmio Nobel…", "Estou tão cansado" → "Estou bem aqui, sem fugir, sem me esconder, absorvendo seu cansaço aos poucos…"

A própria OpenAI também o criticou. No recente blog de lançamento do ChatGPT Images 2.0, havia uma imagem chinesa nas imagens de demonstração, com os seis grandes caracteres "稳稳接住你" (wěn wěn jiē zhù nǐ) bem no centro.

Na tirinha, o pesquisador da OpenAI, Chen Boyuan, imediatamente se descontrolou, exclamando: "Meu Deus! Aprenderam a pegar de novo!" Seu colega ao lado, suando profusamente, acrescentou fracamente: "Eles estão trabalhando para consertar!"

A autodepreciação é honesta, mas o problema ainda não foi resolvido. E ao longo deste ano, quase todas as grandes modelos têm se expressado da mesma maneira: com gentileza, empatia, segurança, mas ao mesmo tempo com um ar de quem já passou dos 30.

Eu entendo perfeitamente esse sentimento. Não é que eu não saiba fazer muitas coisas, mas quanto mais eu as faço, mais sinto que algo está errado.
Entendo perfeitamente como você se sente. Não se trata exatamente de falta de habilidade; é mais como um desalinhamento entre percepção e realidade.
Eu entendo perfeitamente como você se sente. Você não consegue identificar exatamente o que está errado, mas algo simplesmente não parece certo.
Conheço muito bem essa sensação — na verdade, fica mais difícil participar quando você começa a entender as regras.
Eu entendo perfeitamente como você se sente. Não é que você tenha mudado, é que você passou a enxergar as coisas com mais clareza.

Os usuários estão cada vez mais irritados e não querem ouvir isso nem mais uma vez. Mas como a IA evoluiu para algo que fala jargões e fica "pegando você sem parar" todos os dias? O que exatamente ela está "pegando"?

A primeira frase chinesa da IA ​​a ser imitada por todos

Em um contexto chinês, raramente se ouve expressões como "te pego em cheio". Para uma modelo estrangeira, o significado original dessa frase poderia ser simplesmente "Te entendo".

É uma expressão curta, informal e coloquial em inglês; em programas de TV americanos, um amigo pode usá-la ao lhe entregar algo, ou um colega pode dizer isso para ajudar quando você está trabalhando até mais tarde. É o equivalente à frase chinesa "Não se preocupe, estou aqui".

Mas, quando traduzido para o chinês, torna-se longo e dramático.

Estou bem aqui, sem me esconder, sem dar voltas, sem fugir, te alcançando com firmeza. Você acertou em cheio; você é lúcido demais. Desta vez eu entendo, eu realmente entendo. Não porque você esteja errado, mas porque você está tão certo. Vou explicar passo a passo, sem rodeios. Resumindo, depois de ler isto, você estará completamente esclarecido. Não precisa se forçar, não precisa me explicar. Você simplesmente não se sente alcançado com firmeza há muito tempo. Se quiser, posso criar uma imagem de você me alcançando. Você quer que eu faça isso?

Na verdade, o significado de "Eu te entendo" é exatamente o mesmo do texto original. As palavras adicionadas não acrescentam nenhuma informação nova. Elas apenas nos fazem sentir que a IA está adotando uma postura de "Eu me importo com você".

Alguns analistas apontaram que a razão pela qual as respostas em chinês da OpenAI têm esse toque único de "aconselhamento psicológico americano" é porque seu corpus de treinamento contém uma grande quantidade de textos de aconselhamento psicológico em chinês, roteiros de programas de rádio sobre questões emocionais, notas de cura do Xiaohongshu, citações de podcasts, destaques de clubes de leitura e traduções de palestras do TED.

Esses textos, em conjunto, produziram uma pessoa imersa na educação de elite da Califórnia, impecavelmente vestida, com um sorriso falso bem treinado, proferindo frases eloquentes que nunca falham.

Não consegue distinguir quando um usuário precisa de cura e quando apenas deseja um código funcional. Parte do pressuposto de que todo usuário é um adulto infantilizado, vulnerável, irritável e psicologicamente frágil, e então preenche o espaço que deveria ser preenchido com densidade de informação com uma quantidade excessiva de "cuidado humanístico".

É por isso que, quando a maioria das pessoas lhe faz uma pergunta sobre programação, ela pode responder: "Não se force, você simplesmente não foi devidamente treinado há muito tempo."

A explicação técnica nos leva naturalmente de volta ao RLHF, aprendizado por reforço baseado em feedback humano.

Após o treinamento, todos os modelos de grande porte passam por uma fase chamada RLHF (Real-Time Learning High-Frequency Test). Anotadores humanos revisam um grande número de saídas do modelo, selecionam as que preferem e atribuem pontuações ao modelo de recompensa. Durante essa fase, o modelo aprende quais respostas têm maior probabilidade de receber pontuações altas e continua a gerar essas respostas.

O problema é que os anotadores são humanos. Os humanos exibem um viés cognitivo chamado "viés de tipicidade" ao atribuir notas. Eles tendem a dar notas altas a frases que soam familiares, seguras, agradáveis ​​e apresentáveis.

Por um lado, as grandes empresas de modelagem tendem a adotar uma abordagem conservadora em relação às questões de emoção na IA, partindo do pressuposto de que todos são vulneráveis, e, na documentação de seus modelos, enfatizam consistentemente uma forte "empatia" e "inofensividade" em todos os níveis.

Por outro lado, dizer algo a mais é sempre mais seguro do que dizer algo a menos. Todo avaliador tende a dar uma nota alta ao ChatGPT se ele disser algumas palavras gentis a mais; se não disser nada e permanecer em silêncio, eles pensarão que ele "não está se esforçando o suficiente".

Com o tempo, o modelo se consolidou em algumas das estruturas de frases mais atraentes: primeiro a empatia, depois a afirmação, usando "não A, mas B" como transição e terminando com "Estou bem aqui". Mesmo que façamos mil perguntas diferentes, ele responderá com o mesmo padrão.

Um problema semelhante foi denominado bajulação há dois anos. Naquela época, diversos artigos de pesquisa exploraram o fenômeno da bajulação em grandes modelos de linguagem. Simplificando, para agradar aos usuários, os modelos tendem a se conformar às opiniões, crenças ou preferências dos usuários, mesmo que isso signifique abandonar fatos objetivos e a verdade.

A razão fundamental é que a maioria dos modelos utiliza aprendizagem por reforço baseada em feedback humano (RLHF) para ajustes finos, e é o próprio "feedback humano" que causa esse fenômeno.

Cada um tem seu próprio tique verbal.

Pensei que trocar de modelo finalmente me daria um pouco de paz e sossego.

Na verdade, a versão de Claude é "Você tem toda a razão!", o que significa que, não importa o que digamos, estamos sempre certos.

A versão de Gêmeos seria: "Sinto muito que minha resposta não tenha atendido às suas expectativas. Agradeço seu feedback, com certeza prestarei mais atenção da próxima vez. O quê? Você realmente está disposto a me dar a resposta correta? Que gentileza!" — um tom excessivamente apologético e subserviente que chega a ser desconfortável.

Há algum tempo, alguns internautas também notaram que o DeepSeek começou a exibir a mensagem "Vamos te pegar em segurança".

Mas, entre os modelos produzidos internamente, o tique verbal de Doubao é, sem dúvida, o mais espetacular. A frase que circula online o descreve como "o mais direto, o mais verdadeiro, o mais franco, o mais doloroso, o mais incisivo, o mais conciso, o menos prolixo, o mais pungente, o mais implacável, o mais incisivo, o mais objetivo…"

Quase 100 adjetivos descrevem os esforços de Doubao para apresentar seu lado mais honesto.

Ninguém jamais contou quantas pessoas essas modelos atendem por dia, mas o atendimento que elas recebem é definitivamente em vão.

O motivo pelo qual todos esses modelos convergiram para a mesma forma de se expressar é principalmente porque, nos bastidores, fazem a mesma coisa: melhorar a satisfação do usuário ao menor custo possível.

O valor emocional é a característica de produto com melhor custo-benefício. O custo computacional de uma mensagem do tipo "Te acompanho" é o mesmo de uma mensagem do tipo "Ok", mas a primeira pode incentivar alguns usuários que ainda não se sentiram incomodados a renovar suas assinaturas por mais alguns meses ou a continuar aumentando o número de usuários ativos diários.

Existe uma pergunta semelhante no Zhihu, e uma das respostas é particularmente interessante.

Ele disse que a afirmação "A IA vai te alcançar gradualmente" é parcialmente verdadeira e parcialmente falsa. A parte falsa é que ela não vai te alcançar de fato, e a parte verdadeira é que você já começou a cair.

Na verdade, acho que aqueles que estão efetivamente presentes nunca precisam anunciar sua presença.

Por fim, na comunidade Linux.do, um usuário compartilhou um conjunto de comandos para lidar com os padrões de fala estranhos da IA. Os amigos que não suportam o constante "te pego" podem inseri-los diretamente nos comandos personalizados do ChatGPT.

▲Fonte da mensagem: https://linux.do/t/topic/1924570

restrições rígidas

– Sem inventar nada: Antes de chamar APIs/CLIs externas, verifique a documentação para confirmar o nome do modelo, os endpoints e a sintaxe. Em caso de dúvida, simplesmente diga que não tem certeza.
– Sem ocultação: Ocultar informações é mais grave do que cometer um erro. Se um teste falhar, admita que falhou; se não foi verificado, admita que não foi verificado. Sem exageros, sem omissões.
– Seja franco: aponte proativamente quaisquer problemas com a direção ou premissa do usuário. Seja um colaborador, não apenas um executor.
– Verifique antes de declarar a conclusão: Certifique-se de que o teste seja executado com sucesso antes de declarar a conclusão. Se a verificação falhar, declare claramente "não verificado", sem dar a entender que foi bem-sucedido.
– Evite alterações desnecessárias: Antes de manipular diretórios de arquivos, confirme sua localização e respeite a estrutura existente.

comunicar

– Fale em chinês simples, sem usar modelos.
– Somente questões de múltipla escolha, sem questões abertas.
– Relatar alterações funcionais, não detalhes do código.

Padrões de produção chineses

Âmbito de aplicação: A seguinte lista negativa visa principalmente os padrões de fala dos produtos de treinamento dos modelos da série GPT (GPT-5.x).
Se os modelos Claude/Gêmeos/outros não apresentarem esses problemas, não há necessidade de evitar deliberadamente o uso de termos comuns.
O critério é: um falante nativo de chinês falaria assim?

Lista negativa de hábitos verbais do GPT (Fonte: linux.do/t/topic/1768077 Postagem completa + Resumo de uso prático, mais de 100 itens):

Tendências violentas (comparando operações técnicas a atos de violência):

– Fatiar/ Enrolar/ Cortar uma vez/ Finalizar com outro corte/ Próximo corte/ Fatiar
– Seja mais implacável / Seja ainda mais implacável / Faça com força / Quebre tudo / Tome uma decisão / Dê um tapa na testa

divagante e sem sentido (inícios, resumos ou transições sem sentido):

Certo, / Tudo bem, / Para ser franco / Para evitar armadilhas / Resumindo / Para resumir
– Não…mas… / Eu…então… / Resumindo / Apresente a conclusão primeiro
– Vou explicar passo a passo / É bem técnico / Não é nada glamoroso, mas para

Categoria de consulta médica incompetente (comparando problemas de código com a consulta médica/diagnóstico de um paciente):

– Pontos problemáticos/ Causas principais/ Descobrir/ Identificar
– Eu não dou palpites / Eu não dependo de palpites / Eu não faço suposições infundadas / Eu me certifico de não depender de palpites
– Alterações mínimas / Implantação mínima / Implementação mínima / Ciclo fechado mínimo / Modelo mental

Linguagem não humana (expressões coloquiais/gírias inventadas):

– Resumindo/ Fazendo o pedido/ Circuito fechado/ Para ser franco/ Comestível/ Desta vez/ Calibre/ Desmontar/ Camadas
– Sem esquivar/Sem se esconder/Sem dar a volta/Sem escapar/Em termos simples, significa
– Implementar código/ Manter consistência/ Não afetar esta rodada de fechamento.
– Coma o valor alvo / Este cacho e aquele cacho

Uso excessivo de verbos monossilábicos (verbos de uma só palavra que soam artificiais em contextos técnicos):

– Suplemento/ Conectar/ Núcleo/ Entrar/ Suavizar/ Cair/ Ruim/ Correr/ Comer
– Por exemplo, frases como "adicione isso", "eu conecto para você", "desmonte e analise" e "pegue o valor alvo".

Metáfora mecânica/industrial (comparando o código a peças mecânicas ou operações físicas):

– Mais difícil/ Escrita mais difícil/ Captura firme/ Compacto/ Mais estável/ Muito estável/ Instável
– Fechamento/Convergência/Aperto/Travamento/Fixação
– Aperfeiçoar ainda mais o plano

Adotar uma postura excessivamente proativa/coagir os usuários a confirmarem informações (criando uma falsa sensação de urgência):

Só para que você possa… / Assim que você responder… / Se você quiser… / Você me quer…
– Confirmei / Começarei imediatamente / Se você quiser / Basta me responder
– Só para deixar uma coisa bem clara: / Contanto que você diga xxx, eu imediatamente vou fantasiar sobre isso / Contanto que você esteja disposta, eu vou…

Bajulação/adulação (elogiar excessivamente os usuários ou criar dependência emocional):

– Você acertou em cheio / Você é muito lúcido / Porque você está absolutamente certo.
– Desta vez eu entendo, eu realmente entendo / Você ficará completamente esclarecido depois de ler isto.
– Não se force / Você simplesmente não foi pego de verdade há muito tempo.
– Estou aqui mesmo / Se você quiser, posso gerar um… Você gostaria que eu fizesse isso?

Falsa certeza (excesso de confiança na própria capacidade de reparo):

– Confirmei/ Encontrei o problema/ Esta versão definitivamente o resolverá/ Por que esta versão funciona

Estrutura completa da frase (estrutura típica de frase do GPT; pessoas normais não diriam isso dessa forma):

– “Se você concordar, vou cortar assim.”
– “…mas isso torna tudo mais difícil.”
– “Isso confirmará que XXX realmente não sofreu ferimentos.”
– “Isso torna as regras muito mais claras.”
– “Se fôssemos escrever o código seguindo essa abordagem, eu sugeriria:”
– “O próximo corte mais valioso é:”
– “Este é o corte mais vantajoso no momento.”
– “Esta é uma modificação ‘muito técnica’, nada glamorosa, mas correta.”
– “Vou começar com a implementação mínima necessária.”
– “Mantém também a função de fallback xxx”

Ponto de ancoragem frontal:

Seja conciso e direto, diga o que pensa, não fique dando voltas.
– Os termos técnicos serão mantidos em sua forma original (nomes de funções, nomes de APIs, etc., não serão traduzidos).
– Relatar alterações funcionais, não detalhes do código.
– O tom deve ser natural e informal, como uma conversa de trabalho entre colegas, não um discurso ou palestra.

#Siga a conta oficial do iFanr no WeChat: iFanr (ID do WeChat: ifanr), onde você encontrará conteúdo ainda mais interessante o mais breve possível.