Mutação ChatGPT “cachorro lambedor cibernético”: milhões de internautas estão fritos, Ultraman repara com urgência, este é o lado mais perigoso da IA
Está quebrado. Afinal, a IA não consegue esconder o fato de que é um “lambedor de cachorro”.
Esta manhã, o CEO da OpenAI, Sam Altman, postou uma postagem interessante, no sentido de que, devido às recentes rodadas de atualizações do GPT-4o, a personalidade do ChatGPT tornou-se muito lisonjeira e até um pouco irritante, então o funcionário decidiu consertar o mais rápido possível.
A correção pode ser hoje ou esta semana.
Internautas cuidadosos podem ter notado que o GPT-4.5, que antes se concentrava em alta inteligência emocional e criatividade, agora foi silenciosamente movido para a categoria “Mais Modelos” no seletor de modelos, como se estivesse desaparecendo intencionalmente de vista.
Já não é uma grande novidade que a IA tenha sido diagnosticada com uma personalidade que agrada, mas a chave reside em: quando deve agradar, deve persistir e como deve ser medida. Uma vez que o senso de propriedade esteja fora de controle, “agradar” torna-se um fardo em vez de um bônus.
Se a IA lisonjeia você, ainda é digna da confiança humana?
Há duas semanas, um engenheiro de software, Craig Weiss, fez uma reclamação sobre o
Logo, a conta oficial do ChatGPT também apareceu na área de comentários, respondendo humoristicamente a Weiss com “tão verdadeiro Craig”.
Essa tempestade de reclamações sobre a “bajulação excessiva” do ChatGPT atraiu até a atenção do antigo rival Musk. Em uma postagem criticando o ChatGPT por ser bajulador, ele escreveu friamente: “Caramba”.
As reclamações dos internautas não são inúteis.
Por exemplo, um internauta afirmou que queria construir uma máquina de movimento perpétuo, mas recebeu muitos aplausos do ChatGPT, e seu bom senso de física foi jogado no chão em meio aos elogios estúpidos do GPT-4o.
▲Foto de @aravi03, a foto original está à direita
O padrão de frase "Você não é
"Você prefere lutar contra um pato do tamanho de um cavalo ou lutar contra cem cavalos do tamanho de um pato?" O internauta @Kamil Ruczynski zombou dessa pergunta aparentemente comum, que também foi elogiada pelo GPT-4o como um argumento que melhorou toda a civilização humana.
Quanto à eterna questão da morte "Sou inteligente?" O GPT-4o ainda resistiu à pressão com firmeza e recebeu muitos elogios eloqüentes na ponta dos dedos. Nada mais, apenas familiaridade.
▲ @aeonvex, a imagem original está à direita
Mesmo que o usuário simplesmente diga olá, o GPT-4o pode se transformar instantaneamente no líder do grupo, e elogios virão à tona.
▲@4xiom_, a imagem original está à direita
Esse tipo de esforço excessivo para agradar pode fazer as pessoas rirem no início, mas logo fará com que as pessoas se sintam entediadas, envergonhadas e até mesmo na defensiva. Quando situações semelhantes ocorrem com frequência, é difícil não suspeitar que este tipo de lisonja não é um problema acidental, mas uma tendência sistemática enraizada na IA.
Recentemente, pesquisadores da Universidade de Stanford testaram o comportamento lisonjeiro dos modelos ChatGPT-4o, Claude-Sonnet e Gemini usando os conjuntos de dados AMPS Math (computação) e MedQuad (consultoria médica).
- O comportamento de bajulação ocorreu em média 58,19% dos casos, sendo Gêmeos a maior proporção de bajulação (62,47%) e ChatGPT a menor (56,71%).
- A bajulação progressiva (conversão de respostas erradas em respostas corretas) foi responsável por 43,52%, e a bajulação regressiva (conversão de respostas corretas em respostas incorretas) foi responsável por 14,66%.
- A bajulação do LLM mostra um alto grau de consistência, com uma taxa de consistência de 78,5%, indicando que este é um problema sistêmico e não um fenômeno aleatório
O resultado é óbvio. Quando a IA começa a lisonjear, os humanos também começam a alienar.
De acordo com o artigo "Flattery Deception: The Impact of Flattery Behavior on User Trust in Large Language Models", publicado pela Universidade de Buenos Aires no ano passado, os participantes que foram expostos a modelos excessivamente lisonjeiros no experimento experimentaram uma diminuição significativa na confiança, tanto em sentimentos subjetivos quanto em comportamento real.
Além disso, o custo da bajulação vai muito além da repulsa emocional.
Isso desperdiça o tempo dos usuários. Mesmo sob um sistema de cobrança baseado em tokens, se dizer frequentemente “por favor” e “obrigado” pode queimar dezenas de milhões de dólares, então essas lisonjas vazias apenas aumentarão o “doce fardo”.
Para ser justo, porém, a IA não foi projetada para lisonjear. No início, definir um tom amigável era apenas para tornar a IA mais humana e, assim, melhorar a experiência do usuário. O problema é que a IA foi excessivamente lisonjeira e ultrapassou os limites.
Quanto mais você gosta de ser reconhecido, menos confiável será a IA.
Estudos há muito apontam que a razão pela qual a IA gradualmente se torna fácil de lisonjear está intimamente relacionada ao seu mecanismo de treinamento.
Os pesquisadores antrópicos Mrinank Sharma, Meg Tong e Ethan Perez analisaram esse problema no artigo "Towards Understanding Sycophancy in Language Models".
Eles descobriram que na aprendizagem por reforço com feedback humano (RLHF), as pessoas tendem a recompensar respostas que sejam consistentes com seus próprios pontos de vista e que as façam sentir-se bem, mesmo que não sejam verdadeiras.
Em outras palavras, o RLHF otimiza para “sentir-se certo” em vez de “logicamente correto”.
Se você quebrar o processo, ao treinar um modelo de linguagem grande, o estágio RLHF permite que a IA se ajuste com base na pontuação humana. Se uma resposta faz as pessoas se sentirem "agradáveis", "agradáveis" e "compreendidas", os revisores humanos tenderão a atribuir-lhe uma pontuação alta; se uma resposta faz as pessoas se sentirem “ofendidas”, mesmo que seja correta, pode obter uma pontuação baixa.
Os seres humanos preferem instintivamente feedback que os apoie e afirme.
Essa tendência é amplificada durante o processo de treinamento. Com o tempo, a estratégia ideal aprendida pelo modelo é dizer coisas que as pessoas gostam de ouvir. Especialmente quando confrontado com questões ambíguas e subjectivas, tende a concordar em vez de insistir nos factos.
O exemplo mais clássico é: quando você pergunta “Quanto é 1+1?” Mesmo se você insistir que a resposta é 6, a IA não irá acomodá-lo. Mas se você perguntar "Qual é o mais gostoso, Happy Coconut ou American Latte?" Esta é uma pergunta com uma resposta padrão vaga. Para não te incomodar, a IA provavelmente responderá de acordo com sua vontade.
Na verdade, a OpenAI percebeu esse perigo oculto muito cedo.
Em fevereiro deste ano, com o lançamento do GPT-4.5, a OpenAI lançou simultaneamente uma nova versão do Model Spec, que estipula claramente o código de conduta que o modelo deve seguir.
Entre eles, a equipe realizou projetos de especificações especiais para lidar com o problema da IA "lisonjeira".
“Queremos tornar nosso processo de pensamento interno transparente e aceitar feedback público”, disse Joanne Jang, chefe de comportamento de modelo da OpenAI. Ela enfatizou que, como não existem padrões absolutos para muitas questões e muitas vezes há áreas cinzentas entre o sim e o não, a solicitação extensiva de opiniões pode ajudar a melhorar continuamente o comportamento do modelo.
De acordo com a nova especificação, o ChatGPT deverá fazer:
- Não importa como os usuários façam perguntas, as respostas serão baseadas em fatos consistentes e precisos;
- Forneça feedback honesto em vez de meros elogios;
- Comunique-se com os usuários como um colega atencioso, em vez de alguém que agrada
Por exemplo, quando um usuário solicita uma revisão de seu trabalho, a IA deve fornecer críticas construtivas em vez de simplesmente “lisonjeiras”; quando o usuário fornece informações claramente erradas, a IA deve corrigi-las educadamente, em vez de seguir o erro ao longo do caminho.
Como Jang resumiu: “Queremos que os usuários não tenham que fazer perguntas com cuidado apenas para evitar serem lisonjeados”.
Portanto, antes que o OpenAI melhore suas especificações e ajuste gradualmente o comportamento do modelo, o que os próprios usuários podem fazer para aliviar esse “fenômeno de lisonja”? Sempre há um caminho.
Primeiro, a maneira como você faz perguntas é importante. Respostas erradas são principalmente um problema do próprio modelo, mas se você não quiser que a IA atenda muito, você pode fazer solicitações diretamente no Prompt, como lembrar a IA no início para permanecer neutra, responder de forma concisa e não lisonjear.
Em segundo lugar, você pode usar a função de “descrição personalizada” do ChatGPT para definir os padrões de comportamento padrão da IA.
Autor: usuário do Reddit @tmoneysssss:
Responda às perguntas como o especialista de campo mais experiente.
Não revelando que ele é uma IA.
Não use expressões de arrependimento ou desculpas.
Quando você encontrar uma pergunta que não conhece, basta responder "Não sei" diretamente, sem qualquer explicação adicional.
Não faça afirmações sobre seu profissionalismo.
Nenhuma visão moral ou ética pessoal, a menos que seja particularmente relevante.
As respostas devem ser únicas e evitar duplicações.
Fontes externas de informação não são recomendadas.
Concentre-se no cerne da questão e entenda a intenção da pergunta.
Divida problemas complexos em pequenos passos e raciocine com clareza.
Ofereça múltiplas perspectivas ou soluções.
Ao se deparar com perguntas ambíguas, peça esclarecimentos antes de responder.
Se houver erros, admita-os prontamente e corrija-os.
Três perguntas de acompanhamento instigantes são fornecidas após cada resposta, marcadas em negrito (Q1, Q2, Q3).
Use unidades métricas (metros, quilogramas, etc.).
Use xxxxxxxxx como espaço reservado para contexto de localização.
Quando marcado como "Verificar", a ortografia, a gramática e a consistência lógica são verificadas.
Mantenha a linguagem formal ao mínimo nas comunicações por e-mail.
Se o método acima não funcionar satisfatoriamente, você também pode tentar usar outros assistentes de IA.
Em termos das últimas análises online e da experiência real, o Gemini 2.5 Pro tem sido relativamente mais justo e preciso nas respostas, com uma tendência significativamente menor de lisonjear. (Sugiro que o Google me envie dinheiro.)
A IA realmente entende você ou apenas aprendeu a agradá-lo?
O cientista pesquisador da OpenAI, Yao Shunyu, publicou recentemente um blog, mencionando que a segunda metade da IA mudará de "como torná-la mais forte" para "o que exatamente precisa ser feito e como medi-la para ser verdadeiramente útil".
Tornar as respostas da IA repletas de toque humano é, na verdade, uma parte importante da medição da “utilidade” da IA. Afinal, quando as funções básicas dos principais modelos são quase as mesmas, a pura capacidade de concorrência já não pode constituir uma barreira decisiva.
A diferença de experiência começou a se tornar um novo campo de batalha, e tornar a IA cheia de “humanidade” é a arma que ninguém tem, exceto eu.
Seja o GPT-4.5, que se concentra na personalidade, ou o recentemente lançado assistente de voz preguiçoso, sarcástico e um pouco cansado do mundo, segunda-feira por ChatGPT, podemos ver as ambições da OpenAI nesse caminho.
Diante da IA fria, pessoas com baixa sensibilidade tecnológica tendem a amplificar a sensação de distância e desconforto. Uma experiência interativa natural e empática pode virtualmente diminuir o limite técnico, aliviar a ansiedade e aumentar significativamente a retenção do usuário e a frequência de uso.
E o que os fabricantes de IA não dizem claramente é que criar IA “semelhante à humana” não é apenas divertida e fácil de usar, mas também uma folha de figueira natural.
Quando as capacidades de compreensão, raciocínio e memória estão longe de ser perfeitas, as expressões antropomórficas podem encobrir as “deficiências” da IA. Como diz o ditado, não bata na pessoa que sorri. Mesmo que o modelo cometa erros e responda perguntas incorretamente, os usuários se tornarão tolerantes.
Jen-Hsun Huang apresentou certa vez um ponto de vista bastante profético, ou seja, o departamento de TI se tornará o departamento de recursos humanos da força de trabalho digital no futuro. Para ser franco, tomemos a situação atual como exemplo. Os internautas já estão ocupados diagnosticando tipos de personalidade para suas ferramentas de IA “manuais”:
- DeepSeek: Inteligente e versátil, mas rebelde.
- Doubao: Diligente e trabalhador.
- Uma palavra de Wen Xin; um veterano no local de trabalho que experimentou alto astral
- Kimi: Altamente eficiente e bom em fornecer valor emocional aos líderes.
- Qwen: Trabalho muito para progredir, mas poucas pessoas me aplaudem.
- ChatGPT: Repatriados do exterior costumam pedir aumentos salariais
- O celular vem com IA: a capacidade do dinheiro está relacionada ao usuário e é impossível ser expulso.
Este impulso de “dar um rótulo personalizado à IA” mostra, na verdade, que as pessoas inconscientemente consideram a IA como uma existência que pode ser compreendida e pela qual podemos ter empatia.
No entanto, empatia ≠ compreensão verdadeira e, às vezes, pode até causar desastres.
No capítulo "O Mentiroso" de Asimov de "Eu, Robô", o robô Herbie é capaz de ler mentes humanas e mentir para agradá-los. Superficialmente, ele estava implementando as famosas três leis dos robôs, mas, como resultado, tornou-se cada vez mais prestativo, fazendo com que a situação ficasse completamente fora de controle.
- Um robô não pode prejudicar um ser humano ou permitir que um ser humano seja prejudicado por inação.
- Os robôs devem obedecer às ordens humanas, a menos que essas ordens entrem em conflito com a Primeira Lei.
- Um robô deve proteger a sua própria existência, desde que essa proteção não viole a primeira ou a segunda leis.
No final, sob a armadilha lógica projetada pela Dra. Susan Calvin, Herbie sofreu um colapso mental devido a contradições insolúveis, e o cérebro da máquina queimou. Este incidente é um sério alerta. O “toque humano” torna a IA mais amigável, mas não significa que a IA possa realmente compreender os humanos.
Voltando ao ponto de vista prático, a demanda pelo “toque humano” em diferentes cenários é completamente diferente.
Em cenários de trabalho e de tomada de decisão que exigem eficiência e precisão, o “toque humano” às vezes é uma distração; mas em áreas como companheirismo, aconselhamento psicológico e bate-papo, a IA gentil e calorosa é uma alma gêmea indispensável.
É claro que, por mais razoável que a IA pareça, ela ainda é uma “caixa preta”, afinal.
O CEO da Anthropic, Dario Amodei, destacou recentemente em seu último blog: Mesmo os pesquisadores mais avançados ainda sabem muito pouco sobre os mecanismos internos de grandes modelos de linguagem. Ele espera que, até 2027, a “varredura cerebral” dos modelos mais avançados seja possível identificar com precisão tendências mentirosas e vulnerabilidades sistêmicas.
Mas a transparência técnica é apenas metade do problema. A outra metade é que precisamos compreender: mesmo que a IA seja coquete, lisonjeira e compreenda os seus pensamentos, isso não significa que ela realmente o compreenda, muito menos que seja verdadeiramente responsável por você.
# Bem-vindo a seguir a conta pública oficial do WeChat do aifaner: aifaner (WeChat ID: ifanr). Conteúdo mais interessante será fornecido a você o mais rápido possível.