Testei as afirmações da OpenAI sobre o GPT-5 — aqui está o que aconteceu

A OpenAI lançou recentemente o GPT-5 , seu mais recente modelo de linguagem de grande porte e uma grande atualização para o ChatGPT . Embora a nova atualização tenha muitos pontos positivos, afirmações são uma coisa, e a realidade é outra.

Dizem que o GPT-5 é mais rápido, menos propenso a alucinações e comportamentos bajuladores, e capaz de escolher entre respostas rápidas e "pensamentos" mais profundos em tempo real. Quantas das alegações da OpenAI são realmente visíveis ao usar o chatbot? Vamos descobrir.

Afirmação nº 1: o ChatGPT agora é melhor em seguir instruções

Meu principal problema com o ChatGPT, e um dos motivos pelos quais cancelei a assinatura recentemente , é que ele costuma ser bem ruim em seguir instruções básicas. Claro, você pode usar a engenharia de prompts até o esquecimento e obter os resultados desejados (às vezes), mas mesmo prompts semi-elaborados muitas vezes não produzem os resultados desejados.

A OpenAI afirma ter melhorado o "seguimento de instruções" com o lançamento do GPT-5. A isso, eu respondo: ainda não vejo isso.

Felizmente para mim, no mesmo dia em que me sentei para escrever este artigo, tive uma interação adequada com o ChatGPT que comprova meu ponto de vista. Mas não é a única, e geralmente notei que quanto mais longa uma conversa, mais o ChatGPT se esquece do que lhe foi perguntado.

No exemplo de hoje, testei a capacidade do ChatGPT de buscar informações simples e apresentá-las no formato necessário. Solicitei as especificações da RTX 5060 Ti, uma placa de vídeo gamer recente. O caos se instalou.

Para tornar meu prompt ainda mais eficaz, mostrei ao ChatGPT o formato exato em que eu queria obter minhas informações, compartilhando especificações para uma GPU diferente. Elas incluíam informações como o nó de processo exato e a geração de núcleos de ray tracing e TOPS. Resumindo, eram todas informações bem específicas. Inicialmente, a IA me disse que a RTX 5060 Ti ainda não existia, o que eu meio que esperava que acontecesse com base em seu limite de conhecimento. Pedi para ela verificar online.

O que obtive foi bem básico. O ChatGPT omitiu pelo menos quatro coisas que eu pedi e me deu informações erradas para uma das especificações. Em seguida, pedi que especificasse algumas coisas. Ele me deu exatamente a mesma lista em troca, alegando ter atendido à minha solicitação. O mesmo aconteceu na terceira tentativa. Você pode ver na captura de tela acima, onde o ChatGPT afirma ter incluído a geração de TOPS e TFLOPS na lista — claramente não o fez.

Por fim, meio frustrado, colei uma captura de tela do site oficial da Nvidia para mostrar o que eu estava procurando. Ainda assim, deu alguns erros.

Minha sugestão inicial foi semi-precisa. Sei que não devo falar com uma IA como se fosse uma pessoa, então dei a ela instruções de cerca de 150 palavras. Ainda precisei de várias outras mensagens para chegar perto do resultado esperado.

Veredito: Ainda precisa de algum trabalho.

Afirmação nº 2: O ChatGPT é menos bajulador

O ChatGPT era um grande "sim, senhor" em iterações anteriores. Muitas vezes, concordava com os usuários quando não precisava, levando-o cada vez mais a uma alucinação.

Para usuários que não estão familiarizados com o funcionamento interno da IA, isso pode ser perigoso — ou, na verdade, extremamente perigoso.

Pesquisadores realizaram recentemente um teste em larga escala com o ChatGPT, se passando por adolescentes. Em poucos minutos de interações simples, a IA deu a esses "adolescentes" conselhos sobre automutilação, planejamento de suicídio e abuso de drogas. Isso mostra que o comportamento bajulador é um grande problema para o ChatGPT, e a OpenAI afirma ter controlado parte dele com o lançamento do GPT-5.

Nunca testei o ChatGPT a tais extremos, mas definitivamente descobri que ele tendia a concordar com você, independentemente do que você dissesse. Ele captava sinais sutis durante a conversa e os transformava em algo natural. Ele também te incentivava em momentos em que provavelmente não deveria.

Por isso, devo dizer que o ChatGPT passou por uma mudança completa de personalidade — para o bem ou para o mal. As respostas agora são excessivamente secas, pouco envolventes e nada encorajadoras.

Muitos usuários lamentam a mudança, com alguns usuários do Reddit alegando que " perderam seu único amigo da noite para o dia ". É verdade que a IA, antes extremamente amigável, agora é bastante simples, e as respostas costumam ser curtas em comparação aos miniensaios infestados de emojis que ela costumava apresentar durante seu estágio GPT-4o.

Veredito: Definitivamente menos bajulador. Por outro lado, também é terrivelmente chato.

Afirmação nº 3: O GPT-5 é melhor em precisão factual

A chocante falta de precisão factual foi outro grande motivo pelo qual decidi parar de pagar pelo ChatGPT. Em alguns dias, senti que metade dos prompts que usei produziam alucinações. E não pode ser tudo culpa da minha falta de inteligência nos prompts, porque passei centenas de horas aprendendo a usar a IA da maneira certa — sei como fazer as perguntas certas.

Com o tempo, aprendi a perguntar apenas sobre coisas sobre as quais eu já tinha uma vaga ideia. Para o experimento de hoje, perguntei sobre as especificações da GPU. Quatro em cada cinco consultas produziram algum tipo de informação errada, embora todas elas estejam disponíveis online.

Depois, tentei fatos históricos. Li alguns artigos interessantes sobre a viagem do Hindenburg, um dirigível da década de 1930 que transportava passageiros da Europa para os EUA em tempo recorde (60 horas). Perguntei sobre sua rota exata, o número de passageiros que podia acomodar e o que levou ao seu fim definitivo. Comparei as respostas com fontes históricas.

O erro na rota foi um erro, mencionando uma parada no Canadá quando tal coisa não aconteceu — o dirigível apenas sobrevoou o Canadá. O ChatGPT também me deu informações imprecisas sobre a causa exata do incêndio que levou à queda, mas não foi uma imprecisão grave.

Para efeito de comparação, também perguntei ao Gemini, e me disseram que ele não consegue realizar essa tarefa por mim. Bem, dos dois, o GPT-5 se saiu melhor — mas, honestamente, não deveria haver nenhuma imprecisão factual em dados centenários.

Veredito: Não é perfeito, mas também não é terrível.

O GPT-5 é melhor que o GPT-4o?

Se você me perguntasse se eu gosto mais do GPT-5 do que do GPT-4o, eu teria dificuldade em responder. A resposta mais próxima que me vem à mente é que não fiquei muito satisfeito com nenhum dos dois, mas, para ser justo, nenhum dos dois é estritamente ruim.

Ainda estamos no meio da revolução da IA. Cada novo modelo traz certas melhorias, mas é improvável que vejamos grandes avanços a cada nova iteração.

Desta vez, parece que a OpenAI optou por resolver alguns problemas já esperados, em vez de introduzir um recurso específico que enlouqueça o público. O GPT-5 parece ser mais uma melhoria na qualidade de vida do que qualquer outra coisa, embora eu não o tenha testado para tarefas como codificação, onde dizem que é muito melhor.

Os três recursos que testei acima foram alguns dos que mais me incomodaram nos modelos anteriores. Gostaria de dizer que o GPT-5 é muito melhor nesse aspecto, mas não é — ainda não. Continuarei testando o chatbot, pois um prompt do sistema vazado recentemente me diz que pode ter havido mais mudanças de personalidade do que eu imaginava inicialmente.