É por isso que as pessoas estão dizendo que o GPT-4 está ficando “preguiçoso”

OpenAI e suas tecnologias estiveram no meio de um escândalo durante a maior parte de novembro. Entre a rápida demissão e recontratação do CEO Sam Altman e o curioso caso dasuspensão das assinaturas pagas do ChatGPT Plus , a OpenAI manteve a indústria de inteligência artificial no noticiário por semanas.

Agora, os entusiastas da IA ​​​​repetiram uma questão que fez muitos se perguntarem se o GPT-4 está ficando “mais preguiçoso” à medida que o modelo de linguagem continua a ser treinado. Muitos que o utilizam para acelerar tarefas mais intensivas recorreram ao X (antigo Twitter) para expor suas queixas sobre as mudanças percebidas.

OpenAI tem segurança suficiente no GPT-4 para que ele se torne preguiçoso e incompetente.

Converter este arquivo? Demasiado longo. Escreva uma tabela? Aqui estão as três primeiras linhas. Leia este link? Desculpe, não posso. Ler este arquivo py? Ops, não é permitido.

Tão frustrante.

— rohit (@krishnanrohit) 28 de novembro de 2023

Rohit Krishnan no X detalhou vários contratempos que experimentou ao usar o GPT-4, que é o modelo de linguagem por trás do ChatGPT Plus, a versão paga do ChatGPT. Ele explicou que o chatbot recusou várias de suas perguntas ou lhe deu versões truncadas de suas solicitações quando ele conseguiu obter respostas detalhadas anteriormente. Ele também observou que o modelo de linguagem usará ferramentas diferentes das que foi instruído a usar, como Dall-E quando um prompt solicitar um intérprete de código. Krishnan também acrescentou sarcasticamente que “análise de erros” é a maneira do modelo de linguagem dizer “AFK [longe do teclado], volte em algumas horas”.

Matt Wensing no Xdetalhou seu experimento , onde pediu ao ChatGPT Plus para fazer uma lista de datas entre agora e 5 de maio de 2024, e o chatbot exigiu informações adicionais, como o número de semanas entre essas datas, antes de poder concluir a tarefa inicial.

O professor da Wharton, Ethan Mollick, também compartilhou suas observações sobre o GPT-4 depois de comparar sequências com o interpretador de código que ele executou em julho com consultas mais recentes de terça-feira. Ele concluiu que o GPT-4 ainda tem conhecimento, mas observou que lhe explicou como consertar seu código, em vez de realmente consertar o código. Em essência, ele teria que fazer o trabalho que pedia ao GPT-4. Embora Mollick não tenha pretendido criticar a linguagem, as suas observações estão em sintonia com o que outros descreveram como “conversa indireta” do GPT-4.

Sabe-se que o ChatGPT alucina respostas para informações que não conhece, mas esses erros parecem ir muito além dos erros comuns do chatbot de IA. O GPT-4 foi introduzido em março, mas já em julho começaram a surgir relatos de que o modelo de linguagem estava ficando “mais burro”. Um estudo feito em colaboração com a Universidade de Stanford e a Universidade da Califórnia, Berkeley, observou que a precisão do GPT-4 caiu de 97,6% para 2,4% somente entre março e junho. Detalhou que a versão paga do ChatGPT não foi capaz de fornecer a resposta correta a uma equação matemática com uma explicação detalhada, enquanto a versão não paga que ainda executa um modelo GPT 3.5 mais antigo deu a resposta correta e uma explicação detalhada do processo matemático.

Durante esse período, Peter Welinder, vice-presidente de produtos da OpenAI, sugeriu que os usuários frequentes podem experimentar um fenômeno psicológico em que a qualidade das respostas pode parecer degradar com o tempo, quando o modelo de linguagem está realmente se tornando mais eficiente.

Tem havido discussão se o GPT-4 se tornou "preguiçoso" recentemente. Meu teste anedótico sugere que pode ser verdade.

Repeti uma sequência de análises antigas que fiz com o Code Interpreter. O GPT-4 ainda sabe o que fazer, mas continua me dizendo para fazer o trabalho. Um passo agora é muitos e muitos. alguns são estranhos. pic.twitter.com/OhGAMtd3Zq

— Ethan Mollick (@emollick) 28 de novembro de 2023.

De acordo com Mollick, os problemas atuais também podem ser temporários e devido a uma sobrecarga do sistema ou a uma mudança no estilo do prompt que não foi aparente aos usuários. Notavelmente, a OpenAI citou uma sobrecarga do sistema como motivo para o encerramento da inscrição do ChatGPT Plus após o aumento no interesse no serviço depois que sua conferência inaugural de desenvolvedores DevDay introduziu uma série de novas funções para a versão paga do chatbot AI. Ainda existe uma lista de espera para ChatGPT Plus. O professor também acrescentou que o ChatGPT no celular usa um estilo de prompt diferente, o que resulta em “respostas mais curtas e diretas”.

Yacine on X detalhou que a falta de confiabilidade do modelo GPT-4 mais recente devido à queda na adesão às instruções fez com que voltassem à codificação tradicional, acrescentando que planejam criar um LLM de código local para recuperar o controle dos parâmetros do modelo. Outros usuários mencionaram a opção por opções de código aberto em meio ao declínio do modelo de linguagem.

Da mesma forma, o usuário do Reddit Mindless-Ad8595 explicou que as atualizações mais recentes do GPT-4 o tornaram inteligente demais para seu próprio bem. “Ele não vem com um 'caminho' predefinido que guia seu comportamento, o que o torna incrivelmente versátil, mas também um tanto sem direção por padrão”, disse ele.

O programador recomenda que os usuários criem GPTs personalizados especializados por tarefa ou aplicativo para aumentar a eficiência da saída do modelo. Ele não fornece nenhuma solução prática para usuários que permanecem no ecossistema OpenAI.

O desenvolvedor de aplicativos Nick Dobos compartilhou sua experiência com contratempos do GPT-4, observando que quando solicitou que o ChatGPT escrevesse pong no SwiftUI , ele descobriu vários espaços reservados e tarefas dentro do código. Ele acrescentou que o chatbot ignoraria os comandos e continuaria inserindo esses espaços reservados e tarefas no código, mesmo quando instruído a fazer o contrário. Vários usuários do X confirmaram experiências semelhantes desse tipo com seus próprios exemplos de código com espaços reservados e tarefas. A postagem de Dobos chamou a atenção de um funcionário da OpenAI que disse que encaminharia exemplos para a equipe de desenvolvimento da empresa para correção, com a promessa de compartilhar quaisquer atualizações nesse ínterim.

No geral, não há uma explicação clara do motivo pelo qual o GPT-4 está atualmente apresentando complicações. Os usuários que discutem suas experiências online sugeriram muitas ideias. Eles variam desde modelos de fusão OpenAI até uma sobrecarga contínua do servidor, executando GPT-4 e GPT-4 Turbo, até a tentativa da empresa de economizar dinheiro limitando os resultados, entre outros.

É sabido que o OpenAI executa uma operação extremamente cara. Em abril de 2023, os pesquisadores indicaram que eram necessários US$ 700.000 por dia , ou 36 centavos por consulta, para manter o ChatGPT funcionando. Analistas da indústria detalharam na época que a OpenAI teria que expandir sua frota de GPUs em 30.000 unidades para manter seu desempenho comercial até o final do ano. Isso implicaria suporte aos processos ChatGPT, além da computação para todos os seus parceiros.

Enquanto esperavam que o desempenho do GPT-4 se estabilizasse, os usuários trocaram várias piadas, esclarecendo a situação no X.

“A próxima coisa que você sabe é que ele está dizendo que está doente”, disse Southrye .

“Tantas respostas com “e você faz o resto”. Não, VOCÊ faz o resto”, disse MrGarnett .

O número de respostas e postagens sobre o problema é definitivamente difícil de ignorar. Teremos que esperar e ver se a OpenAI pode resolver o problema de frente em uma atualização futura.