É por isso que as pessoas pensam que o GPT-4 pode estar ficando mais burro com o tempo

Por mais impressionante que o GPT-4 tenha sido no lançamento, alguns observadores observaram que ele perdeu um pouco de sua precisão e poder. Essas observações foram postadas online há meses, inclusive nos fóruns da OpenAI .

Esses sentimentos já existem há algum tempo, mas agora podemos finalmente ter uma prova. Um estudo realizado em colaboração com a Universidade de Stanford e a UC Berkeley sugere que o GPT-4 não melhorou sua proficiência de resposta, mas na verdade piorou com atualizações adicionais no modelo de linguagem.

O GPT-4 está piorando com o tempo, não melhorando.

Muitas pessoas relataram ter notado uma degradação significativa na qualidade das respostas do modelo, mas, até agora, tudo não passou de uma anedota.

Mas agora sabemos.

Pelo menos um estudo mostra como a versão de junho do GPT-4 é objetivamente pior do que… pic.twitter.com/whhELYY6M4

— Santiago (@svpino) 19 de julho de 2023

O estudo, chamado Como o comportamento do ChatGPT está mudando ao longo do tempo? , testou a capacidade entre GPT-4 e a versão de idioma anterior GPT-3.5 entre março e junho. Testando as duas versões do modelo com um conjunto de dados de 500 problemas, os pesquisadores observaram que o GPT-4 teve uma taxa de precisão de 97,6% em março com 488 respostas corretas e uma taxa de precisão de 2,4% em junho, depois que o GPT-4 passou por algumas atualizações. O modelo produziu apenas 12 respostas corretas meses depois.

Outro teste usado pelos pesquisadores foi uma técnica de cadeia de pensamento, na qual eles perguntaram GPT-4 17.077 é um número primo? Uma questão de raciocínio. O GPT-4 não apenas respondeu incorretamente não, como também não deu nenhuma explicação sobre como chegou a essa conclusão, de acordo com os pesquisadores.

ChatGPT sendo questionado sobre um número primo.

O estudo ocorre apenas seis dias depois que um executivo da OpenAI tentou acabar com as suspeitas de que o GPT-4 estava, de fato, ficando mais burro. O tweet abaixo implica que a degradação na qualidade das respostas é um fenômeno psicológico por ser um usuário frequente.

Não, não tornamos o GPT-4 mais burro. Muito pelo contrário: tornamos cada nova versão mais inteligente que a anterior.

Hipótese atual: ao usá-lo com mais intensidade, você começa a perceber problemas que não via antes.

— Peter Welinder (@npew) 13 de julho de 2023

Notavelmente, o GPT-4 está atualmente disponível para desenvolvedores ou membros pagos por meio do ChatGPT Plus . Fazer a mesma pergunta ao GPT-3.5 por meio da prévia de pesquisa gratuita do ChatGPT como eu fiz, fornece não apenas a resposta correta, mas também uma explicação detalhada do processo matemático.

Além disso, a geração de código sofreu com os desenvolvedores da LeetCode, tendo visto o desempenho do GPT-4 em seu conjunto de dados de 50 problemas fáceis cair de 52% de precisão para 10% de precisão entre março e junho.

Para adicionar combustível ao fogo, o comentarista do Twitter @svpino observou que há rumores de que o OpenAI pode estar usando “modelos GPT-4 menores e especializados que agem de maneira semelhante a um modelo grande, mas são mais baratos de operar”.

Essa opção mais barata e rápida pode estar levando a uma queda na qualidade das respostas GPT-4 em um momento crucial em que a empresa-mãe tem muitas outras grandes organizações dependendo de sua tecnologia para colaboração.

Nem todo mundo acha que o estudo prova alguma coisa, no entanto. Alguns argumentaram que uma mudança no comportamento não equivale a uma redução na capacidade. Isso é reconhecido no próprio estudo, afirmando que “um modelo que possui uma capacidade pode ou não exibir essa capacidade em resposta a um prompt específico”. Em outras palavras, obter o resultado desejado pode exigir diferentes tipos de prompts do usuário.

Quando o GPT-4 foi anunciado pela primeira vez, a OpenAI detalhou seu uso de supercomputadores Microsoft Azure AI para treinar o modelo de linguagem por seis meses, alegando que o resultado era uma probabilidade 40% maior de gerar as “informações desejadas dos prompts do usuário”.

O ChatGPT, baseado no GPT-3.5 LLM, já era conhecido por ter seus desafios de informação, como ter um conhecimento limitado dos eventos mundiais após 2021, o que poderia levá-lo a preencher lacunas com dados incorretos. No entanto, a regressão de informações parece ser um problema completamente novo, nunca visto antes com o serviço. Os usuários estavam ansiosos por atualizações para resolver os problemas aceitos.

O CEO da OpenAI, Sam Altman, recentemente expressou sua decepção em um tweet após a Federal Trade Commission lançar uma investigação sobre se o ChatGPT violou as leis de proteção ao consumidor.

“Somos transparentes sobre as limitações de nossa tecnologia, especialmente quando falhamos. E nossa estrutura de lucros limitados significa que não somos incentivados a obter retornos ilimitados”, tuitou ele.