O modelo mais recente do ChatGPT pode ser uma regressão no desempenho

novembro 22, 2024 gurinho

De acordo com um novo relatório da Artificial Analysis , o principal modelo de linguagem grande da OpenAI para ChatGPT , GPT-4o, regrediu significativamente nas últimas semanas, colocando o desempenho do modelo de última geração no mesmo nível do muito menor e notavelmente menos capaz. , modelo GPT-4o-mini .

Esta análise ocorre menos de 24 horas depois que a empresa anunciou uma atualização para o modelo GPT-4o . “A capacidade de escrita criativa do modelo aumentou – escrita mais natural, envolvente e personalizada para melhorar a relevância e a legibilidade”, escreveu OpenAI no X. “Também é melhor para trabalhar com arquivos carregados, fornecendo insights mais profundos e respostas mais completas.” Se essas afirmações continuam a ser válidas é agora questionável.

“Concluímos ontem a execução de nossas avaliações independentes no lançamento GPT-4o da OpenAI e estamos medindo consistentemente pontuações de avaliação materialmente mais baixas do que o lançamento de agosto do GPT-4o”, anunciou a Análise Artificial por meio de um post X na quinta-feira, observando que a Análise Artificial do modelo O Índice de Qualidade diminuiu de 77 para 71 (e agora é igual ao do GPT-4o mini).

Além do mais, o desempenho do GPT-4o no benchmark GPQA Diamond diminuiu de 51% para 39%, enquanto seus benchmarks MATH diminuíram de 78% para 69%.

Simultaneamente, os pesquisadores descobriram mais que o dobro no aumento da velocidade das respostas do modelo, acelerando de cerca de 80 tokens de saída por segundo para cerca de 180 tokens/s. “Geralmente observamos velocidades significativamente mais rápidas no dia do lançamento dos modelos OpenAI (provavelmente devido à capacidade de provisionamento do OpenAI antes da adoção), mas anteriormente não vimos uma diferença de velocidade de 2x”, escreveram os pesquisadores.

Espere – o novo GPT-4o é um modelo menor e menos inteligente?
Concluímos ontem a execução de nossas avaliações independentes no lançamento do GPT-4o da OpenAI e estamos medindo consistentemente pontuações de avaliação materialmente mais baixas do que o lançamento do GPT-4o em agosto.
GPT-4o (novembro) vs GPT-4o (agosto):
➤… pic.twitter.com/gjY2pBFuUv
— Análise Artificial (@ArtificialAnlys) 21 de novembro de 2024

“Com base nesses dados, concluímos que é provável que o modelo GPT-4o de 20 de novembro da OpenAI seja um modelo menor do que o lançamento de agosto”, continuaram. “Dado que a OpenAI não reduziu os preços da versão de 20 de novembro, recomendamos que os desenvolvedores não retirem as cargas de trabalho da versão de agosto sem testes cuidadosos.”

O GPT-4o foi lançado pela primeira vez em maio de 2024 para superar os modelos GPT-3.5 e GPT-4 existentes. O GPT-4o oferece resultados de benchmark de última geração em tarefas de voz, multilíngue e visão, de acordo com a OpenAI, tornando-o ideal para aplicações avançadas como tradução em tempo real e IA de conversação.