O Claude Opus 4.6 foi superado duas vezes em um único dia, desta vez por um modelo de fabricação nacional.

Há alguns dias, a APPSO mencionou que o grande modelo estava prestes a enfrentar o mês mais brutal de sua história, e aqui está ele.

Claude Opus 4.6 "infelizmente" ficou em segundo plano, sendo ultrapassado duas vezes em um único dia.

Esta manhã, a Anthropic lançou a versão prévia do Claude Mythos, que obteve 77,8% no SWE-bench Pro, deixando o Opus 4.6 bem para trás, com 57,3%. Essa pontuação significa que ele consegue localizar e corrigir bugs complexos de engenharia em repositórios reais do GitHub, superando a grande maioria dos programadores humanos.

No entanto, o Mythos Preview ainda não está disponível para usuários comuns. Enquanto isso, surgiu outro modelo que supera o Opus 4.6: o Zhipu disponibilizou o código aberto do GLM-5.1.

O GLM-5.1 obteve 58,4% no SWE-bench Pro, superando os 57,3% do Opus 4.6 e os 57,7% do GPT-5.4. O CEO da HuggingFace, Clement Delangue, também o parabenizou no Twitter: "O modelo com melhor desempenho no SWE-Bench Pro agora é de código aberto na HuggingFace! Bem-vindo, GLM 5.1!"

Terceiro no mundo, primeiro em código aberto. Embora ainda não tenhamos visto o DeepSeek V4, um novo líder em código aberto chegou, e ainda é um modelo de grande escala desenvolvido na China.

Para ser sincera, minha primeira reação foi que estava acontecendo de novo, a "frenesi das paradas" das grandes modelos. Toda coletiva de imprensa deveria ser um "evento épico", com cada modelo liderando as paradas por várias horas. O que há de diferente desta vez?

Após analisar os detalhes técnicos e a experiência do usuário do GLM-5.1, a APPSO mostrará em que nível este modelo se encontra.

De 20 a 1700 passos, trabalhando continuamente por 8 horas.

O que mais surpreende no GLM-5.1 não são seus resultados nos testes de benchmark, mas sim sua longa vida útil.

Um caso da Zhipu me impressionou profundamente. Eles construíram um sistema Linux para desktop do zero em 8 horas. Não se tratava daquele tipo de "construção" em que se escrevem alguns arquivos de demonstração; era um processo genuíno, do zero, que envolvia desde o desenho da arquitetura e a escrita do código até a execução de testes e a correção de bugs. Levou exatamente 8 horas, envolveu mais de 1.200 etapas e, finalmente, resultou em um sistema Linux para desktop totalmente funcional.

Inclui uma área de trabalho completa, gerenciador de janelas, barra de status, aplicativos, gerenciador de VPN, suporte a fontes chinesas, biblioteca de jogos e 4,8 MB de arquivos complementares. Isso equivale a uma semana de trabalho para uma equipe de quatro pessoas.

Ninguém participou dos testes ou da revisão do código durante todo o processo. O GLM-5.1 chegou a escrever testes de regressão para o próprio código, e esses testes foram aprovados.

O blogueiro de programação do Zhihu, Toyama nao, conduziu um teste ainda mais rigoroso. Ele apresentou três projetos ao GLM-5.1: um renderizador OpenGL para macOS escrito em Swift, um aplicativo de bate-papo completo desenvolvido em Flutter com um componente de servidor em Golang e um aplicativo de edição de vídeo baseado na web desenvolvido usando uma pilha de tecnologias escolhida pelo usuário. Cada projeto foi submetido a 10-12 rodadas de perguntas, com 1500-2000 palavras por rodada.

Como resultado, o GLM-5.1 tornou-se o primeiro modelo produzido internamente a passar em todos os seus projetos de teste, e também o primeiro modelo produzido internamente a superar oficialmente o Sonnet 4.5 Thinking.

Sua avaliação foi: "O GLM-5.1 expandiu muito o escopo das aplicações de programação. Não é mais apenas uma ferramenta poderosa para front-end, nem apenas um exemplo pontual. Pode servir como a principal ferramenta de programação em situações complexas." No entanto, ele também apontou os problemas: "Com contextos extremamente longos, é fácil ocorrerem explosões de ilusões. Se você encontrar um problema que não pode ser resolvido em duas tentativas, não arrisque, simplesmente comece de novo."

No final do ano passado, um agente de IA conseguia completar apenas cerca de 20 etapas. O GLM-5.1 agora consegue completar 1.700 etapas. Este é um momento decisivo para determinar se o modelo realmente pode "trabalhar de forma independente".

Em seu relatório técnico, a Zhipu explicou a principal inovação: os modelos anteriores, incluindo o GLM-5, atingiam um gargalo após obterem ganhos rápidos nos estágios iniciais. Eles tentaram repetidamente técnicas de otimização conhecidas, mas não conseguiram mudar de estratégia proativamente quando uma abordagem se tornava inviável.

O objetivo do treinamento do GLM-5.1 é superar esse gargalo, permitindo que o modelo realize ajustes incrementais dentro de uma estratégia fixa. Quando os ganhos tendem a estagnar, ele analisa ativamente os registros de benchmark, localiza o gargalo atual e, em seguida, adota uma solução estruturalmente diferente.

O caso de otimização de banco de dados vetorial é um exemplo típico de uma trajetória de otimização "em etapas". O GLM-5.1 utilizou 655 iterações para aumentar a taxa de transferência de consultas de 3108 QPS para 21472 QPS, uma melhoria de 6,9 ​​vezes.

Nesse processo, o próprio modelo completa toda a cadeia de otimização, desde a varredura completa do banco de dados até a recuperação por agrupamento IVF, introduzindo compressão de meia precisão, adicionando classificação grosseira por quantização, realizando roteamento em dois níveis e, em seguida, realizando a pré-poda. Cada salto é acompanhado por uma breve queda na recuperação, porque o modelo temporariamente quebra restrições ao explorar novas direções e, em seguida, se ajusta novamente. Esse ciclo de "quebra e correção" é, em si, um sinal de otimização eficaz.

No benchmark de otimização KernelBench Nível 3, o GLM-5.1 passou por mais de 24 horas de iteração contínua em 50 cargas computacionais reais de aprendizado de máquina, alcançando, em última análise, uma aceleração média geométrica de 3,6x, significativamente superior à aceleração de 1,49x do modo max-autotune do torch.compile. O modelo apresenta kernels Triton e CUDA personalizados, utilizando fusão de epílogos cuBLASLt e implementando divisão de memória compartilhada e otimização de grafos CUDA, abrangendo toda a pilha de tecnologia, desde a fusão de operadores de alto nível até o ajuste em nível de microarquitetura.

Existe também um teste ainda mais interessante: o Vending Bench 2. Este teste de referência exige que o modelo simule a operação de um negócio de máquinas de venda automática durante um ano, o que requer planejamento a longo prazo e gestão de recursos. O GLM-5.1 alcançou um saldo final de US$ 4.432, ficando em primeiro lugar entre os modelos de código aberto e aproximando-se do nível do Claude Opus 4.5.

Especificações do 744B, sem chips da Nvidia, redução de custos de 97%.

Vale a pena examinar as especificações técnicas do GLM-5.1: um modelo especialista híbrido (MoE) de 744 bytes com 40 bytes de parâmetros ativados por token, 28,5 trilhões de tokens para dados de treinamento e integração do DeepSeek Sparse Attention (DSA) para reduzir os custos de implantação, mantendo a capacidade de lidar com contextos longos. Ele apresenta uma janela de contexto de 200 mil tokens e uma saída máxima de 131.072 tokens.

Mais importante ainda, todo o modelo foi treinado usando o chip Ascend 910B da Huawei, sem a participação de GPUs da NVIDIA. Apesar das limitações de poder computacional, o modelo desenvolvido internamente ainda alcançou a terceira melhor classificação global e a melhor classificação entre os modelos de código aberto.

O desenvolvedor Beau Johnson mudou o modelo por trás de sua implementação do OpenClaw de Claude Opus 4.6 para GLM-5.1. A experiência do usuário foi idêntica, mas o custo caiu de US$ 1.000 para cerca de US$ 30, uma redução de 97%. O custo de entrada do GLM-5.1 é 1/5 do custo do Claude Opus, e seu custo de saída é 1/8. Em resumo: recursos quase idênticos aos do Opus por 20% do preço.

Além disso, o GLM-5.1 é de código aberto, licenciado sob a Licença MIT, uma das licenças de código aberto mais permissivas. Você pode modificá-lo, usá-lo comercialmente e fazer o que quiser com ele. Ele suporta frameworks de inferência convencionais como vLLM, SGLang e xLLM, e pode ser implantado diretamente em ambiente local.

É claro que o GLM-5.1 ainda tem espaço para melhorias. Alguns desenvolvedores relataram que a velocidade de inferência do GLM-5.1 é de apenas 44,3 tokens/segundo, o que não é particularmente vantajoso em comparação com produtos similares. Tarefas complexas podem levar pelo menos uma hora, e mesmo o plano Pro, com 15 vezes o limite de crédito do Claude, pode não ser suficiente.

Esses problemas são reais. O GLM-5.1 não é perfeito, mas isso não o impede de ser um marco.

A importância do GLM-5.1 reside não em quão mais poderoso ele é do que o Opus 4.6, mas no fato de provar que, mesmo com recursos computacionais limitados, modelos desenvolvidos internamente ainda podem alcançar desempenho de ponta entre os modelos de código aberto. Além disso, ele é de código aberto; qualquer pessoa pode usá-lo e modificá-lo.

As 8 horas que você dorme agora podem ser 8 horas de IA trabalhando. E essa IA é de código aberto, desenvolvida localmente e utilizável por qualquer pessoa.

Em anexo, encontram-se os métodos de experiência.

1. Integração da API oficial
– Plataforma aberta BigModel: https://docs.bigmodel.cn/cn/guide/models/text/glm-5.1
– Z.ai: https://docs.z.ai/guides/llm/glm-5.1

2. Experiência com o produto
O GLM-5.1 estará disponível em breve no Z.ai: https://chat.z.ai

3. Link de código aberto
– GitHub: https://github.com/zai-org/GLM-5
– Hugging Face: https://huggingface.co/zai-org/GLM-5.1
– ModelScope: https://modelscope.cn/models/ZhipuAI/GLM-5.1

#Siga a conta oficial do iFanr no WeChat: iFanr (ID do WeChat: ifanr), onde você encontrará conteúdo ainda mais interessante o mais breve possível.