O software de programação de IA desenvolvido na China ocupa o segundo lugar no ranking mundial! Cinco modelos foram testados – qual deles é a ferramenta definitiva para programação intuitiva?

Superando o GPT-5.5, o Gemini 3.5 Flash e o DeepSeek V4 Pro, o mais recente modelo carro-chefe da Alibaba, o Qwen3.7 Max, garantiu o segundo lugar na tabela de classificação da competição de programação, ficando atrás apenas do Claude Opus 4.7.

▲Captura de tela do ranking em 26 de maio

Além da seleção pelos usuários em cenários do mundo real, o Qwen3.7 Max também conquistou o primeiro lugar entre os modelos nacionais em listas tradicionais de avaliação de modelos em larga escala, como Terminal Bench e SWE Bench.

Embora tenhamos visto essas tabelas de classificação serem atualizadas com frequência nos últimos quatro anos, ainda não conseguimos resistir à vontade de experimentar o modelo Qwen, que pode superar o GPT 5.5, e ver como ele realmente funciona.

Vale ressaltar que a combinação de agentes de codificação mais popular atualmente é o Codex, que é usado em conjunto com o GPT 5.5.

Se alterarmos o modelo padrão no Codex para Qwen3.7 Max e, em seguida, usarmos o Codex para concluir algumas tarefas diárias, ele será ainda melhor do que o GPT 5.5?

Obtenha Qwen 3.7 Max

Aproveitando as diversas promoções de tokens oferecidas atualmente por diferentes empresas, a Alibaba Cloud também está disponibilizando 1 milhão de tokens para uso gratuito, que podem ser utilizados na plataforma Alibaba Cloud Hundred Refinements.

O Qwen3.7 Max está com 50% de desconto por tempo limitado no site da Alibaba Cloud. Investindo ¥6 por milhão de tokens, você receberá ¥18 por milhão de tokens. Novos usuários também podem aproveitar um plano de recarga com 50% de desconto, recebendo ¥20 em tokens por ¥10 por mês, enquanto o Plano de Tokens padrão custa atualmente ¥198 por mês.

De modo geral, segundo dados da plataforma de agregação de modelos OpenRouter, o preço do Qwen3.7 Max está em uma faixa moderada. Certamente não consegue competir com os preços bastante reduzidos do DeepSeek, mas ainda é significativamente mais barato que o Opus 4.7 e o GPT 5.5.

Recarregamos diretamente o plano "Escolha do Iniciante", que oferece um desconto de 20 yuans aplicável a todos os modelos. No entanto, observe que o desconto de 50% se aplica apenas a um plano. Ou seja, se você comprar o plano de 10 yuans, não poderá comprar os planos de 50 yuans ou 250 yuans com desconto de 50%.

Vamos testar DeepSeek, Claude, GPT, Gemini e Qwen juntos.

Após obtermos a chave da API e milhões de tokens de uso gratuitos, utilizamos inicialmente o Qwen3.7 Max na plataforma Bailian da Alibaba Cloud e no site oficial da Qianwen para criar alguns designs comuns de páginas web front-end e testar suas capacidades de desenvolvimento.

Para testes de simulação física onde as diferenças são mais visualmente aparentes, usamos uma instrução simples: "Use HTML+CSS+JS para criar uma animação simulando o movimento de um líquido em um recipiente; arrastar o recipiente alterará o ângulo de inclinação."

▲ Qwen3.7-Max, gerado pelo site oficial do Qwen

O Qwen3.7 Max concluiu com sucesso o desafio de simulação e também adicionou recursos como personalização de cores, agitação e ajuste do volume de líquido.

O DeepSeek é relativamente simples, mas não apresentou nenhum erro.

▲ DeepSeek V4, gerado a partir do site oficial

O líquido gerado pelo GPT-5.5 é um tanto estranho. Embora flua na direção correspondente à mudança de ângulo, a onda resultante é bastante irregular.

▲ GPT-5.5 Ultra High, gerado pelo Codex

As páginas web geradas em Flash do Gemini 3.5 parecem ter um bug: o ícone da garrafa fica escondido atrás do painel de controle e é preciso arrastá-lo manualmente para fora. No entanto, para a mesma mensagem, o programa oferece diversas opções de personalização, incluindo tipo de garrafa, cor do líquido e várias outras configurações.

▲Gemini 3.5 Flash, gerado a partir do site oficial, selecione a opção Canvas.

A garrafa Claude Opus 4.7 é muito rudimentar, e o efeito simulado de líquido se agitando, quando vigoroso, parece mais com a vibração de ondas sonoras.

▲ Claude Opus 4.7, gerado usando o aplicativo Claude Code

Em seguida, tentamos gerar um pequeno jogo. Embora o teste de jogos fosse um item comum nos testes da Vibe Coding no ano passado, desta vez queríamos que a IA criasse um jogo de 2048 com uma grade de seis quadrados. O comando de entrada foi: "Crie um jogo jogável de 2048, mas com uma grade hexagonal."

A página gerada pelo Qwen3.7 Max ficou muito boa. Você pode ver que a maioria das 10 fontes de referência são do tutorial de geração de jogos 2048 da CSDN.

O jogo ainda é jogável, mas ainda há momentos ocasionais em que as coisas não saem como planejado, como quando os mesmos números são empilhados na mesma direção, mas não em suas posições corretas.

▲ Qwen3.7 Max, gerado a partir do site oficial

O DeepSeek V4 teve um desempenho semelhante ao da rodada anterior, mas, apesar de ser um hexágono, oferecia apenas as teclas WASD para deslizar.

▲DeepSeek V4, gerado pelo site oficial

O melhor desempenho nesta rodada foi provavelmente o do Opus 4.7 de Claude. Ele realmente entendeu como o jogo deveria ser configurado. O movimento das grades estava de acordo com as regras do favo de mel, então não deixou os jogadores se sentirem perdidos.

▲ Claude Opus 4.7, gerado usando o aplicativo Claude Code

O GPT 5.5, aproveitando os recursos do Codex, pode visualizar automaticamente o jogo gerado em um navegador para verificar problemas e capturar informações do console para corrigir o código do projeto. A página da web gerada também é excelente; no entanto, seu desempenho no monitoramento do movimento do mouse na tela não é tão bom quanto o do Opus 4.7.

▲GPT-5.5 Ultra High, gerado pelo Codex

O Gemini 3.5 Flash, como sempre, adicionou muitos recursos. Ele listava três temas de jogos: Cyber, Dark Gold e Macaron, e até incluía "harmonias de alta qualidade integradas".

A jogabilidade apresenta efeitos sonoros espaciais retrô de 8 bits gerados por áudio nativo da Web (fusão, deslizamento, passar de nível, morte), maximizando instantaneamente a experiência imersiva.

▲Gemini 3.5 Flash, gerado a partir do site oficial, selecione a opção Canvas.

Retomando o design de algumas páginas web comuns, pedimos que criassem um site para um museu do metrô, e a instrução era apenas uma frase: "Projete um site temático chamado Museu do Metrô, que exija uma forte sensação de imersão."

Nossa intenção original era que esses grandes modelos exibissem o máximo possível de informações sobre o metrô de diferentes cidades, os logotipos de metrôs do mundo todo, e que o estilo geral do site fosse apresentado de forma artística, com um estilo distinto e muitos efeitos especiais.

Vamos começar pelo Qwen3.7 Max. Para ser sincero, é um pouco difícil de avaliar. A disposição vertical do texto lembra um trem de metrô, mas o site como um todo parece muito confuso.

▲ Qwen3.7-Max, gerado pelo site oficial do Qwen

A Gemini foi além, reutilizando efeitos sonoros. Curiosamente, eles também criaram um produto cultural e criativo com o tema do metrô: um gerador de bilhetes comemorativos personalizados. Os usuários podem inserir seu nome, selecionar uma estação e gerar instantaneamente um bilhete comemorativo de metrô de alta qualidade e estilo retrô.

▲ Gemini 3.5 Flash, gerado a partir do site oficial, selecione a opção Canvas.

O projeto escolhido pela DeepSeek era semelhante ao da Gemini, apresentando souvenirs de ingressos e experiências de direção, mas esses recursos não pareciam estar presentes no produto final.

▲ DeepSeek V4, gerado a partir do site oficial

O GPT 5.5 agora gera sites com um estilo bastante bom. Embora haja exemplos óbvios de uso de modelos, o design geral está online. A única desvantagem é a falta de informações. Parece não entender que um museu do metrô deveria ser um site apresentando informações sobre o metrô.

▲GPT-5.5 Ultra High, gerado usando o Codex

Dando continuidade à solicitação anterior, como por exemplo, pedir para criar um sistema operacional macOS/Windows, desta vez digitamos "Criar um sistema operacional de navegador completo com HTML".

O desempenho do DeepSeek V4 é bastante simples, assim como o do Qwen3.7 Max, com a diferença de que o Qwen3.7 Max inclui uma bela imagem de fundo para a área de trabalho.

▲ DeepSeek V4, gerado a partir do site oficial

▲ Qwen3.7-Max, gerado pelo site oficial do Qwen

Mas o que realmente me impressionou neste teste foram o Gemini 3.5 Flash e o GPT 5.5.

▲ Gemini 3.5 Flash, gerado a partir do site oficial, selecione a opção Canvas.

Assim como o Gemini 3.5 Flash, o GPT 5.5 também apresenta um design detalhado para todo o sistema operacional, com um estilo distinto.

▲ GPT-5.5 Ultra High, gerado usando o Codex

Usando Qwen 3.7 Max no Codex

Após uma rodada de testes, parece que o desempenho do Qwen3.7 Max na geração de pequenos projetos de páginas web por meio de diálogos é difícil de afirmar que supera o Gemini e o GPT 5.5 em todos os casos, mas, comparado com seu antecessor, acredito que houve uma melhoria significativa.

No site oficial do Qianwen, vimos alguns exemplos de código, como um mapa da Terra em 3D, classificação de cadeias alimentares, visualização e blogs pessoais. No entanto, as instruções para esses projetos web eram bastante longas, em vez da frase simples que testamos.

▲Após inserir as palavras-chave sugeridas, Qianwen também oferece uma opção para "comandos de otimização".

Também utilizamos as mesmas dicas de ferramentas para o projeto 3D Earth no DeepSeek V4 e no Gemini 3.5 Flash, e os resultados foram quase idênticos aos obtidos com o Qwen 3.7 Max.

Isso significa que, no estágio atual, os prompts ainda desempenham um papel significativo para que o Qwen3.7 Max possa utilizar plenamente suas capacidades.

Uma forma de reduzir a pressão sobre os usuários para otimizar as palavras-chave sugeridas é integrar-se a produtos de agentes e aproveitar suas habilidades e capacidades de colaboração para liberar o verdadeiro potencial do modelo.

Seguindo o tutorial oficial da Alibaba Cloud, integramos com sucesso o Qwen3.7 Max ao Codex Terminal Assistant.

No entanto, isso é propenso a erros, já que o Codex irá constantemente lembrá-lo de "Variável de ambiente ausente do Codex".

De acordo com o tutorial oficial, após modificar o arquivo de configuração ~/.codex/config.toml, também precisamos modificar as variáveis ​​de ambiente do computador.

As informações da chave de API do modelo são armazenadas nas variáveis ​​de ambiente do computador (você precisa verificar o tipo de shell do seu computador e modificar o arquivo de variáveis ​​de ambiente correspondente, como .bash_profile ou .zshrc), e não no arquivo de configuração config.toml do Codex.

Após efetuar as alterações, digite Codex no terminal e você verá Qwen3.7 Max. Reabra o aplicativo Codex e o modelo na interface principal mudará do GPT-5.5 anterior para o personalizado.

Utilizando o mesmo método, podemos integrar modelos como DeepSeek, MiniMax, Kimi e Zhipu no Codex.

Há algum tempo, uma skill de front-end no GitHub acumulou mais de 20.000 estrelas. Ela se concentra em aprimorar a aparência de interfaces front-end geradas por IA, semelhante à tarefa que conquistou o segundo lugar no ranking do Qwen3.7 Max.

Primeiro, vamos instalar essa habilidade no Codex e, em seguida, tentar combiná-la com outras habilidades para ver se o efeito será melhor.

▲ Endereço: https://github.com/Leonxlnx/taste-skill

Insira o mesmo comando e o Codex usará automaticamente habilidades como design de front-end e brainstorming para concluir o posicionamento e a concepção do design, monitorando rigorosamente a geração do projeto de acordo com o controle de processo do Codex.

Por fim, o mesmo modelo apresenta um desempenho significativamente melhor no Codex do que diretamente no site oficial da Qianwen.

No entanto, ainda pode surgir um problema aqui: "fluxo desconectado antes da conclusão: <400> InternalError.Algo.InvalidParameter: O parâmetro “function.arguments” do modelo de código deve estar no formato JSON."

Quando o modelo precisa acessar ferramentas especializadas, torna-se impossível conectar-se a ele. Encontramos estudos de caso semelhantes online, e a causa pode ser atribuída a "problemas do fornecedor de implantação do modelo com o formato de saída de streaming, que não é o protocolo padrão da OpenAI, portanto, não oferece suporte a chamadas de API, resultando em um erro 400".

Ao ser questionada sobre esse problema, a Codex também apontou para um problema no modelo.

Não é que você tenha configurado incorretamente; na verdade, as chamadas da API Qwen 3.7 Max / Bailian Responses para a ferramenta Codex ainda não são suficientemente estáveis. Ser capaz de se comunicar não garante o funcionamento estável do Codex. Para tarefas longas, modificações de código e leituras frequentes de arquivos, voltar a usar o modelo oficial da OpenAI será muito mais estável.

Portanto, se você também se deparar com esse problema, provavelmente só poderá esperar que a equipe do Qwen o corrija ou tentar abrir uma nova sessão.

▲ A Alibaba Cloud fornece diretrizes oficiais de solução para diferentes códigos de erro.

No ano passado, dizíamos que um modelo é um produto, e um modelo suficientemente bom é um bom produto. Agora parece que um modelo por si só está longe de ser suficiente.

À medida que as capacidades do modelo aumentam, essa arquitetura continua a se expandir, incluindo memória, Harness, orquestração de agentes, validação e a sustentabilidade da inferência. Mas somente quando tudo isso for feito bem é que poderemos dizer: "Este é um bom modelo".

#Siga a conta oficial do iFanr no WeChat: iFanr (ID do WeChat: ifanr), onde você encontrará conteúdo ainda mais interessante o mais breve possível.