A DeepSeek pretende usar a estratégia da Mixue Ice Cream para criar uma versão chinesa do Claude Code.

maio 26, 2026 gurinho

DeepSeek é para modelos de grande porte o que Mixue Ice Cream é para chá com leite. Você não precisa se preocupar com custo-benefício, pois suas capacidades são impecáveis e nunca pesarão no seu bolso.

Recentemente, a DeepSeek anunciou oficialmente uma redução permanente no preço de sua API DeepSeek-V4-Pro. A DeepSeek também afirmou que a API passou por melhorias na velocidade de saída e expansão de serviços, resultando em velocidades mais rápidas, serviço mais estável e suporte padrão para 500 conexões simultâneas. Usuários corporativos podem solicitar níveis de simultaneidade mais altos online.

O modelo de referência para preços de APIs de modelos grandes está sendo reescrito: libere o modelo, ofereça um desconto, reduza o preço por acesso ao cache e, finalmente, transforme a oferta temporária em um preço permanente. O próximo passo após modelos de baixo custo provavelmente será o Agente.

DeepSeek reduz permanentemente o preço do token; Liang Wenfeng reduziu drasticamente o preço do token.

Vamos primeiro revisar brevemente a cronologia das reduções de preço do DeepSeek:

No dia 24 de abril, a versão de pré-visualização do DeepSeek V4 foi oficialmente lançada.
No dia 25 de abril, a DeepSeek anunciou um desconto de 25% no V4-Pro.
Em 26 de abril, a DeepSeek anunciou que o preço por acerto no cache seria ajustado para um décimo do preço inicial.
Em 28 de abril, a DeepSeek anunciou que o desconto de 25% no V4-Pro seria estendido até 31 de maio.
Em 22 de maio, a DeepSeek anunciou uma redução permanente no preço do V4-Pro, reduzindo-o para um quarto do preço original.

O ponto crucial na linha do tempo é que o desconto temporário se tornou uma redução de preço permanente. Após o ajuste, o preço por acerto no cache de entrada do DeepSeek-V4-Pro diminuiu de 0,1 yuan por milhão de tokens para 0,025 yuan, e o preço por falha no cache de entrada diminuiu de 12 yuan por milhão de tokens para 3 yuan.

O preço de saída foi reduzido de 24 yuans por milhão de tokens para 6 yuans. Combinado com as 500 conexões simultâneas padrão e a aceleração do serviço, a API oficial torna-se ainda mais atraente para desenvolvedores e empresas.

▲ https://api-docs.deepseek.com/zh-cn/quick_start/pricing

O impacto mais direto da redução de preços é que ela torna os custos das tarefas um fator mais imediato no processo de tomada de decisão dos desenvolvedores.

Em um cenário baseado em código, uma única tarefa pode envolver a leitura de arquivos de projeto, a análise de logs, a realização de múltiplas rodadas de modificações e a execução repetida de testes, o que pode facilmente amplificar o consumo de tokens.

Cenários de alto consumo, como contextos longos, análise de código-fonte, refatoração em lote, testes automatizados e execução de agentes em várias rodadas, estão se tornando mais acessíveis a desenvolvedores individuais e pequenas equipes, dentro de seus orçamentos.

No passado, os desenvolvedores escolhiam Claude, OpenAI ou Gemini principalmente com base nas capacidades do modelo, estabilidade, ecossistema e hábitos do usuário. O preço permanente drasticamente reduzido do DeepSeek significa que os hábitos de uso dos desenvolvedores podem mudar facilmente diante de uma relação custo-benefício absoluta.

Seguindo essa linha de raciocínio, o papel consistente da DeepSeek no mercado fica mais claro: construir continuamente uma vantagem de preço no mercado de modelos de grande porte por meio de preços baixos, código aberto e fortes recursos de inferência. Para os fabricantes de modelos nacionais, a redução permanente de preço da versão 4-Pro equivale a redefinir a linha de preços da API.

Modelos como Zhipu, MiniMax e Lunar Dark Side, que também dependem de taxas de API e têm como alvo desenvolvedores e clientes corporativos, estão enfrentando uma pressão considerável. Em contrapartida, modelos líderes internacionais como Claude, OpenAI e Gemini estão sofrendo um impacto relativamente limitado no curto prazo devido a diferenças de mercado, estrutura de clientes e posicionamento no ecossistema.

No entanto, se a DeepSeek lançar posteriormente uma ferramenta de codificação semelhante ao Claude Code e oferecer suporte a chamadas de alta frequência com custos de token baixos, os desenvolvedores sensíveis ao preço serão mais facilmente atraídos.

A explicação anterior de Liang Wenfeng sobre a filosofia de preços da DeepSeek ainda é compreensível hoje em dia.

Em 2024, quando o DeepSeek V2 reduziu seu preço, Liang Wenfeng mencionou que a DeepSeek simplesmente opera em seu próprio ritmo, calculando os custos e definindo os preços de acordo, com o princípio de não perder dinheiro nem obter lucros exorbitantes. Ele também disse que a redução de preço se devia em parte à redução de custos resultante da exploração da estrutura do modelo de próxima geração e em parte ao fato de que APIs e IA devem ser inclusivas e acessíveis a todos.

Em vez de usar APIs como uma fonte de receita de alta margem, a DeepSeek parece estar utilizando seus robustos recursos de infraestrutura para reduzir os custos de inferência e, em seguida, atrair desenvolvedores, aplicativos e o ecossistema subsequente para sua plataforma com preços baixos.

Em um artigo recente intitulado "A grande estratégia de 10 trilhões de dólares da DeepSeek", o blogueiro @bookwormengr na plataforma X ofereceu uma explicação mais radical.

Ele acredita que o verdadeiro objetivo da DeepSeek não é necessariamente competir com a Zhipu, a Lunar Dark Side e a MiniMax, nem se apressar para concluir suas linhas de produtos, como multimodal, voz e vídeo. Em vez disso, busca promover a formação de um ecossistema de hardware de IA mais barato e descentralizado, reduzindo continuamente os requisitos de recursos para treinamento e inferência.

Em sua visão, o valor a longo prazo do DeepSeek reside não apenas no modelo em si, mas também em permitir que mais dispositivos de armazenamento, GPUs, ASICs, chips de rede e hardware heterogêneo produzidos internamente entrem no sistema de treinamento e inferência de modelos em larga escala.

Essa previsão pode não se concretizar totalmente, mas explica a direção por trás da série de escolhas da DeepSeek:

À primeira vista, MoE, MLA, DSA, GRPO, RLVR, compressão de cache KV, Dual Path e TileLang são otimizações de arquitetura de modelos e engenharia de inferência. Mas, analisando mais a fundo, todas elas visam reduzir a dependência de memória HBM de alto desempenho, GPUs de ponta e do ecossistema CUDA.

Dentre a série de anúncios de redução de preços, o mais notável não é apenas a diminuição do preço de saída, mas também a redução do preço por acesso ao cache.

Na inferência de modelos em larga escala, o cache de chave-valor (KV) é um item de custo crítico. Quando o modelo processa contextos longos, ele precisa armazenar a chave e o valor correspondentes aos tokens históricos para uso repetido em gerações subsequentes. Quanto maior o contexto, mais cache precisa ser salvo e recuperado, e maior a pressão sobre a memória da GPU, a largura de banda e os sistemas de armazenamento.

Em conversas comuns, a pressão do cache pode não ser óbvia, mas a estrutura de custos muda rapidamente ao lidar com código, documentos longos e tarefas de agentes. @bookwormengr calculou especificamente o custo do cache de chave-valor em um artigo extenso.

Com base em um contexto de 1 milhão de tokens, precisão KV de 8 bits e precisão de índice de 16 bits, ele estimou que o DeepSeek V4 requer aproximadamente 5,48 GB de HBM, enquanto o GLM5 requer aproximadamente 60 GB e o Qwen3-235B-A22B requer aproximadamente 89 GB.

O custo real de tarefas longas de contexto e de agentes não se resume apenas à geração do modelo em si, mas também ao armazenamento em cache, à memória da GPU, à largura de banda e ao gerenciamento repetido do contexto.

Quando um agente de código processa um projeto, ele pode ler repetidamente a mesma estrutura de código-fonte, o mesmo lote de arquivos, o mesmo histórico de tarefas, o mesmo conjunto de prompts do sistema e o mesmo lote de logs de teste. Se cada rodada for cobrada novamente com base no contexto completo, tarefas longas rapidamente se tornarão caras. Após a redução do custo dos acertos de cache, o custo da repetição de contextos diminuirá significativamente.

O investimento contínuo da DeepSeek na arquitetura MoE, no contexto longo, na compressão de cache KV e na eficiência de inferência nos últimos anos tem produzido resultados notáveis. A redução de preços é uma consequência inevitável da iteração tecnológica e irá revolucionar completamente o mercado de programação de IA.

Por que é necessário criar uma versão chinesa do "Código Claude"?

Os primeiros a serem afetados serão os modelos de assinatura para ferramentas de programação de IA.

A maioria das ferramentas de programação de IA mais populares do mercado oferece assinaturas mensais de planos de codificação, proporcionando aos usuários benefícios como preenchimento automático de código, invocação de modelos e execução de agentes. Na era do preenchimento automático de código simplificado, o custo por invocação é extremamente baixo.

No entanto, a programação de IA evoluiu de iterações de conclusão única para codificação automatizada por agentes em todo o processo. O modelo pode concluir de forma independente a modificação do código, a execução de testes e a correção de erros, aumentando significativamente o consumo de tokens por tarefa.

Quando as APIs subjacentes também sofrem reduções significativas de preço, o Coding Plan precisa encontrar novas formas de suporte. É mais provável que esse suporte venha de capacidades de engenharia — por exemplo, a capacidade de compreender melhor a estrutura do projeto, selecionar contextos com precisão, controlar o consumo de tokens, modificar o código de forma confiável, lidar com Git, terminais, CI/CD e gerenciar permissões e logs de auditoria em um ambiente corporativo.

Os intermediários de API também precisam ser reposicionados. Para desenvolvedores individuais, acessibilidade e facilidade de uso continuam sendo importantes. Mas para empresas, estabilidade, auditabilidade, controlabilidade e portabilidade são ainda mais cruciais.

Seguindo essa linha de raciocínio, as alterações no Plano de Codificação e na estação de transporte público são meramente superficiais. Além dos preços mais baixos, a questão mais premente é: quem controla, em última instância, o ponto de acesso do incorporador?

Em uma entrevista recente ao Hard Fork, o CEO do Google, Sundar Pichai, reconheceu publicamente pela primeira vez que o Google é muito competitivo em texto, multimodalidade, voz, raciocínio e inteligência em geral, mas ainda está atrás em recursos como programação automatizada, especialmente na invocação de ferramentas, seguimento de instruções e tarefas de ciclo longo.

Ele também mencionou que, mais importante, trata-se de colocar o modelo em aplicações do mundo real, permitindo que os dados fluam de volta e continuem a iterar. Pichai observou especificamente que a programação é uma área que exige o trabalho com fluxos de dados.

As ferramentas de terminal podem mostrar como os desenvolvedores propõem tarefas, fazem perguntas de acompanhamento, aceitam sugestões, abandonam tarefas e solicitam melhorias adicionais ao modelo. Elas também podem determinar se a execução de um agente concluiu sua tarefa com base em resultados de testes, registros do terminal, alterações de arquivos e commits do Git. Esse tipo de dado é extremamente valioso para a codificação de modelos e produtos de agentes.

A julgar pelas suas atividades públicas de recrutamento, a DeepSeek tem-se tornado recentemente mais ativa nas suas atividades relacionadas com agentes.

Também podemos ver funções como Pesquisador de Algoritmos de Aprendizado Profundo para Agentes, Engenheiro de Estratégia de Dados para Agentes, Gerente de Produto e Engenheiro de P&D aparecendo nos anúncios de emprego. Mais importante ainda, Chen Deli, Pesquisador Sênior da DeepSeek, publicou um anúncio de emprego mencionando que construiria o Code Harness do zero.

Como o próprio nome indica, Modelo + Harness = Agente. Em produtos com Agentes, o modelo é responsável pela compreensão e geração de informações, enquanto o Harness é responsável por integrar as capacidades do modelo ao ambiente de engenharia real, que é equivalente ao "sistema de execução" externo ao modelo.

A versão DeepSeek do Claude Code não deve apenas fornecer aos desenvolvedores uma caixa de diálogo, mas sim um sistema de engenharia capaz de executar tarefas continuamente.

A atenção que Cui Tianyi recebeu após ingressar na DeepSeek também está relacionada aos atributos de engenharia do Code Agent.

Informações públicas mostram que Cui Tianyi se formou no Departamento de Ciência da Computação da Universidade de Zhejiang. Ele foi admitido na Universidade de Zhejiang por meio de um concurso de ciência da computação e ganhou seis vezes a medalha de ouro no Concurso Regional Asiático da ACM. Em seguida, trabalhou na Jane Street por nove anos e foi cofundador da TSY Capital.

O desafio do Code Agent reside não apenas na geração de código, mas também na sua capacidade de executar tarefas continuamente em projetos do mundo real. Os sistemas de negociação quantitativa há muito enfatizam baixa latência, estabilidade, execução automatizada e controle de risco; essas experiências, pelo menos em termos de paradigma de engenharia, são aplicáveis ao Agent Harness.

As funcionalidades das ferramentas Agent vão além da simples escrita de código; elas também incluem permissões, auditoria, isolamento de dados e políticas de segurança.

Isso, por sua vez, oferece uma oportunidade para modelos nacionais como o DeepSeek. Se o DeepSeek conseguir combinar modelos de baixo custo, estrutura de código, implantação local e controle de acesso de nível empresarial, terá um valor alternativo mais forte em setores sensíveis a dados, como governo, finanças, manufatura e energia.

A lógica da DeepSeek ao criar uma versão chinesa do Claude Code reside no seguinte: tokens de baixo custo atraem mais desenvolvedores; baixos custos de cache reduzem os custos de execução de tarefas do agente; o recurso de código integra os modelos ao ambiente de desenvolvimento; e fluxos de trabalho reais, por sua vez, ajudam a DeepSeek a aprimorar seus modelos e produtos.

Como uma bola de neve rolando ladeira abaixo, ela fica maior e mais rápida a cada rolagem. A redução de preços é apenas o primeiro empurrão que a faz rolar ladeira abaixo; depois disso, ela continuará rolando cada vez mais pesada, e ninguém poderá pará-la.

#Siga a conta oficial do iFanr no WeChat: iFanr (ID do WeChat: ifanr), onde você encontrará conteúdo ainda mais interessante o mais breve possível.