É oficial! O DeepSeek V4 será o primeiro a usar um chip da Huawei! A IA nacional está começando a quebrar o “monopólio” da Nvidia.

Sexta-feira ao meio-dia costuma ser o melhor horário para planejar viagens de fim de semana. Mas a DeepSeek surpreendeu a todos, lançando oficialmente e disponibilizando o código aberto da prévia do modelo da série V4 agora mesmo.

Tudo começou com um nível de investimento altíssimo, típico do jogo, e ambos os lados contavam com milhões de tokens. Contexto:
- O DeepSeek-V4-Pro (com 49 bilhões de parâmetros de ativação) possui 1,6 trilhão de parâmetros.
- DeepSeek-V4-Flash com 284B parâmetros (13B parâmetros de ativação)
A partir de hoje, você pode experimentar o serviço no site oficial chat.deepseek.com ou no aplicativo oficial. O serviço de API também já está disponível.
DeepSeek V4 chega, trazendo uma grande comemoração para os jogadores de Agentes.
As funcionalidades do agente são o foco principal desta atualização.
O V4-Pro já é utilizado diariamente no DeepSeek como uma ferramenta de codificação agética.
O feedback dos funcionários indica que é mais fácil de usar do que o Sonnet 4.5, e a qualidade da apresentação é próxima à do Opus 4.6 no modo não reflexivo, mas ainda fica aquém do Opus 4.6 no modo reflexivo.
Os testes internos oficiais de benchmark de programação de P&D também fornecem resultados semelhantes. Em cerca de 200 tarefas de trabalho reais, executadas por mais de 50 engenheiros, a taxa de aprovação para o V4-Pro-Max é de 67%, para o Sonnet 4.5 é de 47%, para o Opus 4.5 Thinking é de 73% e para o Opus 4.6 Thinking é de 80%.

Dos 85 desenvolvedores e pesquisadores experientes que participaram da pesquisa interna, mais de 90% acreditavam que o V4-Pro já era um modelo de programação preferido ou quase preferido.
O modelo foi especificamente adaptado para produtos de agentes convencionais, como Claude Code, OpenClaw, OpenCode e CodeBuddy, resultando em melhorias tanto nas tarefas de código quanto na geração de documentação.
Em relação às chamadas de ferramentas, a série V4 introduz um novo esquema de chamadas de ferramentas formatado em XML, usando o token especial "|DSML|" para definir os limites das chamadas. A declaração oficial afirma que esse design reduz efetivamente as falhas de escape e os erros de chamadas de ferramentas, tornando-o mais confiável do que a geração anterior.

Em termos de conhecimento e raciocínio, o V4-Pro supera significativamente outros modelos de código aberto em avaliações de conhecimento global.
O SimpleQA-Verified obteve uma pontuação de 57,9, cerca de 20 pontos percentuais acima de seu concorrente de código aberto mais próximo, e apenas ligeiramente inferior aos 75,6 do Gemini-3.1-Pro. Ele superou todos os modelos de código aberto avaliados publicamente nas categorias de Matemática, STEM (Ciência, Tecnologia, Engenharia e Matemática) e Código de Competição, atingindo o nível dos melhores modelos proprietários.
No nível do modelo base, o V4-Pro-Base obteve pontuações de 90,1, 73,5, 55,2 e 51,5 nas avaliações de texto longo MMLU 5-shot, MMLU-Pro 5-shot, Simple-QA Verified 25-shot e LongBench-V2, respectivamente, superando significativamente o V3.2-Base (que obteve pontuações de 87,8, 65,5, 28,3 e 40,2, respectivamente) com contagens de parâmetros semelhantes.
Vale mencionar que a V4-Flash-Base, com menos parâmetros, também superou a V3.2-Base na maioria dos testes de benchmark, indicando que as melhorias arquitetônicas em si proporcionaram um aumento considerável de eficiência.
Na comparação horizontal de modelos de instrução, o V4-Pro Max alcançou uma pontuação de 93,5 no LiveCodeBench Pass@1 e uma classificação de 3206 no Codeforces, ambas as mais altas entre os modelos testados.

Na tabela de classificação humana do Codeforces, o V4-Pro-Max está atualmente em 23º lugar. Sua pontuação no IMO AnswerBench Pass@1 é 89,8, ficando atrás apenas do GPT-5.4, com 91,4. Sua pontuação no HMMT 2026 Feb Pass@1 é 95,2, muito próxima dos 96,2 do Opus-4.6 Max e dos 97,7 do GPT-5.4. Sua pontuação no Apex Shortlist Pass@1 é 90,2, superando todos os outros modelos comparados a ele.
Em termos de avaliação de agentes, o SWE Verified Resolved obteve uma pontuação de 80,6, que é basicamente a mesma que os 80,8 do Opus-4.6 Max.
O BrowseComp Pass@1 obteve uma pontuação de 83,4 e o MCPatlas Public Pass@1, de 73,6, ambos figurando entre os melhores modelos testados. Esses dois últimos valores demonstram que a versão 4 possui forte compatibilidade com o ecossistema de ferramentas MCP e que seu bom desempenho se estende além de sua estrutura interna.

Em testes de texto longo, o MRCR 1M MMR é 83,5 e o CorpusQA 1M ACC é 62,0, superando os 76,3 e 53,8 do Gemini-3.1-Pro, respectivamente, mas ainda ficando atrás dos 92,9 do Claude Opus 4.6 no MRCR.
Com base em dados segmentados, a capacidade de recuperação em até 128K é bastante estável, mas começa a declinar significativamente após 128K. No entanto, seu desempenho em 1M ainda supera a maioria dos modelos similares.
A escrita chinesa também é um dos pontos fortes do V4-Pro.
O modelo de referência oficial para escrita chinesa é o Gemini-3.1-Pro. Em uma avaliação funcional de escrita com 3.170 amostras, o V4-Pro teve uma taxa de acerto de 62,7%, enquanto o Gemini teve uma taxa de acerto de 34,1%.
Na escrita criativa, a V4-Pro alcançou uma taxa de sucesso de 77,5% em termos de qualidade de escrita. No entanto, ao enfrentar instruções desafiadoras ou cenários de escrita com várias rodadas, a Claude Opus 4.5 ainda mantém a vantagem, com uma taxa de sucesso de 52,0% contra 45,9%.
Não trate o Flash como uma versão "básica"; escolher a mentalidade certa é fundamental.
Muitas pessoas, ao verem as versões Pro e Flash, pensam imediatamente: "A Flash é apenas uma versão inferior".
Errado, completamente errado. A lógica de localização do DeepSeek é mais complexa, o V4-Flash tem muito menos parâmetros e ativações, e o preço da sua API é mais competitivo. Suas capacidades de inferência são muito próximas às do DeepSeek Pro, mas sua base de conhecimento mundial é ligeiramente inferior.
Para tarefas simples de agentes, não há muita diferença entre os dois. A verdadeira diferença reside em tarefas de alta dificuldade e na escolha do modo de raciocínio.
No modo Think Max, o desempenho de inferência do V4-Flash pode se aproximar significativamente do Pro: o LiveCodeBench Flash Max atinge 91,6, o Codeforces Flash Max Rating chega a 3052, o GPQA Diamond Pass@1 atinge 88,1 e o IMOAnswerBench Pass@1 atinge 88,4, com a diferença para o Pro Max sendo bastante pequena.

O Flash é usado para tarefas rotineiras, enquanto o ThinkMax é usado para tarefas mais complexas, oferecendo uma ótima relação custo-benefício.
A diferença de desempenho entre os modos é muito maior do que a diferença entre as versões. Tomando a V4-Pro como exemplo, o HLE Pass@1 melhorou de 7,7 no modo não crítico para 37,7 no modo máximo, o Apex Pass@1 de 0,4 para 38,3 e o BrowseComp Pass@1 saltou de imperceptível para 83,4. Para tarefas complexas, escolher a intensidade de processamento adequada é muito mais importante do que se preocupar com qual versão escolher.
Ambos os modelos suportam três intensidades de inferência, que podem ser alternadas usando o parâmetro reasoning_effort.
O modo "Não Pensar" oferece tempos de resposta rápidos e é adequado para tarefas leves do dia a dia; o modo "Pensar Alto" permite raciocínio lógico explícito e é adequado para problemas complexos e planejamento; o modo "Pensar Máximo" maximiza as capacidades de raciocínio e é adequado para explorar os limites superiores do modelo. A recomendação oficial é definir a janela de contexto para pelo menos 384 mil tokens e, para cenários complexos com agentes, defini-la diretamente para o máximo.
No modo ThinkMax, há uma instrução adicional inserida no início do prompt do sistema, que exige que o modelo "raciocine com a máxima força absoluta e não permita atalhos", forçando que cada etapa do raciocínio e cada hipótese rejeitada sejam explicitamente escritas.

O efeito desse design é bastante óbvio a partir dos dados, o que também explica por que o mesmo modelo apresenta desempenhos tão diferentes em modos distintos.
Milhões de contextos longos, aproveitando cada gota de cada token.
Muitos modelos estão alardeando um contexto de um milhão de tokens, mas os custos de engenharia para suportar essa escala são completamente diferentes.
O DeepSeek V4 passou por mudanças arquitetônicas significativas. O mecanismo de atenção é o núcleo dessa mudança. O cálculo de atenção tradicional aumenta quadraticamente com o comprimento da sequência, tornando-se o principal gargalo computacional quando o contexto é longo.

A versão 4 introduz dois tipos de atenção comprimida e os utiliza alternadamente. A atenção comprimida comprimida (CSA) comprime o cache chave-valor (KV) de cada m token em um único token e, em seguida, utiliza atenção esparsa para selecionar apenas k deles para computação principal; a atenção comprimida de alto desempenho (HCA) utiliza uma taxa de compressão mais agressiva para comprimir tokens em um intervalo maior em um único token, mas mantém a atenção densa.

O CSA também inclui um indexador Lightning, que usa FP4 com baixa precisão para calcular rapidamente a pontuação de relevância entre cada token de consulta e cada bloco comprimido, selecionando em seguida os k blocos mais relevantes para participar da atenção subsequente, reduzindo ainda mais a carga computacional. Para evitar a perda de detalhes locais durante a compressão, ambos os métodos de atenção introduzem uma ramificação de janela deslizante, permitindo que cada token veja seus tokens vizinhos mais próximos.
Os resultados são significativos. Em um cenário de 1 milhão de contextos, o processamento de inferência de token único do V4-Pro representa apenas 27% do V3.2, e seu uso de cache KV é reduzido para 10% do V3.2. O V4-Flash é ainda mais eficiente, com o processamento de inferência representando apenas 10% do V3.2 no mesmo cenário, e o uso de cache KV reduzido para 7%.

A declaração oficial indica que um milhão de contextos serão agora padrão em todos os serviços oficiais do DeepSeek.
É muito longo, longo, longo, longo, longo, longo, longo.
Além do mecanismo de atenção, o V4 também introduz hiperconexões com restrição de variedade (mHC) para aprimorar as conexões residuais.
As conexões residuais tradicionais adicionam diretamente os sinais entre as camadas, enquanto o mHC expande a largura do fluxo residual várias vezes e, em seguida, controla dinamicamente a mistura de sinais por meio de três conjuntos de mapeamentos lineares treináveis.
A matriz responsável pela transformação residual é restringida a um conjunto de matrizes aleatórias duplas para garantir que a norma espectral não exceda 1, tornando a propagação do sinal entre camadas mais estável.
A camada de treinamento utiliza o otimizador Muon, que atualiza os parâmetros ortogonalizando iterativamente a matriz de gradiente, acelerando assim a convergência e melhorando a estabilidade. Ele é usado em combinação com o AdamW: a maioria dos módulos utiliza o Muon, enquanto a camada de incorporação, o cabeçalho de predição e os pesos RMSnorm ainda utilizam o AdamW.
Durante o treinamento, nos deparamos com um problema de pico de perda de dados.
A DeepSeek descobriu dois métodos eficazes. O primeiro é chamado de "roteamento antecipatório", que usa os parâmetros antigos da etapa t-Δt para calcular o índice de roteamento durante a etapa de treinamento t, desacoplando as atualizações da rede principal e da rede de roteamento, quebrando assim o ciclo vicioso entre elas.
A segunda abordagem envolve truncar o componente linear da função de ativação SwiGLU, restringindo seu intervalo numérico a [-10, 10], suprimindo assim diretamente os outliers. No entanto, embora ambos os métodos sejam atualmente reconhecidos como eficazes, seus mecanismos subjacentes ainda não são totalmente compreendidos. A DeepSeek reconhece em seu artigo que essa questão requer investigação adicional.

Além disso, ambos os modelos foram pré-treinados com mais de 32 trilhões de dados de alta qualidade, incluindo diversas categorias como matemática, código, páginas da web e documentos longos. Durante a fase intermediária de treinamento, dados adicionais da agência foram incorporados para aprimorar as capacidades de análise de código.
A fase pós-treinamento emprega um paradigma de duas etapas. Primeiro, especialistas de domínio são treinados independentemente por meio de aprendizado por reforço SFT e GRPO, abrangendo múltiplas áreas como matemática, código, agentes e seguimento de instruções. Em seguida, a destilação online (OPD) integra as capacidades de cada domínio em um único modelo.
O OPD utiliza a destilação logística de vocabulário completo em vez da estimativa KL em nível de token, resultando em uma estimativa de gradiente mais estável e uma transferência de conhecimento mais completa. O custo é um aumento significativo na dificuldade de implementação de engenharia — os pesos de mais de dez modelos professores são armazenados centralmente e carregados sob demanda, e os estados da camada oculta também são armazenados em cache para evitar a sobrecarga de memória.
É claro que o Deus Fonte continua sendo o mesmo Deus Fonte!
Todas as quatro versões ponderadas agora são de código aberto e podem ser baixadas do HuggingFace ou do ModelScope.
A versão Base utiliza precisão mista FP8, a versão de instruções utiliza uma combinação de precisão FP4 e FP8, os parâmetros do especialista MoE utilizam FP4 e os demais parâmetros utilizam FP8.
A desquantização de FP4 para FP8 é sem perdas porque o FP8 (E4M3) possui dois bits de expoente a mais que o FP4 (E2M1), resultando em uma faixa dinâmica maior e na capacidade de absorver completamente as informações de quantização do FP4. Para implantação local, recomenda-se definir os parâmetros de amostragem para temperature=1.0 e top_p=1.0.
Esta versão não fornece um modelo de chat no formato Jinja. A documentação oficial disponibiliza scripts em Python e casos de teste na pasta `encoding`, explicando como codificar mensagens compatíveis com o OpenAI em strings de entrada para o modelo e como analisar a saída de texto do modelo.

Em relação ao acesso à API, as versões V4-Pro e V4-Flash foram lançadas simultaneamente, oferecendo suporte às interfaces OpenAI ChatCompletions e Anthropic. Os preços são os indicados acima; ao fazer a chamada, mantenha o base_url inalterado e altere o parâmetro model para deepseek-v4-pro ou deepseek-v4-flash.
Os nomes antigos da API, deepseek-chat e deepseek-reasoner, serão descontinuados em três meses (24 de julho de 2026). Atualmente, eles apontam para o modo não-cognitivo e o modo cognitivo do Flash V4, respectivamente. Os desenvolvedores devem concluir a migração antes do prazo. Parece que este fim de semana será agitado.
Além da arquitetura técnica, uma mudança mais notável no DeepSeek V4 é que a Nvidia deixou de ser a única opção.
Em outras palavras, a DeepSeek não deu à Nvidia ou à AMD a oportunidade de otimizar e adaptar seus produtos antecipadamente, mas, em vez disso, abriu o acesso antecipado exclusivamente para fabricantes de chips nacionais. Isso significa que os fabricantes nacionais deram um passo importante para "desvincular" seus produtos da Nvidia.
foto
A escolha da DeepSeek de fazer isso no nó V4 foi muito precisa.
O desempenho do V4 já é comparável ao de modelos proprietários de ponta. Se só pudesse ser executado em chips NVIDIA, o título de "modelo de código aberto mais poderoso da China" sempre pareceria insuficiente. Agora que roda em Ascend, essa narrativa está mais completa: o algoritmo é nosso, o código é de código aberto e o chip é produzido internamente.
Por coincidência, Jensen Huang afirmou recentemente em uma entrevista ao podcast de tecnologia Dwarkesh Patel que o DeepSeek não é um desenvolvimento trivial.

Ele também levantou a hipótese de um cenário em que o novo modelo da DeepSeek estreasse na plataforma da Huawei. Huang Renxun afirmou que esse dia seria um desfecho terrível para os Estados Unidos, pois significaria que os modelos de IA teriam sido otimizados para obter o melhor desempenho no hardware de IA chinês e, uma vez disseminados globalmente, impulsionariam a tecnologia chinesa a se tornar o padrão mundial.
A demonstração da DeepSeek da capacidade do Ascend de lidar com inferência de modelos de grande escala de alto nível, utilizando seu modelo com trilhões de parâmetros, representa um impulso significativo para todo o ecossistema de poder computacional nacional. Os principais fabricantes nacionais já estavam aumentando suas aquisições de chips Ascend, e a adaptação bem-sucedida da versão 4 fornece suporte técnico adicional para essa decisão. Outros fabricantes de chips nacionais, como Cambricon e Hygon, também serão impulsionados a acelerar seus próprios processos de adaptação de modelos de grande escala.
A escolha de um chip baseado em um modelo de código aberto de ponta está desencadeando uma reestruturação de toda a cadeia produtiva do setor.
Link para o código aberto do modelo DeepSeek-V4:
https://huggingface.co/collections/deepseek-ai/deepseek-v4
https://modelscope.cn/collections/deepseek-ai/DeepSeek-V4
Relatório técnico do DeepSeek-V4:
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf
#Siga a conta oficial do iFanr no WeChat: iFanr (ID do WeChat: ifanr), onde você encontrará conteúdo ainda mais interessante o mais breve possível.

