Após analisar o relatório do DeepSeek V4, descobri este easter egg escondido.

Esta manhã, o DeepSeek V4 foi lançado, levando este mês de grandes atualizações de modelos ao seu clímax.
Com um milhão de contextos como padrão, desempenho comparável aos modelos proprietários de ponta e sendo o primeiro a ser adaptado aos chips Huawei Ascend, qualquer um desses pontos poderia ser usado para escrever uma manchete viral.
No entanto, ao analisar o relatório técnico da versão 4, deparei-me com um termo que a maioria das pessoas ignoraria na seção de treinamento: otimizador de múons .

Por que esse termo técnico parece tão familiar?
Acontece que no Kimi 2.6, lançado há alguns dias, o otimizador Muon alcançou uma melhoria de eficiência de 2x com a mesma quantidade de treinamento e resolveu o problema de instabilidade de treinamento em uma escala de 1 trilhão de parâmetros.

Já no mês passado, Yang Zhilin subiu ao palco da NVIDIA GTC 2026 e dedicou a maior parte de seu discurso a isso. A Kimi é a primeira equipe do mundo a publicar um artigo comprovando que o Muon pode ser usado para treinar grandes modelos com trilhões de parâmetros.
(Link para o artigo interpretativo da APPSO em anexo)
Yang Zhilin afirmou: "Usar o MuonClip em vez do Adam para treinar grandes modelos Transformer produz resultados significativamente melhores." Quando implementado corretamente, a eficiência dos tokens é duplicada. Diante de um grande volume de dados, isso equivale a usar 50 trilhões de tokens para obter o efeito de 100 trilhões.
Essa tecnologia agora está incluída no esquema de treinamento do DeepSeek V4.
Voltei a analisar a arquitetura subjacente do Kimi K2 e encontrei um detalhe ainda mais interessante: ele utiliza MLA (Multi-head Latent Attention), proposto pelo DeepSeek-V3.
Os relatórios técnicos da DeepSeek levam o nome de Kimi, enquanto a base arquitetônica de Kimi leva o nome da DeepSeek . Estão interligados.
Esta é provavelmente a cena mais surreal no círculo da IA na China: duas estrelas gêmeas de código aberto, que foram repetidamente comparadas pelo mundo exterior, há muito tempo se fundiram em termos de tecnologia subjacente.
Além disso, esta não é a primeira vez que Kimi passa por uma coincidência desse tipo.
Cinco "acidentes", cinco pontos de virada.
Incluindo o V4 e o K2.6, lançados um após o outro, esta é a quinta vez que Kimi e DeepSeek "colidiram" no último ano.

▲ Imagem criada por image-2.
Cinco "colisões" poderiam ser consideradas meras coincidências se ocorressem simultaneamente. Mas, ao analisar o conteúdo de cada publicação individualmente, descobre-se um tema subjacente claro: cada colisão corresponde precisamente a um ponto de virada na indústria de IA .
A primeira vez foi a mais dramática. Às 20h10 do dia 20 de janeiro de 2025, o DeepSeek R1 foi lançado e disponibilizado totalmente em código aberto sob a licença MIT. Menos de duas horas depois, o Kimi k1.5 foi apresentado.
Ambos têm o mesmo objetivo: transformar o modelo de "falar de improviso" para "pensar antes de falar" e usar o aprendizado por reforço para executar o raciocínio em cadeia de pensamento longo do Long-CoT.
Desde então, as capacidades de código aberto da China mudaram completamente o cenário global da IA.
Mais tarde, a OpenAI destacou especificamente em um artigo que a Kimi e a DeepSeek foram as duas empresas que "reproduziram pela primeira vez o OpenAI-o1 Long-CoT". Somente essas duas empresas chinesas no mundo entenderam o que a OpenAI estava fazendo e o implementaram à sua maneira .

Esse foi o momento decisivo em que a indústria de IA da China começou a se transformar de "seguidora" em "líder".
O exemplo mais recente é de hoje. Em apenas quatro dias, o K2.6 trouxe ao SWE-Bench Pro 58,6% mais recursos de programação paralela para clusters de agentes, e a versão 4 tornou milhões de contextos padrão para todos os serviços, estendendo o comprimento da saída para 384 mil tokens.
Ambas as empresas estão avançando simultaneamente na adaptação a chips nacionais: a V4 dará suporte ao Huawei Ascend 950 no segundo semestre do ano, e a Cambricon já concluiu a adaptação do Dia 0; a K2.6 oferece suporte à inferência híbrida para chips nacionais.
Capacidades dos agentes, limite de programação, milhões de contextos, adaptação de chips nacionais, ecossistema de código aberto — tudo isso está disponível.
Desde "aprender a pensar" até "aprender a fazer", desde "modificar o Transformer" até "modificar a base de poder computacional", as cinco colisões demonstram que a IA chinesa não está mais imitando cegamente a OpenAI, tornando-se gradualmente menos dependente da Nvidia e trilhando seu próprio caminho no código aberto.
A inevitabilidade por trás do acidente de carro
Embora a coincidência do lançamento do mesmo carro seja interessante, o que merece mais atenção é a inevitabilidade por trás dessa coincidência.
Vamos voltar ao Muon na arquitetura DeepSeek.
Em sua apresentação na GTC, Yang Zhilin mencionou um desafio técnico: quando Kimi escalou o Muon para 1 trilhão de parâmetros, a instabilidade do treinamento tornou-se um grande obstáculo. Os logits máximos explodiram para mais de 1000, enquanto o intervalo normal era de apenas 50 a 100.

A perda inicialmente diminuiu, mas depois aumentou drasticamente, tornando a convergência impossível. A solução encontrada foi o QK-Clip, que calcula o valor máximo de poda logit para cada cabeça de atenção, limitando as consultas e chaves a um intervalo razoável. A perda de treinamento permaneceu inalterada, mas o problema de estabilidade desapareceu.
O modelo K2 foi treinado usando essa técnica, estabelecendo um recorde para o maior treinamento de múons na história do aprendizado de máquina.
No relatório técnico do DeepSeek V4, o Muon é mencionado diretamente no esquema de treinamento. A maioria dos módulos usa o Muon para acelerar a convergência, enquanto a camada de incorporação e o cabeçalho de predição ainda usam o AdamW, de forma mista. Isso é uma referência direta às inovações subjacentes do Kimi.

Em contrapartida, a arquitetura subjacente do Kimi K2 adota a Atenção Latente Multi-cabeças (MLA) proposta pelo DeepSeek-V3. A Atenção Latente Multi-cabeças, que reduz significativamente os custos de inferência ao comprimir o cache de chave-valor, é uma das principais inovações arquitetônicas do V3.
Seu artigo se tornou minha infraestrutura, e minha inovação se tornou sua base . Uma conquista mútua, como consta na lista de citações.
No Vale do Silício, isso raramente acontece. A tecnologia entre a OpenAI e a Anthropic funciona como um "fosso", ocultando-se sempre que possível. Mas uma relação mais primitiva e saudável surgiu entre Kimi e DeepSeek: um ciclo positivo dentro da comunidade de código aberto .
Kimi e DeepSeek estiveram entre os primeiros desenvolvedores chineses a disponibilizar modelos com trilhões de parâmetros em código aberto, e ambos acreditam na Lei de Escala. Tecnicamente, a DeepSeek se destaca em modelos de inferência, enquanto a Kimi é conhecida por suas capacidades de agentes.
Em termos de arquitetura subjacente, ambas as empresas estão desafiando o mesmo conjunto de infraestruturas "antigas". A Kimi publicou um artigo sobre "resíduos de atenção", e a DeepSeek implementou conexões residuais mHC, ambas modificando os métodos de conexão residual herdados da era ResNet.
Na faixa de texto longo, Kimi explora a atenção linear (Kimi Linear), enquanto DeepSeek explora a atenção esparsa (DSA), convergindo, em última análise, para o mesmo objetivo.
Assim, quando colidem, é menos uma coincidência e mais uma convergência inevitável na mesma direção.
Utilizando chips chineses, executando modelos chineses e disponibilizando-os em código aberto para o mundo.
Na plataforma OpenRouter, Kimi e DeepSeek figuram consistentemente entre os dois modelos mais utilizados na China.
O Cursor integra-se com o Kimi, e o Rakuten AI 3.0 foi desenvolvido com base no DeepSeek. Ser "encapsulado" por produtos estrangeiros era uma vergonha há dois anos, mas agora é motivo de orgulho.
Quando a Meta lançou seu novo modelo, o Muse Spark, a comparação de desempenho feita no blog oficial colocou Kimi e DeepSeek lado a lado com GPT-4 e Claude. Na GTC da NVIDIA, Jensen Huang usou esses dois modelos chineses para demonstrar o desempenho do chip.
Além do reconhecimento internacional, o desenvolvimento de chips no mercado interno é ainda mais notável. Com o fornecimento de chips H2O interrompido por um ano, chips de inferência de ponta produzidos internamente são a única opção no curto prazo. Ambas as empresas estão trabalhando simultaneamente no mesmo objetivo: fazer com que modelos chineses funcionem em chips chineses.

Na semana passada, Jensen Huang disse em uma entrevista em podcast: " Se o DeepSeek tivesse sido lançado primeiro na plataforma da Huawei, teria sido assustador para nós. "
Hoje, a V4 lançou oficialmente sua primeira compatibilidade com o Huawei Ascend. A equipe de engenharia migrou toda a pilha de tecnologia de CUDA para o framework Huawei CANN, implementando quase todas as camadas do zero, desde bibliotecas de operadores e primitivas de comunicação até gerenciamento de memória. A atenção híbrida da V4, o paralelismo especialista MoE e o treinamento de quantização FP4 foram todos implementados do zero. A Cambricon também concluiu a compatibilidade completa da inferência vLLM para a V4 no primeiro dia, e o código agora é de código aberto.
As palavras de Huang Renxun provaram ser proféticas.
A Kimi está há muito tempo empenhada em desenvolver chips produzidos internamente. Para pavimentar o caminho para a produção nacional de chips, a Kimi destacou duas características inovadoras em sua arquitetura.
A arquitetura de atenção híbrida do Kimi Linear combina camadas de atenção linear e camadas de atenção completa em uma proporção de 7:1, comprimindo o tamanho do cache de chave-valor a um nível extremamente baixo. Os dados de testes em situações reais são bastante reveladores: em um contexto de 32K, o modelo de arquitetura híbrida atinge uma taxa de transferência de chave-valor de apenas 4,66 Gbps, em comparação com um modelo mais denso da mesma escala que alcança 59,93 Gbps.

A demanda por transmissão com buffer KV foi reduzida ao nível que o Ethernet comum consegue suportar, e as redes RDMA de alta velocidade passaram de uma opção "obrigatória" para uma opção "opcional".
Com base nisso, Kimi, em colaboração com a Universidade de Tsinghua, publicou o artigo PrFaaS (Prefill as a Service), que desacopla completamente as fases de Prefill e Decode da inferência e as agenda em diferentes clusters de hardware heterogêneos. Testes em situações reais mostraram um aumento de 54% na taxa de transferência e uma redução de 64% na latência da primeira palavra.
Essa abordagem rompe com a premissa de que "a inferência de modelos grandes deve estar vinculada à mesma GPU de ponta": placas produzidas nacionalmente com forte poder de computação são usadas para o pré-preenchimento, e placas produzidas nacionalmente com forte largura de banda são usadas para a decodificação, cada uma desempenhando sua própria função.

A DeepSeek provou com a V4 que chips produzidos internamente podem executar modelos de ponta com trilhões de parâmetros, enquanto a Kimi provou com inovação arquitetônica que chips produzidos internamente podem funcionar bem e com eficiência.
Uma abordagem trata do problema sob a perspectiva da adaptação em engenharia, enquanto a outra o aborda sob a perspectiva do projeto arquitetônico. O objetivo final é o mesmo: fazer com que a Nvidia deixe de ser a única opção .
A narrativa anterior sobre IA doméstica era "usar placas da Nvidia para seguir modelos da OpenAI". Agora, essas duas estrelas gêmeas estão escrevendo simultaneamente um novo roteiro: usar chips chineses para executar modelos chineses e atender desenvolvedores do mundo todo .
Seu MLA é minha base, meu Muon é seu acelerador.
Ao analisarmos as novidades surpreendentes no setor de IA nesta semana, chegamos a um novo ponto de virada.
Na mesma semana, duas equipes chinesas lançaram modelos de código aberto com trilhões de parâmetros, alcançando desempenho próximo ou até mesmo equivalente ao de modelos proprietários de ponta dos Estados Unidos. Isso seria inimaginável há um ano.
Quando o preço de um modelo de código fechado é 50 vezes maior que o de um modelo de código aberto, e o grupo defensor do código aberto lança um novo concorrente com um trilhão de parâmetros a cada poucos meses, o equilíbrio competitivo está mudando sutilmente.
Não se trata simplesmente de "vencer" ou "superar". Os modelos de código fechado ainda possuem vantagens significativas em raciocínio complexo e confiabilidade do sistema, e os padrões de pensamento do Opus 4.6 continuam sendo o objetivo que o V4-Pro busca alcançar. No entanto, a velocidade, as vantagens de custo e o alcance do ecossistema do código aberto estão mudando as próprias regras dessa competição.
Além desses cinco lançamentos simultâneos, há outra coincidência entre as duas empresas. Liang Wenfeng é de Zhanjiang, Guangdong, e Yang Zhilin é de Shantou, Guangdong. Esses dois nativos de Guangdong são pilares da comunidade global de IA de código aberto .

Liang Wenfeng é como um engenheiro-filósofo, que acredita em código aberto e inovação fundamental. O anúncio do lançamento da versão 4 termina com uma citação de Xunzi: "Não se deixe seduzir pelos elogios, não tema a calúnia, siga o Caminho e corrija-se com retidão."

Quanto a Yang Zhilin, ele me parece um cientista de produto. Ele acredita que a experiência do usuário e os avanços tecnológicos podem coexistir. Quando o K2.6 foi lançado, ele citou Linus Torvalds, o pai do Linux, dizendo: "Falar é fácil. Mostre-me o código."
Um é um classicista, o outro um nerd. Esses dois fundadores, com seus estilos contrastantes, juntos definiram a posição do modelo de código aberto da China no cenário global.
Seu MLA é minha base, e meu Muon é seu acelerador. Este é provavelmente um dos principais motivos pelos quais a China conseguiu liderar o mundo em IA de código aberto em tão pouco tempo .
#Siga a conta oficial do iFanr no WeChat: iFanr (ID do WeChat: ifanr), onde você encontrará conteúdo ainda mais interessante o mais breve possível.


