Musk aprovou! O artigo de Kimi abalou os “alicerces ancestrais” dos modelos em larga escala.

Com a mesma capacidade computacional e os mesmos dados, por que os resultados são diferentes? A intuição da maioria das pessoas é: modelos maiores, dados melhores e engenheiros mais qualificados. Mas Kimi deu uma resposta mais inesperada.

Em 16 de março, Kimi, o Lado Escuro da Lua, divulgou um importante relatório técnico intitulado "Resíduos de Atenção".

Essa técnica modifica a estrutura de conexão residual usada em quase todos os grandes modelos modernos, e experimentos mostraram que, com a mesma quantidade de poder computacional, o modelo treinado pelo novo método atinge o mesmo efeito que o modelo de referência, que requer 1,25 vezes mais poder computacional.

Como era de se esperar, o relatório recebeu elogios e apoio de muitas figuras importantes da inteligência artificial no Vale do Silício após seu lançamento.

▲Endereço do projeto de código aberto no GitHub: github.com/MoonshotAI/Attention-Residuals

Por exemplo, Musk afirmou nas redes sociais que o "trabalho impressionante de Kimi" foi uma conquista fundamental. Jerry Tworek, o principal inventor do OpenAI o1, chamou isso de início do "Aprendizado Profundo 2.0".

O ex-cofundador da OpenAI, Andrej Karpathy, disse: "Parece que ainda não compreendemos totalmente o significado literal de 'Atenção é tudo o que você precisa'". Mas mais notáveis ​​do que esses elogios são os sinais por trás dos artigos técnicos: o paradigma mais fundamental do aprendizado profundo está mudando.

A fundação, que não havia sido mexida por dez anos, foi transferida.

Nos últimos dois anos, a competição entre os grandes modelos se desenrolou principalmente na "superestrutura": variantes de atenção aprimoradas, estratégias de roteamento de MoE mais inteligentes e métodos de alinhamento mais sofisticados. Todos estão se dedicando à decoração de alto nível do edifício Transformer.

Há um aspecto que permaneceu praticamente intocado desde a publicação do artigo sobre a ResNet em 2015: as conexões residuais.

Para entender essa tecnologia, você precisa primeiro conhecer a estrutura básica interna do modelo maior.

Os modelos modernos de grande escala são, na verdade, compostos por muitas camadas de redes neurais empilhadas, variando de dezenas a centenas de camadas. A informação é inserida na camada inferior e transmitida para as camadas superiores, com cada camada processando a informação e, finalmente, apresentando o resultado na camada superior.

Você pode pensar nisso como trabalhadores em uma linha de montagem: as matérias-primas chegam do primeiro processo, cada trabalhador as processa, depois elas são passadas para o próximo e, finalmente, o produto acabado é produzido. O problema é que, quanto mais longa a linha de montagem, mais difícil é treinar os trabalhadores.

Suponha que um trabalhador no 50º processo cometa um erro e você queira corrigi-lo. Esse "sinal de correção" precisa ser transmitido de volta por 49 trabalhadores antes de chegar ao primeiro trabalhador. À medida que o sinal é transmitido, ele desaparece, e os trabalhadores na parte inferior da cadeia não têm ideia de onde ocorreu o problema.

Para viabilizar o treinamento de redes profundas desse tipo, a equipe do renomado pesquisador Kaiming He publicou um artigo em 2015 intitulado "Aprendizado Residual Profundo para Reconhecimento de Imagens", apresentando um conceito fundamental chamado Conexões Residuais:

Cada camada, ao processar informações, também mantém um "caminho direto" que adiciona a entrada original ao resultado processado sem modificação antes de propagá-lo para baixo. Esse caminho direto permite que o gradiente ignore transformações intermediárias durante a retropropagação e flua de volta até a camada inferior, resolvendo fundamentalmente o problema da dificuldade de treinamento de redes profundas.

Em termos simples, isso significa adicionar um "caminho direto" ao lado de cada etapa do processo, permitindo que as matérias-primas ignorem essa etapa e sejam diretamente incorporadas aos resultados processados ​​antes de serem transmitidas adiante na linha. Dessa forma, os sinais de correção de erros podem retornar suavemente à camada inferior ao longo do caminho direto, sem se perderem.

Este artigo tornou-se posteriormente um dos mais citados em visão computacional e até mesmo em todo o campo do aprendizado profundo. Conexões residuais ainda são usadas hoje e são a base de quase todos os grandes modelos.

Embora as conexões residuais sejam úteis, seu método de agregação de informações é muito rudimentar: elas somam as saídas de todas as camadas anteriores com o mesmo peso, sem qualquer distinção.

Vamos usar novamente a analogia da linha de montagem. Na 51ª etapa, o trabalhador recebe uma quantidade igual da produção das 50 etapas anteriores, sendo que a produção de cada etapa representa uma porção, nem mais nem menos. Ele não pode dizer: "Quero mais matéria-prima da 3ª etapa", nem pode dizer: "A produção da 20ª etapa é inútil para mim, me dê menos".

Isso leva a um problema prático chamado diluição da pré-norma: à medida que a rede se torna mais profunda e a quantidade de informações acumuladas aumenta, a contribuição de cada camada torna-se cada vez mais insignificante no vasto total. Quanto mais posterior a camada, maior deve ser a saída para ser "ouvida", ou será abafada.

Como resultado, muitas camadas intermediárias não estão desempenhando suas funções adequadamente. Pesquisas existentes constataram que a remoção de um número significativo de camadas de modelos grandes praticamente não altera o desempenho, indicando que a contribuição dessas camadas é, na verdade, extremamente limitada.

A maioria das equipes já está ciente desse problema há algum tempo e optou por contorná-lo, adicionando melhores proporções de dados, estratégias de treinamento mais sofisticadas e janelas de contexto mais longas às suas arquiteturas existentes. Esse trabalho é certamente valioso, mas é essencialmente uma otimização incremental dentro de uma estrutura técnica já existente.

Kimi escolheu um caminho mais solitário e difícil: retornar à estrutura mais básica e reexaminar aqueles projetos "dados como certos" usando princípios fundamentais.

No início desta manhã, o fundador da Kimi, Yang Zhilin, mencionou em seu discurso na GTC 2026: "Muitos dos padrões técnicos atualmente usados ​​no setor são essencialmente produtos de oito ou nove anos atrás e estão gradualmente se tornando gargalos para a escalabilidade."

Yang Zhilin acredita que, para ultrapassar continuamente o limite superior da inteligência de modelos de grande escala, é necessário reconstruir os fundamentos subjacentes, como otimizadores, mecanismos de atenção e conexões residuais.

Uma "rotação" elegante

A principal inovação do artigo da equipe de Kimi, na verdade, vem de uma descoberta de analogia elegante.

As primeiras redes neurais recorrentes (RNNs) também apresentavam um problema adicional semelhante no processamento de sequências de texto: memória deficiente. Após a leitura de uma passagem inteira, o conteúdo lido anteriormente era continuamente sobrescrito pelo conteúdo posterior e, ao chegar à última palavra, o conteúdo das frases anteriores já estava indistinto.

Posteriormente, o Transformer resolveu esse problema com um mecanismo de atenção, que equivale a fornecer ao modelo uma "nota de texto completo". Ao processar cada palavra, ele pode voltar e procurar qualquer palavra que tenha aparecido antes, e onde e quantas palavras procurar são determinados pelo próprio conteúdo atual.

Pesquisadores descobriram que os problemas encontrados pelas conexões residuais na direção da profundidade e os problemas encontrados pelas RNNs na direção do tempo têm exatamente a mesma estrutura matemática. Em outras palavras, imagine o Transformer como uma malha bidimensional:

O eixo horizontal representa a direção da sequência, da esquerda para a direita, cada palavra em uma frase; o eixo vertical representa a direção da profundidade, da camada inferior para a camada superior da rede. Os mecanismos de atenção tradicionais funcionam ao longo do eixo horizontal, verificando informações sobre outras palavras na mesma camada ao processar uma palavra específica.

O que o Attention Residuals faz é simplesmente rotacionar o mesmo mecanismo para o eixo vertical. Ao processar uma determinada camada, ele consulta a saída de todas as camadas precedentes para determinar a quais camadas se referir e quantas delas. O objeto de operação muda de "palavras diferentes na mesma camada" para "o estado da mesma palavra em camadas diferentes". O mecanismo em si é exatamente o mesmo, como se a direção tivesse sido rotacionada em 90 graus.

Como o mecanismo de atenção resolve o problema da orientação da sequência, rotacioná-lo na direção da profundidade funciona igualmente bem.

Eis uma descoberta teórica mais profunda que vale a pena mencionar. Pesquisadores, por meio de análises matemáticas, descobriram que todas as melhorias nas conexões residuais na última década — incluindo resíduos padrão, redes Highway, mHC e várias variantes — são formas matematicamente diferentes da mesma coisa, todas equivalentes a uma espécie de "atenção linear orientada à profundidade". Em outras palavras, todos estavam trabalhando na mesma direção, mas simplesmente não percebemos isso na época.

A ideia central do AttnRes é transplantar o mecanismo de atenção da dimensão de "processamento de sequências de texto" para a dimensão de "atravessar a profundidade da rede".

A abordagem específica consiste em equipar cada camada com um pequeno "vetor de consulta", semelhante a atribuir uma lista de demandas aos trabalhadores em cada processo. Antes de iniciar o trabalho, os trabalhadores usam a lista de demandas para revisar a produção de todos os processos anteriores, calcular um conjunto de índices de utilização com base na relevância e, em seguida, misturar as matérias-primas necessárias de acordo com esse índice.

Dessa forma, cada camada deixa de receber passivamente a soma ponderada das saídas de todas as camadas anteriores e passa a decidir ativa e seletivamente de quais camadas extrair e quanta informação, sendo que as proporções também se alteram dinamicamente de acordo com o conteúdo da tarefa atual. Cada camada adiciona apenas um vetor e uma operação de normalização, e o aumento no número de parâmetros é praticamente insignificante para todo o modelo.

Para garantir a estabilidade nos estágios iniciais do treinamento, esse vetor de consulta deve ser inicializado com todos os valores zerados. Isso equivale a permitir que os trabalhadores não tenham preferências no início e tratem todas as saídas anteriores da mesma forma, para que possam gradualmente formar seus próprios julgamentos à medida que o treinamento progride.

Vale ressaltar que os pesquisadores também testaram uma versão mais radical: em vez de usar parâmetros fixos, o vetor de consulta foi gerado dinamicamente com base na entrada atual em cada camada. Essa versão apresentou um desempenho melhor, com o valor da perda diminuindo ainda mais.

No entanto, essa abordagem acabou não sendo adotada porque exige acesso sequencial à memória durante a inferência, o que aumentaria a latência. Essa compensação reflete a filosofia de engenharia que permeia todo o artigo: uma solução teoricamente melhor não é necessariamente a que deve ser escolhida na prática.

Todas as novas tecnologias para modelos em grande escala eventualmente precisam superar esse obstáculo.

O Full AttnRes funciona bem em experimentos de pequena escala, mas apresenta problemas quando se trata de treinamento em larga escala.

Isso exige que cada camada acesse as saídas de todas as camadas anteriores. O modelo possui mais de cem camadas, e a saída de cada camada precisa ser armazenada na memória e transferida entre diferentes nós de computação. A sobrecarga de memória e comunicação aumenta linearmente com o número de camadas, o que é simplesmente insustentável para modelos grandes.

A solução da equipe de Kimi é muito prática: Block AttnRes. Eles dividem todas as camadas da rede em vários blocos (8 a 9 blocos no modelo 48B, cada bloco com aproximadamente 6 camadas). Conexões residuais tradicionais são usadas dentro de cada bloco, enquanto a atenção softmax é usada entre os blocos. Simplificando, não é necessário um elevador em cada andar; uma passagem rápida entre os andares principais é suficiente.

Dessa forma, a quantidade de dados que precisa ser salva e transmitida é reduzida do "número total de camadas" para o "número de blocos", diminuindo significativamente a sobrecarga. Experimentos mostraram que dividir os dados em aproximadamente 8 blocos preserva a maior parte da melhoria de desempenho do método em escala completa.

Em termos de implementação de engenharia específica, a equipe também realizou duas otimizações.

A etapa de treinamento foi projetada com um mecanismo de cache entre estágios. No treinamento paralelo em pipeline, apenas o pequeno bloco de dados recém-adicionado é transmitido a cada troca de estágio, em vez de retransmitir todo o histórico a cada vez. Em testes reais, a sobrecarga geral de treinamento não ultrapassa 4%.

A etapa de inferência foi projetada com uma estratégia de computação em dois estágios, que agrupa todas as consultas em um bloco em uma única operação matricial para processamento unificado e amortiza os acessos repetidos à memória, de modo que a latência final de inferência aumente em no máximo 2%.

Então, como correu o experimento? Os pesquisadores testaram cinco modelos de tamanhos diferentes.

Os resultados mostram que o Block AttnRes supera o modelo de referência com menor perda de validação em todas as escalas, e a melhoria permanece estável à medida que a escala aumenta. Com base nas curvas ajustadas, o Block AttnRes atinge o mesmo custo computacional que o modelo de referência, exigindo 1,25 vezes mais poder computacional.

Em experimentos com uma arquitetura Kimi Linear de 48 bilhões de parâmetros (3 bilhões de ativações), o Block AttnRes demonstrou forte generalização: seu desempenho foi igual ou superior ao do modelo de referência PreNorm em todos os 15 benchmarks principais.

Por exemplo, alcançou um salto de 7,5% no raciocínio científico de nível doutoral GPQA-Diamond e também registrou ganhos significativos nas tarefas de geração de código Math (+3,6%) e HumanEval (+3,1%).

No processo de treinamento, os valores de saída de cada camada do modelo de referência aumentam monotonicamente com a profundidade, confirmando o problema de diluição do PreNorm; enquanto os valores de saída de cada camada do AttnRes são redefinidos nos limites dos blocos, mostrando mudanças periódicas, e a distribuição do gradiente de cada camada é mais uniforme, indicando que mais camadas estão realmente envolvidas no aprendizado efetivo.

Além disso, os pesquisadores visualizaram os pesos de atenção aprendidos pelo modelo treinado e descobriram vários padrões interessantes.

Cada camada ainda depende muito da saída da camada imediatamente anterior, e a localidade continua sendo o principal modo de fluxo de informações. No entanto, algumas conexões de salto surgiram, como algumas camadas que remontam de forma estável a camadas muito antigas, e outras que prestam atenção especial à saída inicial do vetor de incorporação de palavras.

Outro padrão observado é que os padrões de "retrospecção" das camadas de atenção e das camadas MLP diferem: as camadas de atenção tendem a se concentrar em um contexto histórico mais amplo, enquanto as camadas MLP dependem mais das camadas de vizinhos mais próximos. Isso está de acordo com a divisão funcional de trabalho dentro do modelo.

O AttnRes também revelou uma descoberta valiosa para o desenvolvimento de modelos futuros. Os pesquisadores, com um custo computacional total e um número de parâmetros fixos, enumeraram 25 combinações diferentes de profundidade e largura e compararam o modelo de referência com a arquitetura ideal preferida do AttnRes.

Os resultados mostraram que as conexões residuais padrão favoreceram modelos com "larguras maiores e menos camadas", enquanto os pontos ótimos do AttnRes favoreceram modelos com "larguras menores e mais camadas". Isso indica que o AttnRes pode utilizar a profundidade de forma mais eficaz, garantindo que cada camada adicional realmente gere valor, em vez de transformar a profundidade em uma mera acumulação com retornos marginais decrescentes.

As implicações dessa descoberta vão além disso. Significa que o AttnRes não é apenas uma correção à arquitetura existente, mas uma mudança fundamental na eficiência da utilização da profundidade da rede, e fornece uma nova referência sobre como alocar recursos de profundidade e largura ao projetar modelos de grande porte no futuro.

Yang Zhilin mencionou certa vez que, dez anos atrás, não era que faltassem boas ideias, mas sim que não havia poder computacional para verificá-las. Agora, com recursos suficientes e uma "escada de escala", essas questões arquivadas podem finalmente ser respondidas seriamente.

Por trás das curtidas dos figurões, esconde-se uma virada nos tempos.

É extremamente raro uma equipe chinesa obter reconhecimento substancial de figuras importantes do Vale do Silício por suas inovações arquitetônicas fundamentais. O reconhecimento não se deve apenas ao artigo em si, mas também ao fato de que o artigo de Kimi aponta para uma direção completamente nova: a otimização passou de módulos de alto nível, como atenção e MoE, para as conexões residuais mais fundamentais.

Em sua apresentação na GTC 2026, Yang Zhilin também revelou uma série de inovações tecnológicas subjacentes: o otimizador MuonClip alcança uma melhoria de 2x na eficiência computacional em comparação com o AdamW — vale ressaltar que o otimizador Adam permaneceu praticamente incontestado desde 2014, sendo considerado uma tecnologia "intocável" em aprendizado profundo; o Kimi Linear (arquitetura KDA) alcança uma aceleração de decodificação de 5 a 6x em contextos ultralongos, variando de 128 mil a milhões de caracteres; e o treinamento multimodal do Vision RL melhorou ainda mais o benchmark de texto simples em cerca de 2,1%.

Yang Zhilin resume essas inovações em uma estrutura de escalonamento tridimensional: Eficiência de tokens × contexto longo × Enxames de agentes.

"A escalabilidade atual não se resume mais a simplesmente acumular recursos, mas sim a encontrar economias de escala em eficiência computacional, memória de longo alcance e colaboração automatizada simultaneamente."

Uma empresa que avança simultaneamente em todos os campos de batalha fundamentais — otimizadores, conexões residuais, arquiteturas de atenção e treinamento multimodal — é bastante singular no setor.

Foi por isso que Jerry Tworek fez o julgamento de "Aprendizado Profundo 2.0". Claro, isso não significa que o artigo sobre Resíduos de Atenção possa revolucionar tudo, mas sim que representa um retorno a uma metodologia: não mais se contentar em remendar estruturas existentes, mas sim reexaminar a infraestrutura que todos consideram como "problemas resolvidos".

Se as conexões residuais podem ser redesenhadas, o que dizer do otimizador Adam? Da normalização de camadas? Da codificação de localização? O paradigma fundamental do aprendizado profundo está mudando, e uma vez que essa porta seja aberta, a história que se seguirá não será mais previsível por extrapolação linear.

A observação de Karpathy de que "Atenção é tudo o que você precisa" ainda não foi totalmente compreendida provavelmente reflete esse sentimento.

Nos últimos anos, as contribuições das equipes chinesas de IA têm se concentrado mais na implementação de engenharia e na inovação de aplicações, com relativamente poucos avanços originais na teoria da arquitetura subjacente. O artigo de Kimi adota uma abordagem completamente diferente: uma estrutura teórica unificada, uma implementação de engenharia elegante e uma verificação experimental rigorosa em larga escala.

É claro que o artigo de Kimi ainda deixa muitas perguntas sem resposta. A validação em larga escala foi realizada em um modelo com 48 bilhões de parâmetros no total (3 bilhões de parâmetros de ativação), uma escala que não é particularmente grande nem mesmo para os padrões atuais. Resta saber se a vantagem equivalente a 1,25x poderá ser mantida em modelos com bilhões ou até mesmo trilhões de parâmetros.

Entretanto, o artigo demonstra apenas os benefícios da fase de pré-treinamento. Há uma carência de dados sobre se as vantagens do AttnRes serão diluídas após etapas de pós-treinamento, como o ajuste fino de instruções e o RLHF.

No entanto, essas limitações são justamente a fonte da imaginação. Uma modificação simples, que requer apenas cerca de 100 linhas de código e aumenta a sobrecarga de treinamento em menos de 4%, pode trazer essa melhoria em uma escala de 48B.

Quando aplicado a um modelo de próxima geração em maior escala, ninguém pode afirmar com certeza qual será o limite máximo dos retornos.

A abordagem de Resíduos de Atenção eleva o limite da eficiência de tokens, a abordagem Linear de Kimi expande as fronteiras de contextos longos e os Enxames de Agentes apontam para o futuro da colaboração entre agentes. Quando essas três linhas tecnológicas convergirem na próxima geração de modelos, poderão representar uma nova mudança de paradigma.

Na construção da Torre de Babel da IA, todos competem para adicionar tijolos e telhas, mas Kimi se abaixou e enfiou uma pá pesada no leito da estrada, o que por acaso abriu caminho para os alicerces do aprendizado profundo.

Autores: Mo Chongyu, Li Chaofan

#Siga a conta oficial do iFanr no WeChat: iFanr (ID do WeChat: ifanr), onde você encontrará conteúdo ainda mais interessante o mais breve possível.