O Kimi K2.5 proporcionou um “momento de enxame”.

A atualização K2.5 gerou muita discussão tanto nacional quanto internacionalmente nos últimos dois dias. Ela apresenta um modelo multimodal nativo que oferece recursos de codificação e visão de última geração, além de um paradigma de enxame de agentes autônomos — convocando um grupo de agentes para concluir tarefas. Parece incrível.

Vários agentes com habilidades diversas, muito legal e divertido!

O K2.5 já está totalmente lançado e disponível para uso imediato em dispositivos clientes. O Agente K2.5 oferece um período de teste gratuito, enquanto o Cluster K2.5 é um recurso pago, atualmente disponível apenas no plano Allegretto. As assinaturas também possuem um limite de pontos: a partir de 47 pontos por mês, sendo que cada tarefa consome 3 pontos.

No geral, é suficiente. Se você não tiver certeza, pode participar do sorteio de hoje e experimentar primeiro.

No entanto, como usuário do Kimi há muito tempo, é claro que eu tinha que comprá-lo. Aconteceu de eu ter vários arquivos que precisavam ser mesclados, e eu estava com preguiça de copiá-los e colá-los manualmente, então os enviei para o Kimi e habilitei o modo cluster para processá-los todos de uma vez.

No modelo de cluster, Kimi adicionou um elemento de design a essa área: uma etiqueta com o nome que desce, permitindo ver qual "pessoa responsável" está executando a tarefa.

O resultado final da fusão dos documentos foi bastante satisfatório, e sugeri ainda que fosse utilizado para organizar e ajustar os subtítulos em cada nível, o que permitiria um fluxo de trabalho de análise, proposta e execução. No entanto, é recomendável baixar os documentos localmente para verificar a formatação, visto que a função de pré-visualização integrada do Kimi por vezes não reflete com precisão os efeitos das alterações realizadas em cada etapa.

Para examinar mais a fundo sua operação de multiconcorrência, consultei a demonstração oficial e testei uma tarefa: recuperei toda a literatura sobre agentes agrupados dos últimos três meses, compilei-a em uma planilha do Excel e extraí as principais descobertas e inovações de pesquisa.

Desta vez, havia mais "pessoal" mobilizado, com vários agentes se apressando para prestar apoio, e cada pessoa tinha suas próprias tarefas designadas.

Isso levou muito mais tempo do que antes, mas tudo bem; posso deixar rodando em segundo plano por enquanto. Enquanto isso, também atribuí uma tarefa para testar suas capacidades multimodais.

Esta é a imagem original enviada para Kimi; a versão em vídeo possui mais animações. A tarefa de Kimi é converter este design em uma página web, preservando todos os elementos e o estilo do projeto. O enunciado é simples, mas o trabalho em si é complexo: requer reconhecer e compreender a imagem, gerar a imagem bruta e desenvolver o front-end.

Essa tarefa consumiu um tempo considerável, mas o resultado final foi excelente. Houve alguns pequenos problemas, como o layout das imagens, os efeitos de foco e alguns problemas de navegação. No entanto, os principais elementos de design foram mantidos e a funcionalidade do site foi concluída.

Olhando para trás, a tarefa de pesquisa bibliográfica também foi concluída e uma planilha do Excel bem organizada foi gerada:

A tarefa final do teste consistia em encontrar influenciadores no Xiaohongshu (Livro Vermelho), especificamente blogueiros de tecnologia com mais de 5.000 seguidores e mais de 100 publicações. Essas duas condições são, na verdade, bastante flexíveis, o que torna a busca muito ampla.

O primeiro problema de Kimi foi que ela não conseguia acessar Xiaohongshu. Na verdade, isso poderia ser resolvido perguntando proativamente ao usuário, de forma semelhante ao método usado pelo GPTagent.

Mas isso não funcionou. Kimi então recorreu ao Newrank para extrair dados, o que contornou as permissões do site e permitiu que ele acessasse os números diretamente. Essa não foi uma boa estratégia, já que ele só conseguiu encontrar um pequeno número de blogueiros, que obviamente é muito maior do que o disponível no Xiaohongshu. Além disso, ser excluído da plataforma o impediu de demonstrar suas habilidades visuais, visto que ele estava apenas extraindo dados facilmente acessíveis.

No geral, porém, o Swarm Agent transmite uma sensação de confiabilidade. Um único agente consegue realizar essas tarefas? Claro que sim, mas leva tempo e está sujeito a erros. Ter um grupo de pessoas trabalhando juntas proporciona maior segurança.

Onde está a "inovação"?

Neste ponto, você pode perguntar: Isso não é simplesmente Multi-Agente? Muitas empresas estão fazendo isso.

A principal diferença reside em "quem será o chefe".

Em sistemas multiagentes tradicionais, os humanos precisam pré-projetar todo o fluxo de trabalho: quem é responsável por quê, o que vem primeiro e como os resultados são resumidos. É como construir com blocos; primeiro você precisa desenhar a planta. A principal inovação do Agent Swarm reside no fato de que a própria IA é a projetista.

A equipe de Kimi usou um método de treinamento chamado PARL (Aprendizado por Reforço com Agentes Paralelos) para ensinar o modelo a "decompor tarefas" e "alocar recursos ". Não é preciso dizer a ele "envie 3 pessoas para buscar informações primeiro e depois envie 2 pessoas para escrever o resumo", ele pode determinar sozinho: em quantas partes essa tarefa deve ser dividida? Quem deve fazer cada parte? Quando deve ser feita em paralelo e quando deve ser feita sequencialmente?

Em outras palavras, Multi-Agent é uma "orquestra sinfônica arranjada por humanos", enquanto Agent Swarm é um conjunto de jazz montado pela própria IA.

Outro conceito que costuma gerar confusão é o MoE: Mistura de Especialistas. Muitos modelos convencionais de grande escala utilizam a arquitetura MoE internamente, mas são completamente diferentes do Enxame de Agentes.

O MoE ocorre dentro do modelo. Podemos imaginá-lo como um grupo de "especialistas" que vivem dentro do modelo e, a cada tarefa processada, o modelo decide dinamicamente quais especialistas ativar para participar. No entanto, esses especialistas não possuem identidades independentes, nem colaboram entre si; são simplesmente diferentes caminhos computacionais dentro do modelo.

O modelo de enxame de agentes ocorre fora do modelo padrão. Cada subagente é uma unidade de execução relativamente independente, com seus próprios objetivos de tarefa, podendo executar em paralelo e até mesmo invocar ferramentas (como pesquisar páginas da web ou escrever código). A relação entre eles é uma verdadeira "colaboração", e não uma simples relação de "ativação".

Para usar uma analogia um tanto imprecisa: o MoE é como o trabalho dividido do cérebro de uma pessoa, enquanto o Agent Swarm é como a colaboração em equipe em uma empresa .

Com base em testes práticos e demonstrações oficiais, o Agent Swarm apresenta um desempenho excepcional em pelo menos as seguintes categorias de tarefas:

A primeira categoria é a coleta de informações em larga escala. Exemplos incluem a pesquisa com criadores em 100 áreas no caso oficial e a busca por blogueiros no Xiaohongshu em nosso teste. A característica comum ao lidar com esse tipo de tarefa é que ela é "paralelizável" — cada subtarefa é relativamente independente e não requer muita coordenação intermediária.

A segunda categoria engloba tarefas complexas que envolvem tanto visão computacional quanto código. O Kimi K2.5 destaca-se como um modelo "multimodal nativo", capaz de compreender imagens e vídeos. Quando combinado com o Agent Swarm, ele pode analisar capturas de tela da interface do usuário enquanto distribui diferentes agentes para lidar com layout, estilo e lógica de interação, gerando, em última instância, código front-end completo.

A terceira categoria é o processamento de documentos longos. A documentação oficial afirma que o Kimi Agent consegue lidar com "um artigo de 10.000 palavras ou um documento de 100 páginas", oferecendo suporte a recursos avançados como anotações do Word, tabelas dinâmicas do Excel e fórmulas LaTeX. O Agent Swarm pode dividir documentos longos em vários capítulos, permitindo que diferentes agentes os processem em paralelo e, em seguida, os agreguem em um formato unificado — exatamente como no caso de teste inicial.

No entanto, não se empolgue muito ainda; Agent Swarm não é "trapaça". Na prática, você encontrará diversas limitações óbvias:

Primeiro, a tarefa em si deve ser "decomponível". Se houver fortes dependências entre as etapas da tarefa — como "pensar primeiro no argumento, depois encontrar evidências e, finalmente, escrever a conclusão" — forçá-las a serem executadas em paralelo fará mais mal do que bem.

Em segundo lugar, os custos aumentarão significativamente. Cem proxies funcionando simultaneamente significam cem vezes mais chamadas à API. Embora o tempo total seja reduzido, o consumo de tokens é substancial.

Em terceiro lugar, a qualidade não é necessariamente melhor do que a de um único agente. Para certas tarefas que exigem raciocínio profundo, como demonstrações matemáticas ou problemas complexos de programação, o "modo de pensamento profundo" de um único agente é, na verdade, mais confiável. A vantagem do Agent Swarm reside em sua "amplitude" e "velocidade", não em sua "profundidade". Em testes práticos, Kimi alternou automaticamente para um modelo de agente único para algumas tarefas, um fato confirmado pelos membros da equipe de Kimi em uma sessão de perguntas e respostas online no Reddit.

O futuro visto pela equipe de Kimi

Durante uma sessão de AMA (Ask Me Anything) no Reddit, a equipe de Kimi respondeu a diversas perguntas sobre tecnologia, produtos e visão. Através dessas respostas, podemos reconstruir suas ideias sobre o Agent Swarm e até mesmo o futuro da IA ​​como um todo.

Ao serem questionados sobre o desenvolvimento futuro do Agent Swarm, a equipe de Kimi revelou diversas direções:

[Agendamento mais inteligente] O atual Enxame de Agentes consegue decompor tarefas automaticamente e criar subagentes, mas a estratégia de agendamento ainda é relativamente "granular". No futuro, espera-se que seja possível estabelecer uma alocação de recursos mais granular, por exemplo, decidindo dinamicamente "quantas pessoas enviar e por quanto tempo trabalhar" com base na urgência, complexidade e dependências da tarefa.

[Colaboração mais profunda] Atualmente, a comunicação entre os subagentes é limitada, consistindo principalmente em "cada um concluir seu trabalho e enviar os resultados ao líder para agregação". No futuro, a colaboração direta entre os subagentes poderá ser implementada, como por exemplo, "o Agente A, ao descobrir um problema, pode contatar proativamente o Agente B para obter assistência".

[Integração de Ferramentas Mais Ampla] A equipe da Kimi afirmou que está expandindo a biblioteca de ferramentas que o Agent pode utilizar, incluindo, entre outras, mais softwares de escritório, ambientes de desenvolvimento e ferramentas de análise de dados. O objetivo é permitir que o Agent Swarm execute fluxos de trabalho complexos de ponta a ponta.

Outra pergunta interessante da sessão de perguntas e respostas foi: muitos dizem que a lei de escala atingiu seu limite. Como a equipe de Kimi vê essa questão?

A equipe de Kimi respondeu que os agrupamentos de agentes foram sua tentativa inicial. Olhando para o futuro, talvez surja um modelo que exija pouca ou nenhuma informação humana prévia.

Essa visão pode parecer idealista, mas, ao analisá-la mais de perto, revela implicações profundas. Nos últimos dois anos, o campo da IA ​​tem se concentrado na "escalonagem de parâmetros" — os modelos estão ficando maiores e cada vez mais caros. O Enxame de Agentes representa uma abordagem diferente: em vez de ter um único supercérebro fazendo tudo, é melhor ter um grupo de cérebros trabalhando juntos, cada um com suas próprias tarefas.

Este pode ser um caminho mais pragmático para a IAG (Inteligência Artificial Geral): uma única abelha pode parecer insignificante, mas quando milhares de abelhas trabalham juntas, elas podem construir colmeias complexas.

#Siga a conta oficial do iFanr no WeChat: iFanr (ID do WeChat: ifanr), onde você encontrará conteúdo ainda mais interessante o mais breve possível.

ifanr | Link original · Ver comentários · Sina Weibo