A MiniMax lançou a Mavis, uma verdadeira agente com “três províncias e seis departamentos”.

Atribui uma tarefa e o agente ativou o modo de planejamento, descrevendo 7 etapas.
Eu aprovei e o processo começou. Após três etapas, ele parou e exibiu a seguinte mensagem: "Concluí as etapas 1, 2 e 3, e os resultados são os seguintes… Devemos continuar com as etapas 4, 5, 6 e 7?"
Eu disse para continuar. O programa executou mais duas etapas e parou novamente: "Concluí as etapas 4 e 5, e os resultados são estes e quais… Devemos continuar com as etapas 6 e 7?"
Após uma noite inteira, quando pedi ao agente para realizar algumas tarefas de longo prazo, não houve efeitos duradouros; a caixa de diálogo continuava exibindo "Continuar".
Essa tem sido minha experiência há muito tempo, utilizando diversos agentes para realizar tarefas.

Essa experiência é ilógica. Embora "parar para confirmar" seja um bom hábito de trabalho ao lidar com IA, em muitas tarefas eu nunca pedi ativamente para ela parar, mas mesmo assim ela parava.
Em sua mais recente publicação técnica no blog, a MiniMax atribui esse comportamento de seus agentes à "ansiedade contextual". A questão central é que o próprio modelo é ambíguo quanto ao momento em que uma tarefa muito longa é considerada concluída. Simplificando, não é que eles não consigam realizá-la, mas sim que têm medo. Eles têm medo de cometer um erro a cada passo, e é por isso que param no meio do caminho e fazem perguntas.

Hoje, o cliente desktop do MiniMax Agent recebeu uma grande atualização. Um novo modo chamado Mavis foi adicionado (na verdade, é uma abreviação de "MiniMax como um Jarvis").
É sabido que ter um agente atuando como chefe e um grupo de agentes como funcionários — essa estrutura multiagente tradicional — não é novidade. No entanto, MiniMax destaca que as estruturas multiagentes convencionais anteriores dependiam essencialmente da organização de palavras-chave para permitir que o modelo desempenhasse um papel de "interpretação de papéis". Mas essa abordagem não se sustenta por muito tempo, pois enfrenta problemas como ansiedade contextual, degradação da tarefa a longo prazo e problemas de autoverificação, como mencionado anteriormente.
Sistemas multiagentes exigem uma infraestrutura confiável, que esteja em constante funcionamento e seja mantida, e onde os múltiplos agentes não "conspiram". É isso que o MiniMax faz.
Experiência prática de testes: Deixe o agente "criticar minuciosamente" a outra parte.
A MiniMax chama sua infraestrutura de Equipe de Agentes de Motor de Equipe, que possui três funções principais: Líder, Trabalhador e Verificador. Como os nomes sugerem, um gerencia, um executa o trabalho e um verifica.
A diferença mais crucial é que o Trabalhador e o Verificador estão em uma relação "adversarial", e nenhum dos dois pode se safar impunemente.

Há algum tempo, a APPSO estava pesquisando um tópico: "Todos os fornecedores de modelos com ambições em codificação/agentes devem desenvolver seus próprios produtos independentes de codificação/agentes."
(Isso mesmo, o MiniMax era um exemplo negativo antes, mas, inesperadamente, provou seu valor mesmo antes da publicação do artigo!)
Então, executamos esse problema novamente na equipe de agentes da MiniMax.
Essa tarefa foi dividida entre 5 trabalhadores. Após cada trabalhador concluir sua tarefa, ele organizará os resultados e os enviará ao líder (exibindo o status como "Mavis enviou para o Geral" ou "Geral enviou para Mavis", etc.).

Um processo estava em execução há 12 minutos sem retornar nenhum resultado. O APPSO percebeu que o processo líder estava ficando impaciente, então enviou um comando bash para verificar seu status:

Após todos os 5 trabalhadores concluírem suas tarefas, o líder gera 5 verificadores — exibidos na lista de tarefas como agentes usando "chapéus amarelos":

O verificador encontrou o erro rapidamente! Um dos verificadores descobriu um erro claro nos dados entregues pelo trabalhador correspondente e aplicou uma penalidade de "falha". Imediatamente depois, o trabalhador foi reiniciado (exibido como em execução, indicado por um pequeno círculo azul).

Clique no espaço de trabalho do colaborador correspondente para observar seu processo de pensamento: "O verificador rejeitou minhas entregas anteriores com base nos três erros a seguir… Preciso voltar e verificar novamente os fatos principais, além de conferir e corrigir os problemas numéricos específicos…"
E devo dizer que os agentes são todos "intransigentes" uns com os outros, o que os torna realmente confiáveis em seu trabalho.

Essa troca de informações ocorreu dezenas de vezes nas cinco batalhas de agentes um contra um. Durante o processo, Mavis também disse que "aprendeu algo novo" e atualizou sua memória.

Enquanto a tarefa anterior estiver em andamento, iniciaremos um novo estudo aprofundado, analisando o mercado turístico durante o feriado do Dia do Trabalho com base em dados confiáveis e entregando um relatório de análise multidimensional.
Esta pesquisa é muito mais complexa do que a tarefa anterior. Além disso, devido ao confronto em curso, a Equipe de Agentes dedica significativamente mais tempo à pesquisa aprofundada do que um agente individual típico.
No entanto, o relatório final era de fato muito mais claro e confiável em comparação com outros relatórios de pesquisa aprofundada sobre IA.

A APPSO tem se preparado para muitos eventos presenciais recentemente, e o planejamento e a criação de soluções sempre foram um desafio. Também confiamos essa tarefa à Mavis para ver como ela se sai.
Preciso planejar um evento presencial para desenvolvedores de IA em Guangzhou. Por favor, forneça o máximo de locais possível adequados para eventos de tecnologia com centenas ou milhares de participantes, juntamente com orçamentos aproximados e informações sobre eventos similares. Em seguida, preciso de ajuda para planejar o tema, a promoção e a operação deste evento de IA, compilando tudo isso em um plano de negócios rigoroso, além de um website com design atraente que esteja em sintonia com o tema.

Só o processo de planejamento levou mais tempo do que as tarefas anteriores de pesquisa aprofundada. Mavis respondeu: "Esta tarefa é de grande escala e exige que vários agentes trabalhem em paralelo — pesquisa de localização, análise da concorrência, planejamento temático, plano de negócios e desenvolvimento do site."
A força da Mavis reside na sua capacidade de adicionar continuamente novos requisitos:
Além do relatório detalhado, seria ideal que você também elaborasse um contrato formal preliminar, incluindo contratos de cooperação com o local do evento, com os convidados e outros contratos possíveis, bem como demonstrações financeiras preliminares. Solicitamos ainda que forneça uma apresentação em PowerPoint para demonstrar esse plano; quanto mais detalhada, melhor.
Ao receber novos requisitos, a Equipe de Agentes refinou ainda mais o plano e implementou mais fluxos de trabalho. No final, chegamos a executar nove tarefas paralelas.

Se analisarmos o processo de pensamento de Mavis, podemos observar uma grande quantidade de mensagens trocadas entre os agentes. Esses agentes trabalham sob um mecanismo de equipe dedicado, transmitindo o status uns dos outros; alguns estão aguardando, outros executando e outros verificando.

Observe este verificador, não se assemelha a um "cliente" meticuloso?

O número final de arquivos entregues por toda a tarefa atingiu a impressionante marca de 10 ou mais, incluindo arquivos xls, ppt, páginas web em html e suas respectivas versões em .md.

▲ A planilha de orçamento financeiro gerada pela Agent Team inclui um resumo do orçamento do projeto, previsões de fluxo de caixa, modelos de precificação de ingressos e patrocínios, além de um registro de custos detalhado.
Em seguida, vamos falar sobre outra funcionalidade importante do Mavis: ele pode se conectar a plataformas de bate-papo e suporta multitarefa.
Assim como o OpenClaw e o Hermes Agent, que o MiniMax já suporta, o Mavis também pode atribuir tarefas pelo WeChat e pelo Lark, duas plataformas de mensagens instantâneas. O processo de integração é extremamente simples: basta clicar no botão de configurações, escanear o código QR, nomear o aplicativo e você poderá usar o Mavis no WeChat/Lark.

Quando um produto de agente típico se conecta a um serviço de mensagens instantâneas e lhe atribuímos uma tarefa que demora muito tempo para ser concluída, isso geralmente significa que, após o envio da mensagem, não podemos mais consultá-lo para outras questões.
Um dos motivos é que esses agentes não conseguem abrir várias janelas de diálogo simultaneamente; outro motivo é a limitação do modo de operação do agente. Executar várias tarefas em uma única sessão pode facilmente levar à confusão contextual e à poluição visual.
A solução da MiniMax consiste em separar a lógica de "resposta instantânea" e "execução".
Pedi ao APPSO para pesquisar o recente aumento do preço do petróleo no Lark; após o início da tarefa, também pedi que pesquisasse os produtos importantes lançados pelas gigantes de IA do Vale do Silício no último mês.
Mavis não interrompeu a tarefa anterior, mas me informou que a nova tarefa já havia sido concluída, enquanto a tarefa sobre o aumento dos preços do petróleo ainda estava em processamento.

Este é outro princípio fundamental do design do Mavis: os benefícios do isolamento de contexto.
Cada Equipe de Agentes, e cada agente dentro da equipe, vê apenas um resumo das informações relevantes para sua própria missão, e lê o texto completo somente quando detalhes são necessários.
Essa abordagem tem duas vantagens: primeiro, mantém os custos dos tokens sob controle, evitando que o contexto fique sobrecarregado mesmo com uma equipe grande; segundo, evita a poluição do contexto, garantindo que informações incorretas encontradas pelo agente durante as buscas não eliminem toda a equipe.
No cenário mais extremo, tentamos atribuir-lhe 8 tarefas num período muito curto de tempo usando o Lark, e não houve casos de confusão de contexto.
A experiência toda é muito parecida com trabalhar com um colega com uma capacidade cognitiva extremamente alta: ele não só responde às mensagens instantaneamente, como também consegue trabalhar em segundo plano sem ser interrompido. Se você quiser saber o andamento do trabalho, basta perguntar diretamente, sem se preocupar em interromper o estado de concentração dele.

Os agentes que gerenciam sessões diferentes visualizam apenas as informações relevantes para suas próprias tarefas e não compartilham um histórico de conversas em constante expansão.
Em resumo, o Mavis alcança o isolamento de contexto de ponta a ponta, desde o canal IM até o hub de tarefas e, em seguida, para cada agente molecular na tarefa molecular.
Por fim, ao responder perguntas sobre os novos produtos de IA lançados este mês por grandes empresas do setor e importantes produtos de inteligência incorporada, o programa também cumpriu com sucesso o principal objetivo da reportagem sobre petróleo, apresentando um relatório detalhado que mencionou até mesmo a notícia recente de que as embalagens de batatas fritas japonesas passarão a ser em preto e branco.

Após os testes, você percebeu que a estratégia de organização da Mavis é, na verdade, um tanto semelhante à habilidade "Três Províncias e Seis Ministérios", que foi popular por um tempo?
O que cada personagem faz, quando começa e quando passa o controle será determinado pela máquina de estados no nível do motor do jogo, em vez da caixa preta do modelo tomar suas próprias decisões.
Em resumo, isso significa usar controlabilidade, rigor e determinismo em nível de engenharia na orquestração do trabalho multiagente para abordar fundamentalmente a incontrolabilidade e a aleatoriedade do modelo.
Essa abordagem resolve completamente o problema clássico dos agentes/modelos do passado que "atuavam como árbitros e jogadores".

Limites de crédito uniformes, ampla disponibilidade de agentes.
Após testarmos o Mavis, vamos falar sobre outra coisa igualmente importante que a MiniMax fez e que afeta todos os usuários pagantes: desta vez, os planos Token e Agent foram unificados.

Após a fusão, seja para o uso diário de usuários comuns, como se comunicar e usar o Agente no site oficial e no aplicativo, ou acessar a API oficial para chamar outras ferramentas (como produtos de programação ou o Agente OpenClaw/Hermes), agora é possível usar um plano unificado. Além disso, tanto o M2.7 quanto os modelos principais subsequentes, bem como os modelos multimodais para música, vídeo e voz, estão incluídos neste plano único.
Todos os limites de crédito são compartilhados e os usuários podem decidir como gastá-los. A MiniMax também oferece um bônus: usuários que já assinaram dois planos simultaneamente receberão um mês extra de assinatura.
Por que fazer isso? Do ponto de vista do usuário, é algo bastante razoável.
Simplificando, na era dos agentes, a motivação dos usuários para pagar vem da demanda por "poder computacional dos modelos". À medida que os modelos melhoram em termos de codificação, agentes e capacidades multimodais, os cenários para essas demandas se tornarão cada vez mais diversos e ocorrerão naturalmente tanto nos produtos dos fornecedores de modelos (site oficial, produtos independentes, CLI) quanto fora dos produtos (agentes implantados independentemente que acessam APIs externas).
Na verdade, esse é um problema que todas as grandes empresas de IA enfrentam: a OpenAI atualmente separa as assinaturas de usuários da cobrança da API, assim como a Anthropic; já as startups de agentes menores usam suas próprias taxas de assinatura para pagar as taxas da API subjacente, em vez de os usuários pagarem por elas.

Desta vez, a MiniMax assumiu a liderança ao desmantelar as barreiras internas de sua matriz de produtos. A APPSO acredita que, no mercado altamente comoditizado de hoje, onde os usuários sempre buscam as APIs de modelos mais recentes e baratas, essa estratégia de pacote unificado ajuda os fabricantes de modelos a manter a fidelidade do usuário.
Vamos voltar ao produto em si.
Como mencionado anteriormente, a APPSO está escrevendo um artigo sobre "fornecedores de modelos que levam a sério a codificação/agentes devem desenvolver seus próprios produtos de codificação/agentes". Pode-se dizer que o MiniMax chegou um pouco atrasado, mas não está muito longe.
Hoje, o Mavis não é o primeiro produto a apostar em uma arquitetura multiagente. Nos últimos seis meses, empresas como ChatGPT, Manus e Genspark entraram nessa corrida "multiagente".
Após a conclusão do teste propriamente dito, a impressão da APPSO foi de que o Mavis teve um desempenho melhor e uma arquitetura mais estável do que seus concorrentes em termos de "execução autônoma de tarefas extremamente complexas/de longa duração". Enquanto as abordagens multiagentes de outros produtos se limitavam à organização de palavras-chave e à divisão de tarefas, o Mavis implementou restrições rígidas adversárias no nível de engenharia — a diferença resultante foi bastante significativa.
No entanto, embora essa arquitetura pareça promissora, há uma realidade incontornável: ela é cara.

A MiniMax introduziu o conceito de "Custo de Consenso" em seu blog técnico. Em termos simples, embora vários agentes "verifiquem e equilibrem" uns aos outros, tornando o processo e os resultados mais confiáveis, o processo de alcançar consenso tem um custo, com o consumo de tokens sendo várias vezes maior do que o de um único agente; além disso, assim como em uma discussão, entrar em uma discussão acalorada pode levar ao desvio do assunto, e a precisão pode até diminuir em vez de aumentar.
De acordo com a análise da MiniMax, sua arquitetura de Equipe de Agentes apresenta especificamente três tipos de custos:
Primeiro, há o custo de transferência. As informações precisam ser reorganizadas quando transferidas entre agentes. Cada transferência requer a "tradução" das informações para um formato que o próximo agente possa usar, o que consome tokens.
Em segundo lugar, há o custo do compartilhamento (de informações contextuais). O isolamento de contexto visa controlar esse custo até certo ponto. No entanto, mesmo que cada agente analise apenas o "resumo" passado pelos outros agentes, à medida que o tamanho da equipe de agentes aumenta, o armazenamento e a distribuição dos resumos ainda acarretarão custos.
Em terceiro lugar, há o custo da agregação. A APPSO sempre fez questão de enfatizar este ponto: não presuma que um fluxo de trabalho com centenas ou milhares de habilidades e um sistema extremamente complexo de "três províncias e seis departamentos" seja a solução definitiva — muitas vezes não é. Na verdade, você pode estar caindo na armadilha dos vendedores de tokens… Você pode ter detalhado mais o trabalho, mas também precisa gastar mais tokens para agregar e organizar os resultados finais.
A combinação desses custos significa que ter vários agentes nunca é simplesmente uma questão de "quanto mais agentes, melhor".
No entanto, sob outra perspectiva: quanto mais complexa a troca de informações em uma tarefa, maior tende a ser seu valor intrínseco. Um relatório de pesquisa minucioso, que exige múltiplas verificações e checagens repetidas, e uma pergunta casual, não devem ser avaliados pela mesma lógica. O Mavis é caro devido à sua meticulosidade, e essas tarefas executadas com meticulosidade justificam o preço.
Eles preferem gastar mais dinheiro para garantir que tudo corra perfeitamente do que fazer um trabalho malfeito; é isso que os usuários de alto valor, responsáveis por tarefas complexas, valorizam.
É claro que a equipe do MiniMax também realizou um projeto de engenharia para evitar o desperdício de tokens causado pela redundância do programa.
A recomendação da MiniMax aos usuários é que as Equipes de Agentes são para tarefas "caras e complexas"; elas são uma opção estratégica, não a padrão. Os usuários devem avaliar a complexidade da tarefa, a duração do fluxo de trabalho, o risco e o valor da reutilização da experiência — quanto maiores esses fatores, mais vantajoso será usar as Equipes de Agentes. Por outro lado, um único agente ou mesmo um chat comum podem ser utilizados.

Ter mais agentes significa necessariamente mais inteligência? De forma alguma. Mas a importância do Mavis reside no fato de permitir que tarefas verdadeiramente complexas e que exigem conhecimento especializado sejam executadas por um sistema de engenharia comprovado, com mecanismos adversários, verificação, clara divisão de responsabilidades e sistemas de recompensa/punição, em vez de deixar o modelo tomar decisões por conta própria.
Isso pode não necessariamente tornar a IA mais inteligente, mas certamente dificultará que ela se torne ociosa — o que é um problema antigo para os próprios modelos de grande porte.
Afinal, no trabalho interpessoal real, não precisamos que nossos colegas sejam muito inteligentes… basta não serem preguiçosos ou tentarem ser espertos demais, isso geralmente basta, não é?
Por Du Chen e Zhang Zihao
#Siga a conta oficial do iFanr no WeChat: iFanr (ID do WeChat: ifanr), onde você encontrará conteúdo ainda mais interessante o mais breve possível.

