Teste prático do MiniMax M2.7: Quando a IA leva a coisa a sério, ela até se atrapalha.

março 21, 2026 gurinho

Depois que o aplicativo Lobster se tornou um sucesso, toda a internet se concentrou em "como usá-lo" — implantação local ou na nuvem, instalação com um clique ou instalação por linha de comando, se conectar ao WeChat ou ao Lark… Em vez disso, ninguém se preocupou seriamente com a velha questão: o "cérebro" que controla o Lobster é inteligente o suficiente?

Isso não é surpreendente. Os novos modelos lançados recentemente pela OpenAI e pelo Google são todos versões Mini ou Flash, e a implicação oficial é quase óbvia: eles são projetados especificamente para que os agentes consumam grandes quantidades de tokens.

As limitações das capacidades do modelo tornaram-se o tópico menos discutido.

Um modelo verdadeiramente adequado para lagostas requer não apenas uma grande quantidade de fichas que sejam abundantes, satisfatórias e acessíveis, mas também um modelo suficientemente inteligente, com fortes capacidades práticas e uma grande capacidade de aprendizagem.

Recentemente, a MiniMax lançou oficialmente o novo modelo MiniMax M2.7, que se concentra em " permitir a autoevolução da IA " e em ser o " modelo de Agente de Coworking mais robusto ". Ele pode lidar com tarefas de programação e atividades comuns de escritório, além de aprender ativamente para construir um sistema de Agente estável.

Especificamente, ele consegue executar uma gama mais ampla de tarefas do que a maioria dos modelos . Para escrita de código, o M2.7 realmente entende o que acontece com um sistema durante a execução, atingindo o nível de raciocínio de sistemas da Engenharia de Confiabilidade de Sites (SRE): analisando logs, correlacionando linhas do tempo, inferindo causas raiz e fornecendo soluções priorizadas. O novo modelo alcançou um desempenho de 56,2% no SWE-Pro, quase igualando o Opus 4.6.

Em ambientes de escritório, é suficiente . Para edições complexas e múltiplas revisões de documentos do Excel, Word e PowerPoint, o M2.7 apresenta melhorias significativas, especialmente em cenários que exigem conhecimento especializado e formatação padronizada, como análises financeiras. Embora não possa substituir completamente os profissionais, é perfeitamente adequado como ferramenta de apoio em fluxos de trabalho.

Não irá "falhar" em colaboração multiagente . Esta é uma capacidade especificamente aprimorada pelo M2.7, com limites claros em cenários multifuncionais, e ainda consegue manter um nível extremamente alto de conformidade de comando mesmo em ambientes complexos com mais de 50 habilidades.

Chegamos então ao ponto crucial desta atualização: ela começa a participar da auto-otimização . A MiniMax afirma que o M2.7 é o seu primeiro modelo a participar ativamente da sua própria iteração, não apenas "auxiliando na iteração", mas "participando ativamente da sua própria iteração". Capaz de autoevolução, o M2.7 pode iterar autonomamente o Agent Harness para lidar com a maior parte do fluxo de trabalho.

O desempenho aprimorado em testes práticos também permitiu que o MiniMax M2.7 subisse rapidamente no ranking da lista Lobster após seu lançamento, alcançando o quarto lugar na lista de maior pontuação.

▲O ranking do PinchBench é um benchmark de avaliação de modelos desenvolvido especificamente para o OpenClaw. Ele testa o desempenho de modelos de grande porte em cenários de negócios reais do OpenClaw. A imagem mostra a métrica de taxa de sucesso das tarefas. O MiniMax M2.7 ocupa a quarta posição, atrás do Claude Opus 4.6. | https://pinchbench.com/

Também integramos o modelo MiniMax M2.7 e o MaxClaw da MiniMax ao Claude Code e ao Lobster implantado localmente, e então repassamos todos os bugs, dados financeiros tediosos e um grande número de tarefas demoradas encontradas no processo de desenvolvimento real para ele.

Após dois dias de testes, descobrimos que não apenas o software precisava ser reconstruído para IA, mas o próprio modelo de IA, além de entender as intenções humanas e produzir resultados que satisfaçam os humanos, também precisa entender como a IA funciona e seu fluxo de trabalho, e aprender a se otimizar .

Utilizando fluxos de trabalho de IA como assistentes humanos

Após a popularização de frameworks de agentes como o OpenClaw, o verdadeiro "fluxo de trabalho da era da IA" deveria ser aquele em que a IA atua como o núcleo operacional, acionando dezenas de ferramentas, direcionando outros membros da equipe de IA e até mesmo otimizando seu próprio código.

Antes de testar como o MiniMax M2.7 se comporta de forma autônoma, quero primeiro analisar seu fluxo de trabalho de IA. Será que é realmente um modelo de agente útil, ou é bom apenas para testes de benchmark, mas decepcionante no uso prático?

Baixamos dados históricos de ações do conhecido site de desafios de aprendizado de máquina Kaggle e, em seguida, conforme exigido pela competição, instruímos o MiniMax M2.7 a realizar o processamento de dados e a engenharia de recursos apropriados com base nos dados fornecidos para gerar um relatório de análise visual.

O conjunto de dados é bastante grande, contendo mais de 3.000 linhas de dados tabulares, com um tamanho total de arquivo de 446,35 MB. Após baixar os cinco arquivos de dados tabulares para nossa máquina local, utilizamos o Claude Code, integrado ao MiniMax M2.7, para concluir esta tarefa.

Para realizar essa análise de forma eficaz, são necessárias as seguintes etapas: um analista de dados para limpar e organizar os dados; um analista macroeconômico para fornecer informações sobre os mercados financeiros correspondentes; um analista estatístico para concluir a modelagem matemática inicial; um engenheiro de algoritmos para construir o modelo correspondente; e, finalmente, um engenheiro web para fornecer uma solução de visualização.

Diante de uma tarefa tão complexa, o MiniMax M2.7 fez pleno uso das diversas funcionalidades que eu havia instalado. Primeiro, utilizou o arquivo xlsx fornecido pela Anthropic para ler as informações da estrutura de dados tabulares e, em seguida, começou a escrever código Python para instalar automaticamente a biblioteca Pandas (frequentemente usada para processar dados tabulares), procedendo passo a passo.

Por fim, o MiniMax M2.7 também ofereceu uma solução completa de visualização, que gera simultaneamente várias imagens para exibir a distribuição dos retornos, a importância e a classificação por categoria de diferentes recursos, além de um painel de controle abrangente.

Na página web visualizada, utiliza-se a biblioteca Streamlit para converter diretamente o script de dados em um sistema de página web interativo, onde todas as informações podem ser visualizadas dinamicamente.

A MiniMax consegue concluir com sucesso tarefas de projetos de grande escala, sem falar das nossas tarefas diárias de escritório e programação.

Primeiro, usamos o aplicativo Lobster no celular para resumir os arquivos que eu tinha no computador. Depois, pedimos ao MiniMax M2.7 para criar um documento do Word com um plano de pesquisa baseado nesses arquivos, organizar uma planilha do Excel com artigos relevantes e, por fim, gerar uma apresentação em PowerPoint para as reuniões do grupo, tudo isso diretamente no celular.

▲O Lobster, que está conectado ao MiniMax M2.7, pode responder rapidamente à demanda.

▲Gerenciar o pacote Office agora é muito fácil.

As suas vantagens no domínio do escritório também permitiram à MiniMax M2.7 alcançar uma pontuação ELO de 1495 na avaliação GDPval-AA, que mede o conhecimento profissional e as capacidades de execução de tarefas, a mais alta entre os modelos nacionais.

Há algum tempo, o painel de visualização para assistentes de IA para o trabalho viralizou, colocando uma lagosta em um escritório realista no estilo anime e permitindo que os usuários instalassem o OpenClaw com uma única frase. Nós também conseguimos dar a essa lagosta Appso sua própria casa, mas e se eu quiser modificar o layout da sala no estilo anime? Deixe que o MiniMax cuide disso.

Na interface visual local do OpenClaw, podemos enviar diretamente a pergunta "Como faço para alterar o estilo desta casinha?", e o MiniMax M2.7 lerá automaticamente o código do projeto e nos dirá quais partes podem ser modificadas e como modificá-las.

Como meu pedido era por um estilo editorial de ciência e tecnologia, o sistema o alterou para um pôster de Star Wars e adicionou uma dúzia de pessoas sentadas em frente a computadores digitando.

No entanto, como não configuramos a chave de API do Nano Banana Pro no OpenClaw, o MiniMax M2.7 selecionou automaticamente o método baseado em código para gerar imagens simples no OpenClaw.

Então, conversando com ele, podemos criar um jogo de magnata editorial baseado nesse estilo. Quem completar mais tarefas terá um escritório maior e poderá subir de nível.

Se for o MaxClaw oficial da MiniMax, ele oferece suporte direto à geração multimodal e pode gerar vídeos, áudio, imagens etc. em uma única etapa, sem a necessidade de configurar APIs adicionais.

Usamos a skill oficial de criação de figurinhas GIF para gerar vários memes do Musk. O MaxClaw, implantado na nuvem, garante um ambiente de execução suficientemente seguro, mas não nos permite instalar arquivos de biblioteca diferentes arbitrariamente, como faríamos em um computador local.

Por fim, ao converter o vídeo para GIF, o MaxClaw me lembrou que não tinha permissões suficientes para instalar o ffmpeg (uma biblioteca de processamento multimídia de código aberto) no servidor em nuvem.

▲Dentro do MaxClaw, você pode usar diretamente o MiniMax M2.7, que chamará automaticamente modelos de geração de vídeo, áudio e imagem, como o Conch, para gerar arquivos multimídia sem a necessidade de configurar uma chave de API específica.

Clicar em "Skills" na parte inferior da caixa de diálogo do MaxClaw mostrará detalhes de todas as Skills instaladas no MaxClaw. Clicar em "Ask MaxClaw" gerará automaticamente uma mensagem que diz "Diga-me o que frontend-dev pode fazer e como usá-lo", guiando você pelo processo de aprendizado de como usar essa Skill.

Além da habilidade de geração de GIFs, o MiniMax também oferece uma biblioteca de habilidades que inclui desenvolvimento front-end, back-end full-stack, desenvolvimento de aplicativos para Android e iOS e tecnologia de sombreamento GLSL para criar efeitos visuais impressionantes. Podemos enviar diretamente "Can you help me install the skills in this project https://github.com/MiniMax-AI/skills" no Lobster, e o Lobster recuperará automaticamente a documentação da habilidade e concluirá a instalação.

▲Link para download: https://github.com/MiniMax-AI/skills

Quando a IA se torna realmente complexa, ela pode até mesmo se envolver por conta própria.

Além do seu fluxo de trabalho completo e das capacidades reais de execução em ambientes de trabalho e escritório, o que mais nos impressionou no MiniMax M2.7 foi o seu " modelo de circuito fechado autoiterativo ".

MiniMax mencionou certa vez que os pesquisadores humanos precisam apenas controlar a direção geral e deixar a tarefa de construir o sistema para o modelo, que pode então construir autonomamente a estrutura do agente de desenvolvimento como um arquiteto de soluções.

Um sistema de interface com um agente pode ser entendido como uma camada de infraestrutura operacional que envolve um agente de IA. O modelo é responsável pelo pensamento, enquanto o sistema de interface é responsável por transformar essa entidade "pensante" em um sistema capaz de executar tarefas de forma estável. Esse sistema atua como a camada operacional, responsável por garantir que o agente funcione de forma estável no ambiente real.

Para testar os limites do M2.7, a MiniMax o incumbiu de otimizar o desempenho de engenharia de software de um sistema interno de andaimes. O resultado? O M2.7 executou um ciclo iterativo de mais de 100 iterações sem qualquer intervenção humana.

O sistema analisa sua própria trajetória de falhas, planeja suas próprias modificações, executa a avaliação novamente após modificar o código de estrutura e, finalmente, compara os resultados para decidir se mantém a alteração ou a reverte. Através dessa luta interna implacável, ele descobre a solução ideal, resultando em um aumento de 30% no desempenho no conjunto de avaliação.

Essa capacidade da "IA para realizar pesquisas científicas" também foi verificada em conjuntos de testes disponíveis publicamente. O MiniMax M2.7 foi incluído no conjunto de testes MLE Lite do Kaggle, a maior competição de aprendizado de máquina do mundo.

Com 22 problemas de competição desafiadores, o M2.7 utiliza seus arquivos de memória de curto prazo internos e um mecanismo de auto-feedback para fornecer sugestões de otimização após cada execução.

Em 24 horas, conquistou 9 medalhas de ouro, 5 de prata e 1 de bronze, com um índice de medalhas de 66,6%.

Este resultado fica em segundo lugar apenas para o Opus-4.6 (75,7%) e o GPT-5.4 (71,2%), e está empatado com o Gemini-3.1.

Quando um modelo consegue atuar como arquiteto de soluções, construindo um sistema de agentes que inclui testes e revisão de código em apenas 4 dias, sem nenhuma codificação manual, as engrenagens do desenvolvimento de IA provavelmente já passaram para a transmissão automática.

Além de sua produtividade extremamente robusta, a estrutura subjacente do MiniMax M2.7 também lhe confere memória estável de longo prazo e forte inteligência emocional, fazendo com que tenha um desempenho significativamente melhor do que os chatbots tradicionais em simulações interativas.

A equipe oficial disponibilizou em código aberto no GitHub um sistema de interação multimodal chamado OpenRoom . Trata-se de um espaço com interface gráfica web onde tudo pode interagir, permitindo que a IA interaja com o espaço em tempo real.

A IA está começando a aprender a "funcionar sozinha", e isso é mais importante do que escrever um bom código.

Após experimentá-lo, o que realmente chamou nossa atenção no MiniMax M2.7 não foi sua taxa de sucesso de 66,6% em competições do Kaggle, nem a integração perfeita do pacote Office.

Em vez disso, busca resolver um problema mais fundamental: permitir que a IA realmente entenda os fluxos de trabalho e participe de sua evolução .

No passado, o software era escrito e usado por humanos. Agora, a IA está começando a escrever, modificar e usar software. Quando um modelo consegue construir um sistema, testá-lo e revertê-lo por conta própria, sem programação humana, as engrenagens da "P&D em IA" terão, em certa medida, passado a funcionar automaticamente.

A questão de "como usar lagostas" em breve deixará de ser um problema, pois não caberá mais a nós decidir.

Na verdade, é a IA que começou a aprender a funcionar por conta própria.

#Siga a conta oficial do iFanr no WeChat: iFanr (ID do WeChat: ifanr), onde você encontrará conteúdo ainda mais interessante o mais breve possível.