Construindo Labubu de 0 a 1, o MiniMax Agent me deu uma ideia de como será o futuro dos agentes inteligentes
No primeiro semestre deste ano, a novidade mais esperada e empolgante são as ferramentas Agent, que prometem muito: aquelas tarefas repetitivas, demoradas e que exigem muito esforço do dia a dia agora podem ser feitas apenas movendo os dedos e digitando alguns comandos.
A torta é realmente tentadora, mas pense bem: se você quer ser realmente útil, precisa de algum tipo de pensamento e planejamento semelhante ao seu e ao meu, e até mesmo da capacidade de competir consigo mesmo e refletir sobre si mesmo.
Com isso em mente, testamos o mais recente MiniMax Agent para uma rodada de testes aprofundados – não mais satisfeitos com avaliações de nível básico, mas o colocamos em alguns cenários de trabalho interessantes e desafiadores, porém realistas, para ver o quão inteligente ele pode ser.
Só há uma coisa que posso dizer sobre o MiniMax Agent: você consegue fazer o trabalho enquanto joga.
Conteúdo criativo: narrativa visual além da imaginação
A própria MiniMax tem uma profunda experiência em modelos multimodais, e essa vantagem é muito útil para quem deseja produzir trabalhos criativos.
O Labubu tem se tornado extremamente popular ultimamente, então, por acaso, precisávamos elaborar um plano de promoção para ele. Parece complicado, mas este agente não entrou em pânico. Ele primeiro desenvolveu um plano estratégico de promoção completo, determinou a lista de entregas, gerou cartazes de forma organizada e, em seguida, preparou os cartazes passo a passo.
Durante todo o processo, o MiniMax Agent usa seu cérebro para pensar enquanto utiliza as ferramentas apropriadas, tornando tudo tranquilo e organizado.
Quanto aos resultados, foi uma surpresa: não só a estética visual estava online, como a introdução também era clara e havia uma série de galerias de pôsteres temáticos uma após a outra. Acontece que o MiniMax Agent não só cumpre o seu papel, como também tem um toque de "bom gosto".
Da mesma forma, você pode continuar a usar Labubu como protagonista e deixar o Agente MiniMax escrever um livro ilustrado de 20 páginas.
Em pouco mais de dez minutos, o MiniMax Agent concluiu o desenho + a escrita da história + o layout da página web em três etapas.
O efeito é surpreendentemente excepcional, as imagens dos personagens são relativamente consistentes, o texto e as imagens em cada página não são superficiais, a leitura é significativa e não entediante. Também suporta a versão web, o layout é razoável e os detalhes são requintados.
Claro, eu prefiro quando Labubu é apelidado de Ursinho de Chapéu de Coelho. Soa fofo e é agradável aos olhos. Com imagens e texto, é adequado tanto para crianças quanto para adultos.
Produção PPT: não apenas bonita, mas também "esculpida"
Um dos destaques desta atualização é a capacidade de criar lindos PPTs, uma necessidade para quem trabalha.
Para o MiniMax Agent, o PPT também é uma espécie de multimodal. Parece apenas imagens e textos, mas, seja na composição, no planejamento e na organização do conteúdo, deve ter um tema, ideias, lógica e ser capaz de completar o conteúdo de forma independente.
Por exemplo, crie um PPT explicativo de física para alunos do ensino fundamental:
Ou um relatório de negócios para investidores:
Simplificando, fazer um bom PPT não se trata apenas de uma simples busca de informações, mas também de um teste da capacidade de filtrar, reduzir ruído e correlacionar informações entre domínios.
Todos os produtos finalizados ficaram ótimos, o que nos faz pensar: O que o MiniMax Agent fez durante o processo de produção?
Realizamos um teste usando PPTs de pesquisa de mercado, que geralmente são intensivos em dados e informações. Esta foi uma boa oportunidade para verificar o quão bem os PPTs compreenderam os dados, selecionaram os gráficos apropriados e apresentaram os resultados.
Em primeiro lugar, ele pode dividir tarefas com precisão e organizar o conteúdo de acordo com a estrutura de três camadas de "layout de página + tipo de gráfico + estilo de dados", e o planejamento de página é muito bom.
A visualização não apenas exibe de forma completa os principais pontos de dados, como também utiliza métodos de visualização apropriados para exibi-los de acordo com as diferentes características dos dados. A transição da animação de todo o PPT também é muito suave, destacando naturalmente os pontos-chave, e até mesmo o esforço de ajuste fino da animação é economizado.
Na entrega final, além dos documentos PPT necessários, também foram fornecidos arquivos Web e PDF adicionais, bem como arquivos Markdown.
No geral, o agente Minimax tem capacidades muito boas em toda a cadeia de "compreensão-integração-raciocínio-geração-expressão", especialmente em análises não relacionadas a código, redação e negócios, e pode ser totalmente descrito como "profissional".
Áudio para site: um fluxo de trabalho de conteúdo inteligente e completo
Se as imagens e os textos não forem suficientemente avançados, surge uma situação que testa ainda mais a capacidade do agente: essa tarefa exige a conversão do formato do arquivo de áudio enviado e, em seguida, a sua conversão em uma transcrição com registro de data e hora. Por fim, um mapa mental deve ser gerado com base no conteúdo.
Consideradas separadamente, essas tarefas não são difíceis, mas completá-las juntas é que é difícil.
No passado, tínhamos que dominar as ferramentas de conversão ou gastar tempo procurando e testando diversas ferramentas de conversão online. O MiniMax Agent pode fazer isso internamente, o que nos poupa bastante o trabalho de encontrar, instalar e operar ferramentas externas.
O MiniMax Agent é altamente eficiente e prático durante todo o processo. A experiência mais intuitiva é a conversão de formatos sem interrupções. Na janela do processo, você pode ver que o MiniMax Agent é rápido e preciso na geração de transcrições.
Além de poder converter conteúdo de áudio em texto, você também pode ter uma compreensão profunda do conteúdo de áudio, o que é refletido no mapa mental fornecido.
Os mapas mentais não só podem classificar claramente as ideias principais e o contexto lógico do áudio, mas também capturar com precisão a hierarquia e os principais pontos de informação do conteúdo.
Isso vai muito além da simples extração de palavras-chave e demonstra a poderosa capacidade do MiniMax Agent de estruturar e visualizar informações dispersas.
Embora eu tenha fornecido os requisitos, na verdade eu não tinha ideia de como implementá-los. Em vez disso, ele tomou a iniciativa de organizar o trabalho sozinho: desde a instalação dos pacotes de dependência até a inicialização do servidor, ele concluiu o trabalho sozinho, sem nenhuma preocupação.
Design de UI: aprender fazendo, resultados eficientes
Quando realmente retornarmos ao nosso trabalho diário, as seguintes etapas devem ser implementadas: pesquisa e compreensão – aprendizado e compreensão – prática. Este é o processo de trabalho mais básico para os humanos. Afinal, sem pesquisa, não há ideias.
Então, se você quer ser um bom agente, esse processo também é essencial – é complicado, mas necessário.
O estudo de caso a seguir examina a implementação de todo o processo: estudar o estilo de design do vidro líquido do Apple iOS 26 e criar uma interface de usuário semelhante.
Obviamente, o Agente MiniMax também sabia que essa era uma tarefa bastante complicada e elaborou um plano de trabalho completo para si.
O próximo passo é projetar, implementar e escrever o código passo a passo. São muitas etapas, mas a execução é feita de forma organizada, sem necessidade de intervenção humana — nem mesmo pensando em encontrar materiais "visualmente impactantes".
A entrega final inclui não apenas um pacote de código, mas também um site para mostrar os resultados de todo o processo de pesquisa e exibi-los visualmente em diferentes dimensões.
Há até mesmo uma área dedicada à experiência interativa, onde você pode simplesmente testar o efeito — ele excede completamente as configurações do prompt original e supera a tarefa.
O prompt original é, na verdade, muito simples. Comparando-o com os resultados finais entregues, podemos ver que o Agente MiniMax não só tem a capacidade de conduzir pesquisas aprofundadas e concluir tarefas com código, como também tem "sua própria compreensão" das tarefas .
Pesquisa profunda: mais do que apenas pesquisar, mais raciocínio
A pesquisa de dados é uma habilidade básica. Não é difícil, mas é um trabalho meticuloso — especialmente ao pesquisar com base nas últimas notícias, a aquisição de informações deve ser ampliada ao máximo.
A julgar pelo processo da cadeia de pensamento e pelos resultados da entrega, o desempenho do Agente na conclusão deste relatório de pesquisa superou em muito as expectativas: ele não apenas concluiu a integração de informações estruturadas, mas também demonstrou sua capacidade de raciocínio.
No relatório, a MiniMax Agent não apenas lista os dados, mas identifica a enorme diferença entre o tamanho do mercado "de cima para baixo" e "de baixo para baixo", e a apresenta como uma "importante visão de mercado".
Obviamente, a simples listagem de informações não pode ser considerada uma verdadeira "pesquisa aprofundada". Os agentes precisam identificar os padrões, tendências e relações causais por trás dos dados e formar "insights" e "visões centrais" valiosos com base neles — isso requer capacidades de raciocínio que vão além da correspondência de texto .
Resumo: Modelo na mão esquerda, Agente na mão direita, MiniMax me permite ver como será o futuro dos agentes inteligentes
O Agent é um dos segmentos mais promissores em IA este ano. Todo mundo fala sobre o futuro do Agent, mas, na verdade, existem pouquíssimas ferramentas capazes de transformar o Agent de uma demonstração de exibição e um brinquedo "quente de cinco minutos" em uma ferramenta capaz de mudar a produtividade.
A MiniMax, que possui um modelo próprio, lançou seu próprio produto Agent, mostrando-nos uma maneira diferente de jogar. Após os testes, também adquirimos uma nova compreensão do Agent: o que determina a experiência do Agent não é apenas o modelo em si, mas também a infraestrutura invisível.
Há um detalhe que vale a pena mencionar aqui: como uma empresa independente, a MiniMax é quase a única fabricante que pode fornecer recursos full-modal completos.
▲ O modelo de fala MiniMax Speech-02-HD ficou em primeiro lugar na lista da Artificial Analysis Speech Arena
▲ O modelo de vídeo MiniMax Hailuo 02 ficou em segundo lugar na lista da Artificial Analysis Video Arena
A maioria dos recursos do Agente depende do mecanismo do modelo, e a tendência de “modelo como Agente” está se tornando cada vez mais óbvia.
Neste ponto, as vantagens das empresas-modelo em aplicações de IA são plenamente demonstradas. Como controlam diretamente o modelo subjacente, podem otimizar a lógica de agendamento com mais eficácia, reduzir custos operacionais e construir um volante de dados para iteração autônoma .
A MiniMax é um exemplo típico disso. À medida que as capacidades do seu próprio modelo melhoram, os custos operacionais do agente são continuamente otimizados e seu desempenho é significativamente aprimorado.
Hoje, a MiniMax tornou público o primeiro modelo de inferência de arquitetura híbrida em larga escala do mundo, o MiniMax-M1, que suporta nativamente um comprimento de entrada de 1 milhão de tokens e a maior capacidade de saída do setor, de 80.000 tokens. O poder computacional de inferência necessário para gerar 100.000 tokens requer apenas 25% do DeepSeek R1, o que reduziu ainda mais o preço dos modelos de inferência.
Enquanto outras startups ainda estão preocupadas com os altos custos dos tokens, a MiniMax conseguiu reduzir sistematicamente os custos operacionais do Agente aumentando a proporção de seus próprios modelos, o que é muito importante para que os usuários tenham uma experiência contínua e estável.
Esta é a interpretação definitiva de "Minimizar Esforços, Maximizar Inteligência". Simplificando, significa usar o mínimo de esforço para obter o máximo de inteligência.
O layout "modelo na mão esquerda, agente na mão direita" da MiniMax permite que eles encontrem o melhor equilíbrio entre capacidades técnicas e valor para o usuário e, de fato, tem as condições de se destacar nessa competição de agentes inteligentes.
Estamos em um ponto de virada sem precedentes: a IA está evoluindo de uma ferramenta para uma entidade inteligente composta com "cérebro, sentidos, mãos e pés", abrindo um espaço de imaginação mais novo e interessante para o trabalho e a vida futuros.
#Bem-vindo a seguir a conta pública oficial do iFanr no WeChat: iFanr (ID do WeChat: ifanr), onde mais conteúdo interessante será apresentado a você o mais breve possível.