“A vitória da engenharia” não está apenas no próprio Manus, mas também em trazer todo o ecossistema de agentes inteligentes para o palco.
Desde o seu lançamento, a Manus tem estado numa montanha-russa.
Desde ficar surpreso no início, até ser promovido a grandes alturas, até ser criticado por estar em estado de choque e comercializado, tudo aconteceu em apenas uma semana.
Entre as diversas vozes, encontramos um grupo de pessoas mais relacionadas ao Manus: desenvolvedores que participam de agentes e instalações de apoio, e falavam do Manus aos seus olhos – sem discutir marketing e polêmica, apenas o aspecto técnico.
A conclusão não é complicada: Manus é sem dúvida um excelente produto. Negar Manus com base no “bombardeio” é um desastre irracional.
Ao mesmo tempo, a palavra “sutura” é injusta. A capacidade e o potencial de um agente de uso geral não se refletem apenas no número de ferramentas às quais está vinculado, mas também na compreensão do próprio agente.
A controvérsia em torno do marketing e dos bombardeios aponta para uma questão: Qual é o valor do Manus?
O “primeiro do mundo” nasceu do nada
Amigos que quase esqueceram o grande evento da semana passada, aqui está uma rápida revisão: tarde da noite de 5 de março, Manus entrou online para testes internos. Na exibição de vídeo oficial, foram lançados vários casos de uso maravilhosos que foram originalmente vistos apenas em PPT, todos os quais demonstraram as capacidades únicas de compreensão e execução de tarefas de Manus.
Para ser honesto, Agente (inteligente) não é novo, mas a declaração de Manus de "o primeiro agente inteligente de uso geral do mundo" desencadeou uma onda de discussão sem precedentes e trouxe o "agente universal" para o primeiro plano.
Como o uso de testes internos requer a solicitação de um código de convite e a velocidade de emissão é lenta, causou pressa em obtê-lo – não importa quão incrível seja o caso de uso, as pessoas que não puderem usá-lo ficarão ansiosas.
Esse mecanismo de código de convite acidentalmente levou Manus a um nível quase estranho de popularidade e foi até chamado de “outro momento DeepSeek”.
DeepSeek é um modelo e Manus é um agente. São dois produtos completamente diferentes. No entanto, até certo ponto, os dois processos são de fato semelhantes.
DeepSeek cria modelos, mas não começa do zero. Em vez disso, obtém sucesso de engenharia com base em uma série de trabalhos de código aberto existentes.
Da mesma forma, a Manus não é a primeira a fabricar um agente de uso geral. Uma rodada de produtos semelhantes surgiu em 2023. A própria Manus também recebe ajuda de muito trabalho de código aberto. A equipe já construiu Monica, um assistente de IA integrado, e acumulou uma vasta experiência em engenharia de agentes. Como tal, Manus também é visto como um triunfo da engenharia.
O que exatamente é a vitória da engenharia?
Esta questão deve remontar à fonte fundamental do que é um “agente universal”.
A diferença entre humanos e animais reside na fabricação e utilização de ferramentas. Esta afirmação também se aplica aos agentes – a diferença entre agentes comuns e agentes de uso geral é que estes últimos podem ativamente chamar ferramentas.
"Muitas pessoas pensam que um agente é o robô conversacional original. Quando conectado a um banco de dados, ele é chamado de agente. Na verdade, a definição de um agente sempre foi que ele precisa ser capaz de usar ferramentas e ser capaz de realmente agir."
Em termos de uso específico do produto, a invocação da ferramenta pode ampliar ainda mais os limites das capacidades do agente. Jian Bai, que atua na comunidade de desenvolvimento de agentes, viu as capacidades de execução de Manus: cortar vídeos.
“O efeito do corte é outra questão, mas pode ser feito, pode ser concluído e não irá rejeitá-lo.”
O princípio não é complicado: a ação de edição pode ser implementada no código até certo ponto. Ou algumas ferramentas online podem ser chamadas para concluir a ação de edição.
A edição concluída desta forma é obviamente grosseira e o produto final não pode ser comparado à edição manual, mas como disse Jianbai, Manus não recusará este pedido, mas encontrará ativamente ferramentas para concluí-lo. “Em aplicações anteriores, o agente poderia recomendar um site ou ferramenta para cortar vídeos, mas não havia esse resultado de ponta a ponta.”
Ele acredita que isso reflete o entendimento da equipe Manus, que ocupa um cargo superior. "Acho que eles tratam o código, incluindo todo o ambiente de execução do código, mais como uma ferramenta do que como um objetivo."
No passado, para alguns projetos semelhantes, fornecer um código ou configurar uma máquina virtual era o objetivo final. O entendimento de Manus é que projetar máquinas virtuais para executar código é apenas um método de implementação e elas existem para cumprir um determinado propósito .
“Acho que eles têm uma liderança cognitiva”, disse Jianbai. “Todo mundo está falando sobre tratar o agente como um ser humano, mas eles realmente pensaram cuidadosamente sobre como o agente é um sujeito”.
Diferenciação chave
Então, será a máquina virtual o design que diferencia a Manus?
“As máquinas virtuais não são um design criativo”, explicou Zheng Qian, que também está trabalhando em um produto de agente de uso geral.
A empresa de Zheng Qian, Convergence.ai, lançou o Proxy, um produto que também é um agente de uso geral, em janeiro, vencendo por pouco o OpenAI no teste de benchmark do webvoyage.
Não muito tempo atrás, o Proxy estava na lista de Product Hunt e Zheng Qian estava ocupado liderando a equipe de engenharia para lidar com o fluxo repentino de tráfego. O que eles enfrentam é o mercado externo. Percebe-se que os agentes de uso geral são agentes que têm grandes esperanças no país e no exterior.
"OpenAI Operator é uma máquina virtual. Manus adiciona uma execução de codificação ao navegador após usá-lo e, em seguida, coloca-o em uma máquina virtual para implementá-lo."
O uso do navegador é um projeto de código aberto com 40.000 estrelas no Github. É equivalente a colocar um navegador na frente dos "olhos" do agente , combinando grandes modelos de linguagem e reconhecimento visual . Os usuários só precisam usar linguagem natural para permitir que o agente execute operações reais nos elementos da página web.
O Early Proxy também tentou uma rota semelhante ao uso do navegador. “Dessa forma, ajuda o usuário a clicar, arrastar, etc. A coisa toda é relativamente simples e direta. Requer apenas que o usuário dê uma tarefa e a execute passo a passo.”
Este formulário é relativamente linear e não consegue lidar com tarefas mais complexas. Em outras palavras, quando a complexidade da tarefa aumenta e o usuário é obrigado a dar instruções mais detalhadas, torna-se um desafio para o usuário.
"Nossa empresa começou relativamente cedo e nos comunicamos mais com a OpenAI e a H Company. Mais tarde, quando o OpenAI Operator foi lançado, o agente se tornou popular imediatamente. Todos rapidamente mudaram para uma coisa nova, que é o agente orquestrador. Zheng Qian é muito claro: "Pode-se dizer que a verdadeira diferença do agente geral não está em quantas ferramentas são costuradas."
A construção de um agente comum pode ser resumida de forma simples e grosseira por "costura". Mas para construir um agente geral, deve ser um projeto de sistema.
“Você pode imaginar um agente como uma pessoa. A parte mais complexa é o sistema central de tomada de decisão – o cérebro e a transmissão neural.
As pessoas não nascem com a capacidade de andar. Os bebês só conseguem agitar os braços e as pernas aleatoriamente, depois podem engatinhar, ficar de pé, tropeçar, aprender a andar e, finalmente, aprender a controlar os membros com precisão.
Todo o processo de aprendizagem é também um processo de maturação gradual do cérebro. A maior parte do trabalho do Proxy gira em torno desse “cérebro”. Especificamente, é pelo planejamento dinâmico que o agente planejador é responsável.
“Há uma piada de que o planejamento não pode prever o futuro: o planejamento pode ser feito muito bem, mas você não sabe o que acontecerá no futuro.
▲ Durante o teste real do Manus, encontramos problemas de login e verificação do site.
Um cenário típico é que os códigos de verificação Proxy e Manus podem resolver alguns códigos de verificação simples, mas aqueles que são muito complexos ainda precisam ser devolvidos ao usuário ou podem ser ignorados diretamente.
Zheng Qian explicou que a dificuldade está nos detalhes: "São todos detalhes e as situações são muito diversas. Como implementar tarefas complexas no planejamento e ao mesmo tempo ser capaz de enviar informações – a base de usuários é enorme e há todo tipo de coisas estranhas. Como cobrir vários cenários é uma grande dificuldade."
Manus não é perfeito nesta fase, mas é uma revelação da engenharia. "Seu principal sucesso é, de fato, na engenharia." William concorda com este ponto "Ele combina modelos existentes no mercado, conecta-os bem com ferramentas e permite que os usuários vejam pela primeira vez quais efeitos um agente que pode realmente chamar a ferramenta pode alcançar. Acho que isso é 100% uma vitória da engenharia."
A verdadeira vitória pertence à ecologia
Manus é como aquela criança que está aprendendo a andar. Ele pode criar grandes discussões não por causa da distância que consegue andar ou da altura que consegue pular, mas porque mostra potencial suficiente.
Esta pode ser a sua maior contribuição: a popularidade do Manus gradualmente trouxe à tona uma série de aplicações gerais do tipo agente e até mesmo trabalhos de infraestrutura.
O desenvolvimento mais recente é que a OpenAI lançou a API Responses, que é uma nova versão para desenvolvedores, ou seja, desenvolvedores de agentes.
Na comunidade de desenvolvedores, Manus inspirou muitas ideias. Jianbai estava trabalhando em um projeto relacionado à memória de agente. O aparecimento de Manus o fez começar a repensar o paradigma relacionado ao armazenamento de memória.
O armazenamento de memória é crucial para o trabalho real do agente. Ele não afeta apenas se o agente pode aprender e usar a experiência de tarefas anteriores, mas também se ele pode formar uma memória sobre os hábitos de uso do usuário e realmente alcançar a personalização.
Além disso, os agentes de uso geral têm o maior grau de liberdade em teoria e podem vincular e chamar qualquer ferramenta – desde que a latência, a padronização da interface etc. sejam boas o suficiente. Este é exatamente o serviço que produtos de médio porte como o ACI desejam oferecer.
Este pode ser o ponto de maior sucesso de Manus: como o caso mais inovador de agentes de uso geral neste estágio, ele abre espaço para imaginação e exploração para uma série de instalações de apoio .
"Na verdade, podemos ver por Manus que o modelo está agora muito à frente do projeto." William acredita que ainda há muito espaço para exploração em engenharia "Podemos continuar a fazer algo no projeto para melhorar o desempenho deste produto de agente de IA. Minha opinião pessoal é que a infraestrutura de agente atual ainda é bastante imatura, incluindo plataformas de chamada de ferramentas como a nossa, ou esse tipo de camada de memória. Ainda há muitas direções na engenharia que podem ser otimizadas."
Este também é o maior sentimento que temos ao entrar em contato com a comunidade de desenvolvedores: eles estão entusiasmados e ansiosos para experimentar. As possibilidades contidas na palavra “universal” estão mais vívidas do que nunca .
O Proxy lançará em breve uma versão iterativa baseada na nova ideia de agente paralelo. Zheng Qian tem observado o feedback da comunidade. Ele percebeu que muitos usuários usam o Proxy de maneiras que nunca imaginaram e que novas possibilidades são constantemente descobertas.
"É provável que o propósito de uso final da maioria dos produtos não seja o propósito para o qual foram originalmente desenvolvidos. Podem ser os usuários que descobrem usos que não descobrimos. Também estamos esperando esse momento chegar."
# Bem-vindo a seguir a conta pública oficial do WeChat do aifaner: aifaner (WeChat ID: ifanr). Mais conteúdo interessante será fornecido a você o mais rápido possível.