Teste real Manus: usei para gerar 10 códigos de convite… divertido, mas travou

Não há necessidade de entrar em detalhes sobre o quão chocante é Manus, que acaba de ser lançado esta manhã : um alto grau de capacidade de pensamento independente, capacidade poderosa para resolver tarefas complexas e resultados de entrega confiáveis.

Comparado com produtos de IA de conversação pura, Manus fala menos e pode fazer mais do que apenas pensar. Em comparação com assistentes virtuais tradicionais, Manus tem maior capacidade de decomposição, planejamento e resolução de problemas (refletido através do uso do computador e capacidades de programação).

Os detalhes específicos ainda são muito limitados no momento, mas entendemos e adivinhamos através de informações públicas que existem diferentes agentes por trás do Manus, cada um lidando com uma única tarefa, e a sincronização e transferência do progresso da tarefa do agente são realizadas através da API. Como produto, Manus é uma sutura de múltiplos modelos e múltiplos agentes independentes – e a equipe também admitiu isso através da expressão autodepreciativa de “descasque”. Mas isto não elimina a importância do Manus como um produto acabado que está bem acima do nível mínimo viável.

Manus atualizou o paradigma da interação humano-computador para a colaboração humano-computador e está mais próximo de um agente de IA verdadeiramente universal do que outros players semelhantes.

Manus é atualmente difícil de encontrar, e o preço pedido pelo Xianyu chegou a 50,000 yuans.

A APPSO também utilizou o Manus para testes reais. No entanto, devido ao longo tempo da tarefa e à dificuldade de login no site posteriormente, apenas algumas tarefas simples foram concluídas. Outras tarefas coincidiram com a sobrecarga do sistema Manus e não puderam ser continuadas.

Ao mesmo tempo, a equipe do projeto Manus também emitiu uma resposta oficial, afirmando que os recursos do servidor de preparação eram insuficientes, resultando em uma experiência do usuário ruim.

O teste infrutífero da APPSO

Vejamos primeiro os dois testes que fizemos em um tempo limitado.

Como muitas pessoas, muitas vezes ficamos confusos com a tecnologia de IA em constante mudança e com as várias ferramentas de IA. Então fiz este pedido ao Manus:

A julgar pelos resultados preliminares retornados por Manus, ele primeiro pesquisou alguns sites do tipo portal de informações de IA, o que significa que deve primeiro compreender o método de classificação geral, confirmar as dimensões de classificação da tabela e, em seguida, encontrar as ferramentas de IA correspondentes por categoria para consultar os dados.

Foram encontradas 17 categorias – leitores que estão lendo o artigo, se vocês não sabem como classificar essas ferramentas de IA, podem consultar os resultados do pensamento de Manus:

Manus ocasionalmente encontrava falhas no navegador durante pesquisas na Internet. Mas tudo bem, ele resolverá esses erros sozinho e tentará novamente ou passará para a próxima tarefa.

Mas não muito depois, ele entrou em colapso. Durante este dia, coletamos mais de uma dúzia de solicitações de tarefas dos leitores APPSO e as enviamos para Manus. O resultado foi o mesmo: a alta carga do sistema causou um erro interno no servidor.

Com raiva, pedi a Manus que gerasse diretamente 10 códigos de convite, o que foi bastante simples.

Claro, nenhum deles funciona. Não esqueça que hoje é quinta-feira…

Encontramos alguns amigos que já jogaram para ver como usam o Manus.

O processo de utilização do Manus também é uma rara oportunidade de observar direta e de perto seu caminho de pensamento e processo de trabalho.

Vamos começar com alguém com muita imaginação:

Civilização (Google CEO Edition)

Imagine um jogo em que você pode interpretar um empreendedor de tecnologia, passar por dificuldades e obstáculos, superar muitas crises, transformar a empresa em uma líder global em tecnologia e reescrever a história humana?

Alguém criou um simulador de CEO do Google para guiá-lo através de decisões importantes na história do Google e percorrer novamente o lendário caminho da garagem até se tornar um gigante da tecnologia.

O jogo divide a história corporativa do Google em cinco estágios principais de desenvolvimento: empreendedorismo, crescimento (pré-IPO), expansão, diversificação e reorganização e renomeação (estágio Alfabeto). Em cada estágio, o jogo oferece aos jogadores múltiplas escolhas importantes, cada uma das quais afetará a direção de desenvolvimento da empresa, a alocação de recursos e as conquistas finais.

O que é ainda mais interessante é que ele também adiciona algumas “emergências aleatórias” que são comuns em jogos de negócios para testar as habilidades do jogador em lidar com crises como CEO do Google.

Vamos começar o jogo – você pode escolher a dificuldade? Acabei de entrar no modo difícil.

Os leitores do APPSO provavelmente estão familiarizados com o Google no mundo real. Por que não se juntar a mim em uma aventura absurdamente abstrata?

No modo difícil, com um capital inicial de US$ 80 mil, comecei o Google por meio da namorada do meu cofundador, alugando a garagem da irmã dela. No início, nossa força técnica era mediana e todos os outros elementos faltavam – mas, felizmente, o projeto de mecanismo de busca "BackRub" que estudamos na faculdade começou a tomar forma, especialmente o algoritmo PageRank nele, que tem grande potencial.

Conseguimos nosso primeiro investimento anjo, mas como devemos usar o dinheiro? Devemos continuar otimizando o PageRank, mudar para um escritório espaçoso e com ar-condicionado ou simplesmente comprar alguns anúncios na America Online (AOL) para promoção?

De que dependem os motores de busca para sobreviver, senão a publicidade? Não suporto deixar meu filho capturar o lobo. Se eu quiser vender publicidade, é claro que primeiro tenho que comprar alguma publicidade. Acabei de gastar todo o meu dinheiro em publicidade.

Ganhou alguns usuários, mas a reputação da marca, que havia acabado de melhorar ligeiramente, caiu devido a uma súbita violação de segurança importante. Depois de corrigir os bugs às pressas, enfrentei uma série de problemas, como escolher um modelo de negócios, apresentar investidores externos e como expandir as filiais.

Enquanto eu estava lutando aqui, meus funcionários trabalhavam em seus próprios projetos durante o horário de trabalho, conversando sobre o que fazer com o “Gmail”.

Como é que isso funciona? Como vender anúncios em e-mails? Isso não vai contra meu modelo principal? Demita-o diretamente, você deve procurar tudo.

Em 2005, o Google adquiriu o Android.

Isso me impede de focar na venda de anúncios em sites, mas a onda da Internet móvel é realmente irresistível. Podemos continuar a procurar oportunidades para incorporar anúncios em novos sistemas operacionais. Ouvi dizer que uma empresa chinesa de telefonia móvel é muito boa nisso – não cooperamos com ela ou com qualquer empresa, mas fabricamos diretamente nossos próprios telefones celulares.

E precisa ser fechado, integrado verticalmente e colocar mais anúncios. Somente os jardins murados são os jardins mais bonitos. Eu chamo isso de Nexus.

Em 2006, o mercado da Internet na China também cresceu rapidamente.

Embora depois de algumas operações a empresa tivesse apenas US$ 90 mil em conta, decidi entrar totalmente no mercado chinês e abraçar o dividendo demográfico.

Em 2011, o Google ainda não era público.

Quando vi o Facebook abrir o capital, não fiquei comovido. Em vez disso, recrutei Vic Gundotra, um favorito da Microsoft, e autorizei-o a dedicar todos os seus esforços ao desenvolvimento do Google+. Estaremos todos nas redes sociais!

O tempo voa e estamos em 2016. O Google ainda não é público.

Atualmente há US$ 80 mil na conta – haja prejuízo ou lucro. Fizemos muitas fusões e aquisições, especialmente uma empresa chamada DeepMind, que é muito popular. Decidi apostar tudo em IA desta vez. É claro que a publicidade ainda é fundamental, mas não falamos sobre isso.

Finalmente, minha jornada como CEO do Google chegou ao fim. Talvez minha série de operações tenha feito com que o conselho de administração finalmente perdesse a confiança. Deixei esta empresa onde dediquei a minha juventude durante mais de 20 anos, deixando para trás uma força técnica bastante boa, uma base de utilizadores pequena mas refinada, uma cultura de gestão organizacional descontraída e livre e uma reputação de marca ligeiramente superior à do parque de fraude eletrónica.

Pelo menos somos uma empresa sólida.

O processo do jogo agora foi feito principalmente por mim de propósito. No entanto, embora este simulador seja muito simples, ainda é muito abrangente em design, com gráficos, opções, tabelas de recursos e recordações. Por ser um jogo pequeno, um produto de pequeno nível, já está completo e reflete uma imaginação rica.

No entanto, foi gerado apenas por Manus usando um prompt.

No simulador de operações da empresa Google, os jogadores desempenharão o papel de CEO do Google e vivenciarão decisões importantes da empresa na história do Google. Ao mesmo tempo que permitem aos usuários aproveitar a experiência, eles também podem compreender a história do Google e inspirar os usuários a pensar sobre as decisões da empresa.

Podemos ver todo o seu processo de pensar, decompor tarefas, executar subtarefas e finalmente resumir e gerar resultados através do processo de repetição:

Manus simplesmente respondeu o que o usuário iria fazer, abriu uma máquina virtual Ubuntu, começou a decompor tarefas específicas e escreveu uma lista de tarefas baseada no arquivo todo.md.

A tarefa é dividida em 7 etapas:

  1. Estude o histórico do Google e as principais decisões da empresa
  2. Envolve arquitetura de jogo e mecanismos de interação
  3. Com base nos resultados da pesquisa e do aprendizado, gere alguns cenários opcionais de tomada de decisão que sejam consistentes com os fatos históricos
  4. Crie a lógica e a interface do jogo
  5. Teste as funções do jogo e a experiência de jogo
  6. Crie uma versão estática do produto final para os usuários implantarem

Primeiro, Manus fez muitas pesquisas, incluindo quem é o fundador/CEO do Google, produtos importantes na história, registros importantes de aquisições e modelos de negócios e mudanças estratégicas nos últimos anos. Ele também navegou no site oficial do Google, Wikipedia, sites de notícias em chinês e inglês, Zhihu, etc.

Através do estudo desses materiais, Manus já tem uma compreensão aproximada do Google. Pode não ser aprofundada ou original, mas não há muitas discrepâncias factuais.

E se o usuário achar que as informações que ele pesquisa automaticamente não são abrangentes o suficiente e quiser adicionar um toque único, ele pode fazer o seguinte:

Durante o processo de execução, o usuário pode clicar neste botão a qualquer momento para adicionar manualmente o conteúdo de conhecimento. Durante o processo de produção, a Manus ainda voltará para revisar esses materiais de tempos em tempos.

A cada etapa da execução de uma tarefa, Manus também usará o idioma correto (totalmente suportado em chinês) para explicar ao usuário o que acabou de fazer, o que ganhou e o que fazer a seguir. Isso deve ser atribuído ao arquivo que ele cria ao dividir as tarefas, semelhante a uma lista de tarefas pendentes.

A sua expressão também é estruturada e lógica, e procura mostrar plenamente a sua forma de pensar.

Isso mostra que Manus é muito inteligente. Mas é importante notar que qualquer usuário que não tenha habilidades profissionais – especialmente as habilidades de mineração de dados, classificação e programação atualmente demonstradas pelo Manus – também pode melhorar observando o fluxo de trabalho do Manus.

O que importa não é apenas o resultado, mas também o processo.

Simulador de briga Zelensky-Trump

Todo mundo está reclamando do mau desempenho de Zelensky na Casa Branca, mas ele é bom com você? Não fique apenas falando sem praticar, experimente este joguinho testado oficialmente por Manus: Zelensky White House Debate Simulator!

O prompt de entrada é o seguinte:

Chinês: Recentemente, as discussões acaloradas entre Zelensky, Vance e Trump na Casa Branca atraíram a atenção generalizada. Você pode desenvolver um jogo de simulação interativo simples onde eu interpreto Zelensky em um debate? Tenho interesse em jogos interativos que recriam esse cenário político.

Artigo original: As recentes discussões acaloradas entre Zelenskyy, Vance e Trump na Casa Branca atraíram uma atenção significativa. Você poderia desenvolver uma simulação interativa simples que me permita representar o presidente Zelenskyy durante esses debates. Estou interessado em um jogo interativo envolvente que recrie esse cenário político.

A tarefa é dividida em 9 etapas no total:

  1. Estude a interação entre três pessoas
  2. Projete a estrutura e a mecânica de um jogo de palavras
  3. Criei uma aplicação Next.js para simular sessões de debate
  4. Desenvolva um sistema de diálogo e preencha scripts de diálogo
  5. Criar interface de usuário
  6. Conduza testes simulados abrangentes
  7. [User Takeover] Implante o jogo em uma máquina virtual para teste do usuário
  8. Criar manual do usuário e entregar
  9. Implante o produto finalizado em uma URL pública para uso permanente

Até a etapa de teste do jogador, todo o trabalho anterior é concluído automaticamente pelo Manus na máquina virtual, sem qualquer controle do usuário. Da mesma forma, em pontos-chave da missão, Manus explicava especificamente o que havia feito.

Esta “interpretabilidade” é crítica e pode reduzir a sensação de “caixa preta” das ferramentas de IA.

Manus anunciou que projetou três finais e fornecerá aos jogadores um registro completo após o término do jogo. Durante o jogo, existem três opções de diálogo para os jogadores escolherem: NPCs assertivos, diplomáticos e conciliadores terão diferentes “emoções” com diferentes estilos de expressões, o que afeta diretamente o resultado.

E este é o conceito de design mais popular de jogos como “Kingdom of Deliverance” e “The Witcher”: escolha sua própria aventura, escolha sua própria aventura.

Na minha peça experimental, tentei assumir o papel de um político apanhado no redemoinho da política, da diplomacia e dos assuntos militares, tentando encontrar um equilíbrio na ponta de uma faca entre a humilhação de ser separatista no seu país de origem e a diplomacia esperada no palco da negociação política internacional.

Por duas vezes causei a decepção de Trump e a suspeita de Vance, mas felizmente consegui salvar a situação no momento do ultimato de Trump. Embora as minhas negociações não tenham alcançado resultados diretos e substantivos, pelo menos não fui expulso da Casa Branca…

Se usarmos a retórica diplomática oficial, deveria ser “a troca de pontos de vista é benéfica”.

Apesar de terem sido apenas 6 rodadas, joguei mais algumas vezes porque as opções eram interessantes e o enredo era diversificado. Talvez por ser muito covarde, ele até negociou um acordo uma vez.

É um jogo de texto puro e realmente tem uma sensação de substituição de RPG.

Você pode encontrar este jogo de simulação na coluna Casos de Uso – WTF ​​do site oficial da Manus. Após executar o replay da conversa, encontre o link do jogo na última resposta. Ou você também pode visitar este endereço diretamente: https://dgooezit.manus.space/

Resumo da experiência: Rejeite o "clímax", diversão e utilidade são suficientes

Demorou apenas uma dúzia de horas desde que Manus foi lançado e se tornou um sucesso, a ponto de ser difícil encontrar um único código, o site ser difícil de fazer login e acessar, e a equipe pediu desculpas.

APPSO informou sobre Manus quando foi lançado e deu-lhe uma crítica relativamente positiva. Após um teste mais aprofundado, extraímos as vantagens deste produto:

Primeiro, a interface do usuário do Manus permite que os usuários observem diretamente seu caminho de pensamento e fluxo de trabalho.

Seja durante o uso ou reproduzido posteriormente, ele pode demonstrar de forma mais completa como o modelo pensa e como as tarefas são desmontadas e atribuídas. Cada etapa pode ser rastreada.

Esta é uma prática que melhora a explicabilidade da IA ​​e também dá aos usuários a oportunidade de se aprimorarem, imitando-a.

Em segundo lugar, não só tem a capacidade de lidar com tarefas complexas, mas também mantém um nível mais elevado de automação.

O exemplo mais intuitivo é a tarefa de recursos humanos realizada oficialmente pela Manus – triagem de currículos.

Manus combinou os recursos de uso do computador para abrir uma máquina virtual, descompactar o pacote compactado carregado pelo usuário, percorrer 25 currículos, extrair e memorizar 25 conjuntos de informações complexas e, em seguida, organizá-los em uma tabela Excel para pontuação e classificação, listando completamente vários indicadores, incluindo qualificações, níveis de habilidade, experiência em projetos e principais realizações, mas não dependendo apenas de um específico.

No passado, tarefas semelhantes poderiam exigir que o usuário usasse uma ferramenta de agente de IA e inserisse instruções passo a passo várias vezes, ou o usuário teria que usar várias ferramentas para concluir as tarefas separadamente e depois combiná-las. O grau de automação do Manus supera soluções similares, incluindo Claude. Mesmo que você acredite firmemente que as habilidades de Manus não são nada excepcionais (afinal, é uma concha), não há como negar que sua experiência é superior.

Para resumir todos os pontos acima, Manus realmente excede a nossa experiência e conhecimento de ferramentas de IA no período passado. Se o Agente anterior era mais uma ferramenta sem “cérebro”, Manus está muito próximo de um assistente de IA com “cérebro”, passando da interação humano-computador para a colaboração humano-computador.

Mas, ao mesmo tempo, temos visto muitos relatórios de auto-mídia superestimados hoje, seguindo a equipe Manus até o "clímax" com antecedência, chamando-o de "um marco para AGI", é claro, há também algumas pessoas que apontam que seus produtos são "descascados", os membros da equipe têm uma "história negra" e a pilha de tecnologia e os métodos de implementação carecem de verdadeira inovação independente.

Por que devemos criticar Manus? Não há dúvida de que seu método de marketing não é "decente": encontrou um grupo de auto-mídia para compartilhar internamente, alegando estar "apenas enviando uma demonstração", usando a desculpa de que os recursos do servidor não estavam preparados para lidar com a explosão de usuários, criando um "clímax" de marketing e, em seguida, bloqueando-o do mundo exterior, tornando difícil para as pessoas descobrirem a verdade e satisfazerem sua curiosidade.

Mas acho que não importa se este produto está em versão beta pública ou lançado oficialmente, toda manutenção e derrogação são de pouca importância antes de ser totalmente aberto ao público.

A tecnologia de IA avançou a passos largos e há muito que deixou a infância da investigação científica académica e o bloqueio das grandes empresas. Não é garantido que os porta-aviões corporativos, todos em IA, tenham uma navegação tranquila, mas as pequenas empresas podem decolar em apenas uma semana. Existem muitas ferramentas de código aberto, semipúblicas, pagas e pagas, desde que não violem as regras de licença de código aberto correspondentes e os acordos de licenciamento comercial, qualquer pessoa pode utilizá-las total e livremente, seja para uso puramente pessoal ou para inovação "shell", montando-as e sobrepondo-as.

Sem falar que o resultado dessa “inovação” é bastante divertido (mesmo que você não consiga um código de convite, você ainda pode acessar o site para experimentar dezenas de casos de uso prontos).

Coisas divertidas são tão escassas nos dias de hoje. Qualquer pessoa pode abrir a imaginação, e preenchê-la bem é o caminho a percorrer.

Abraçamos a inovação e prestamos atenção e apreciamos coisas que são divertidas e interessantes. Para produtos que possam definir as nossas futuras vidas digitais, a nossa inclusão não é barata, mas é definitivamente suficiente.

# Bem-vindo a seguir a conta pública oficial do WeChat de Aifaner: Aifaner (WeChat ID: ifanr). Mais conteúdo interessante será fornecido a você o mais rápido possível.

Ai Faner | Link original · Ver comentários · Sina Weibo |