Teste real do espectro de inteligência AutoGLM com capacidade de meditar, estamos um passo mais perto de um agente que pode pensar
E se existisse uma IA que pudesse pensar, mas não pudesse fazer coisas?
Existem também IAs que podem fazer coisas, mas não conseguem pensar.
Qual você escolherá?
Se eu tivesse que escolher, diria: por que não os dois?
Hoje, no Zhongguancun Forum Zhipu Open Day, a Zhipu lançou o AutoGLM Meditation – o primeiro agente de desktop com recursos de meditação.
Este é o primeiro agente que existe na área de trabalho do computador e pode pensar primeiro antes de fazer algo e continuar pensando enquanto o faz.
Faça uma pergunta e ele irá decompô-la passo a passo, em seguida, abra as guias do navegador uma após a outra na sua frente (ou mesmo se você não olhar), pesquise, encontre, registre, resumir e analisar informações por conta própria e, finalmente, gerar um relatório de resultados para você que foi totalmente verificado e profundamente pensado.
Se você ainda não sabe o que é isso, aqui vai uma breve introdução:
AutoGLM é um produto Agent lançado pela Zhipu, que pode operar telas de telefones celulares e navegadores de computadores. O ponto principal é que o método de implementação é a interface gráfica (GUI) front-end, em vez da interface de aplicativo (API) back-end. Você pode entender que o AutoGLM aprende com os humanos a operar diretamente na interface do usuário por meio do "uso olho-mão". Isso é significativamente diferente da maioria dos produtos de agentes baseados em API no mercado em termos de interação.
A capacidade de pensar, como o nome sugere, permite que a IA pense e pesquise ao mesmo tempo, resolva autonomamente problemas abertos que não estão incluídos no corpus de treinamento e imite a capacidade de pensar profundamente e demonstrar pesquisas aprofundadas. Quando ChatGLM recebeu uma nova rodada de financiamento no início de março deste ano, anunciou que estava desenvolvendo Shensi, e a mudança para esta função também foi lançada no produto de modelo grande "ChatGLM" desenvolvido pela empresa.
No caso do AutoGLM Contemplation, a função exclusiva do agente GUI do Zhipu e a capacidade de contemplação que as pessoas mais procuram e amam finalmente alcançaram a integração.
A base do modelo por trás da Meditação AutoGLM também foi lançada oficialmente neste Open Day:
O modelo básico GLM-4-Air-0414 possui 32 bilhões de parâmetros, mas seu desempenho é suficiente para comparar modelos com parâmetros maiores, como DeepSeek-V3, R1 (670B) e Qwen 2.5-Max.
Como há menos parâmetros, o GLM-4-Air0414 pode executar rapidamente o trabalho do tipo agente, fornecendo uma base para melhoria da capacidade do agente e implementação em larga escala, e garantindo uma experiência de teste para os usuários finais até certo ponto.
A Zhipu também lançou o modelo de inferência GLM-Z1-Air, que é 8 vezes mais rápido que o DeepSeek-R1 (ativação 37B), enquanto o custo é reduzido para apenas um trigésimo deste último.
Este também é um modelo de inferência que pode ser executado em placas gráficas de consumo, o que pode melhorar significativamente a experiência do desenvolvedor.
Zhipu também treinou um novo modelo de contemplação GLM-Z1-Rumination baseado no modelo GLM-Z1, usando métodos de aprendizagem por reforço de autoevolução, que podem realizar pesquisa de rede em tempo real, chamar ferramentas dinamicamente, análise aprofundada e autoverificação. Este modelo de contemplação pode compreender de forma independente as necessidades do usuário, otimizar continuamente o raciocínio, verificar e revisar repetidamente hipóteses em tarefas complexas, tornando os resultados da pesquisa mais confiáveis e práticos.
Ou seja: a arquitetura do modelo básico do AutoGLM é a seguinte:
Modelos de raciocínio e contemplação de nível médio GLM-Z1-Air, GLM-Z1-Rumination
+
O modelo de linguagem subjacente GLM-4-Air-0414
Juntamente com as ferramentas AutoGLM no nível de engenharia/produto, toda a pilha de tecnologia da Meditação AutoGLM é formada.
Zhipu também planeja abrir oficialmente o código de todos os modelos por trás do AutoGLM Meditation em 14 de abril.
Zhipu já compartilhou o julgamento da equipe sobre o roteiro AGI: Se usarmos o nível de direção autônoma como analogia, os atuais produtos de grandes modelos geralmente adquiriram a capacidade de aprender por si próprios, próximo ao L3; enquanto as habilidades como contemplação, reflexão e autocrítica estão no estágio L4.
Deve-se notar que o AutoGLM Meditation ainda está em fase de teste beta. No fim de semana passado, a APPSO utilizou este produto em profundidade. A julgar pelos resultados dos testes, há de facto espaço para melhorias no seu desempenho no tratamento de tarefas complexas, e a lógica subjacente também precisa de ser optimizada. No entanto, como um grande produto de agente modelo muito novo, o efeito geral já é surpreendente.
Zhipu entrou no estágio L4 de agente modelo de grande porte, embora ainda esteja a apenas meio pé da porta.
Atualmente, a função de meditação do AutoGLM foi lançada oficialmente na página da web de Zhipu Qingyan, no lado do PC e no aplicativo móvel, e é gratuita e aberta em quantidades ilimitadas.
Experiência anexada
https://autoglm-research.zhipuai.cn/?channel=chatglm#get_started
Quando o agente tem a capacidade de meditar, a IA finalmente aprende a trabalhar sozinha?
No ano passado, a Anthropic lançou "Computer Use", que também demonstrou capacidades de modelo suficientes e fortes capacidades de interação de dispositivos, permitindo que a ideia de agente (inteligente) fosse finalmente colocada em prática pela primeira vez. Em janeiro deste ano, a maior rival da Anthropic nos Estados Unidos, OpenAI, também interpretou o conceito de agente GUI por meio de seu novo produto Operador.
Também em outubro do ano passado, Zhipu e Anthropic lançaram suas últimas tentativas na direção de agentes quase simultaneamente. O AutoGLM da Zhipu é o primeiro agente baseado em GUI lançado por uma instituição nacional.
A Meditação AutoGLM de hoje não apenas traz os recursos de execução de tarefas do agente para o desktop, mas também integra pela primeira vez recursos de operação de ferramentas, recursos de pesquisa aprofundada, recursos de raciocínio e grandes recursos de previsão.
Este agente orientado a múltiplos recursos é muito adequado para tarefas de recuperação, refinamento e resumo de informações.
É como deixar um agente “dirigir”. No passado, você tinha que dar a ele um carro, ensiná-lo a usar o volante, o acelerador, o freio e as marchas, e até mesmo dizer a ele para onde olhar ao dirigir e dar ré – mas agora, o agente pode “conduzir de forma autônoma”.
Deixe-o criar um "guia de viagem clássico de nicho de duas semanas para o Japão que seja diferente de todas as rotas principais da Internet. Não requer absolutamente ir aos destinos mais populares, mas sim às atrações de nicho, mas também deve ter boas críticas".
AutoGLM Shensi desmontou a demanda com mais precisão, e a lógica de pensamento era relativamente clara: primeiro pesquisou a palavra-chave mais simples "viagem no Japão" para entender as rotas e atrações principais e, em seguida, pesquisou palavras-chave como "atrações turísticas de nicho japonesas" – por meio dessas etapas, construiu uma base de conhecimento na memória dessa conversa, ou seja, o que é mainstream e o que é nicho.
No total, fiz mais de 20 reflexões sobre esta tarefa. Às vezes, há duplicações entre vários pensamentos, como pesquisar pelas mesmas palavras-chave, visitar links iguais ou semelhantes, etc. Isso pode ocorrer porque as informações obtidas em uma única pesquisa não são suficientes. Afinal de contas, a essência da contemplação/busca profunda é duvidar e derrubar-se constantemente, e só passar para o próximo passo quando a confiança suficiente for alcançada.
A APPSO também constatou que dependia demasiado de websites específicos como fontes de informação. 90% de todas as guias abertas foram Xiaohongshu e Zhihu (cerca de metade de cada). Pelo contrário, bases de dados reais de viagens profissionais, como Mafengwo, Qyer.com ou mesmo plataformas OTA, nunca foram utilizadas uma única vez.
Se você quiser fazer um verdadeiro guia de nicho, o resultado de depender fortemente de Xiaohongshu pode não ser o ideal. Afinal, está nas notas populares de Xiaohongshu, então essa atração não deveria ser um nicho. Um verdadeiro viajante de atrações de nicho provavelmente não quer ir a lugares onde os momos já estiveram ou querem ir…
A APPSO percebeu que, depois de pensar profundamente, o AutoGLM Shen Si apresentou requisitos como "planejamento de rota razoável, sem voltas e reviravoltas sem sentido" e "ritmo de viagem razoável, sem forças muito especiais".
Acontece que os resultados reais não reflectiram perfeitamente os requisitos apresentados: por exemplo, nos primeiros dias, andámos de um lado para o outro no Mar Interior de Seto, por vezes indo para dois ou três locais com mais de uma hora de intervalo num dia, um pouco como forças especiais; na segunda semana, voamos para o sul de Aomori para Sendai, e depois voamos para o norte de Sendai para Hokkaido, e ficamos em Hokkaido apenas por dois dias. Considerando que a maioria das viagens de longa distância no Japão depende da JR e as tarifas são caras, uma rota razoável deveria ser ir em uma direção sem voltar atrás. A menos que você precise ir a uma cidade grande para trocar de trem, geralmente não deve voltar atrás.
Mas, de um modo geral, este guia é eficaz: apresenta alguns destinos que o questionador não considerou e também tenta ir a locais com estações, climas e estilos completamente diferentes numa só viagem (em vez de ir e voltar pelas áreas da Grande Tóquio, Monte Fuji e Keisana).
Nessa perspectiva, ele segue as instruções e mostra os resultados do pensamento profundo.
Assim como você não deve usar os resultados gerados diretamente pela IA, este guia fornece uma base muito boa para os viajantes otimizarem destinos, rotas e métodos de transporte intermediários específicos. Viajar não é apenas entrar no ônibus, dormir e sair para tirar fotos. Deve também ter em conta a humanidade e a natureza, aprofundar-se nas tradições culturais locais, explorar paisagens naturais e, pelo menos, viver uma das experiências locais mais únicas.
Contanto que suas expectativas não sejam improvisadas, as respostas que o AutoGLM Musings dá são bastante satisfatórias.
Clique para ver a resposta de Zhipu Qingyan https://chatglm.cn/share/FQoLp
Considerando que a maior diferença entre o AutoGLM Contemplation e outros grandes modelos de pensamento profundo é a capacidade de controle do navegador, a APPSO também testou sua capacidade de uso do navegador de forma mais profunda e rigorosa.
Deixe-o fazer um relatório de pesquisa sobre empresas de computação em nuvem no Conselho de Inovação Científica e Tecnológica e ver quais são os resultados.
Assim como o guia de viagem anterior, não há problema com o “processo de pensamento” meditativo do AutoGLM. Como você pode ver na imagem abaixo, é:
- Desmontou com precisão as condições de filtragem,
- Claramente requer múltiplas rodadas de pesquisa e iteração,
- Desenvolvi um plano passo a passo,
- O alvo de pesquisa aproximado foi encontrado através da "Pesquisa Geral"
- Comece com instruções passo a passo
Mas o processo de uso do navegador é realmente um pouco confuso: a ferramenta AutoGLM tenta repetidamente abrir o site de divulgação de informações designado pela Comissão Reguladora de Valores Mobiliários da China (Juchao Information) e analisar as informações na página da web. Ele encontrou com sucesso a ferramenta de filtragem condicional do banco de dados do site, mas muitas vezes não conseguiu filtrar corretamente. O intervalo de tempo não pôde ser selecionado corretamente ou o menu suspenso da seção correspondente não foi encontrado.
A APPSO observou que o tempo de cada etapa da meditação AutoGLM é geralmente de cerca de 3 minutos e 20 segundos. No entanto, se o acesso ao site não ocorrer sem problemas, a “rodada de reflexão” falhará porque a operação expira.
Além disso, com base na experiência anterior da APPSO com o AutoGLM do ano passado e outros produtos de agente GUI, quando os usuários são obrigados a realizar operações confidenciais, como fazer login, inserir informações de pagamento e clicar no botão enviar, o agente pode parar e aguardar as operações do usuário. No processo de utilização do AutoGLM para ponderar, ele pode sim esperar o login do usuário, mas quando se depara com a situação de “não entender o site”, não chama o usuário para assumir, apenas espera estupidamente.
Nesta tarefa, após duas rondas consecutivas de pensamento falhado, a Meditação AutoGLM começou a entrar num processo cíclico de repensar – o mesmo que o pensamento anterior que levou ao fracasso – e depois repensar. Foi repetido cinco ou seis vezes e finalmente perdeu e voltou seu alvo para Zhihu.
Quando as etapas estão aqui, a tarefa é realmente considerada um fracasso, porque a instrução original inserida é encontrar e resumir informações e anúncios de empresas listadas. A precisão profissional dos dados é muito importante e Zhihu não é uma plataforma confiável de divulgação de informações para empresas listadas.
Após vários testes difíceis, os resultados foram finalmente revelados: embora três empresas, Huawei, Unisplendour e UCloud, estejam todas relacionadas com computação de ponta, os códigos de ações das três empresas estão todos errados, sem mencionar que duas delas não estão listadas no Conselho de Inovação Científica e Tecnológica.
A capacidade de “direção autônoma” do agente tem muito a ver com as condições da estrada e a posição de dirigir
Entre outras tarefas mais fáceis (como planejar viagens, guias de jogos, encontrar informações simples, etc.), a capacidade de uso da ferramenta AutoGLM pelo navegador não é um grande problema.
No entanto, a APPSO descobriu que, uma vez que o design visual do site atual é relativamente complexo, ou o design tem algumas armadilhas, a ferramenta AutoGLM pode facilmente “tropeçar”.
Um dos exemplos mais diretos são os sites de comércio eletrônico. APPSO deu um lembrete claro: “Vá ao Taobao ou JD.com para comprar uma camiseta japonesa pesada”. O AutoGLM ponderou e formulou um grande plano e uma divisão clara de trabalho – mas não conseguiu nem entrar no portão da montanha da página inicial do Taobao e nem mesmo encontrar a caixa de pesquisa. E parece estar completamente bloqueado pela coisa "não é possível encontrar a caixa de pesquisa", e nem sequer olha para outros locais da página da web – se tivesse olhado, com certeza teria descoberto que produtos relacionados já apareceram nas recomendações da página inicial.
Em relação à situação inesperada descoberta neste teste, Zhang Peng, CEO da Zhipu, disse: “Você não pode confiar na sociedade para memorizar cliques”. O AutoGLM ainda está em fase beta, ainda há muito espaço para evolução e a velocidade de atualização atual também é muito rápida (APPSO está testando o efeito de uso do Taobao na versão oficial de lançamento, e não é mais tão tropeçante).
Zhang Peng destacou que sob o conceito de modelo como serviço ou produto (MaaS), as capacidades do produto modelo em si devem ser tão altas e abrangentes quanto um barril de madeira. Talvez as capacidades visuais da ferramenta AutoGLM atual não sejam tão boas quanto as dos humanos e sua capacidade de lidar com situações inesperadas não seja suficiente. Em última análise, pode acontecer que as suas capacidades de generalização não sejam suficientes. No entanto, a melhoria dessas capacidades não é um problema de modelo, mas um puro nível de engenharia – não há necessidade de se preocupar.
Do nível básico do modelo, o AutoGLM Contemplation também tem espaço para melhorias.
Amigos que costumam usar produtos de modelo de linguagem grande sabem que quanto mais específicos os prompts forem escritos e quanto mais claros as regras e limites forem definidos, melhor será o efeito e maior será a probabilidade de gerar resultados que atendam aos prompts do usuário. O mesmo vale para agentes baseados em grandes modelos de linguagem.
Mas as instruções não podem ser ampliadas infinitamente, assim como se você contratasse uma secretária para te ajudar no seu trabalho, nem sempre você deve explicar com clareza todas as informações como "quem procurar", "para onde", "quando" e "para onde ir" todas as vezes, para que ela possa ajudá-lo a se preparar para uma refeição com tranquilidade.
O modelo de linguagem grande é muito poderoso, mas também tem seus pontos negativos: é limitado apenas por regras de texto e não tem a capacidade de planejar problemas práticos reais, por isso é fácil ficar preso durante a tarefa; falta um espaço de memória de contexto longo o suficiente e a tarefa não pode ser continuada se durar muito; o erro na etapa anterior será amplificado gradualmente com as etapas até falhar.
AutoGLM também é um agente baseado em um grande modelo de linguagem. Embora muito trabalho tenha sido feito nas capacidades do agente, ele ainda é inevitavelmente amaldiçoado pelo grande modelo de linguagem. Quanto mais forte for sua capacidade de raciocínio, mais fácil será pensar demais e de maneira errada.
A partir do processo de teste do APPSO, podemos perceber que, exceto por alguns conceitos absolutamente básicos (como “viagem”, “camiseta”, “empresa”), ele não possui conhecimentos de nível superior um pouco complicados. Cada vez que o usuário emite algum comando, ele deve primeiro abrir o navegador, estudar online, esclarecer a que o usuário está se referindo e estabelecer uma base de conhecimento dentro do espaço limitado de memória desta conversa antes de prosseguir com as etapas subsequentes.
A julgar pelas poucas fontes de informação em que é actualmente mais bom e em que confia, uma vez que a complexidade e o profissionalismo das tarefas dos utilizadores "aumentam a intensidade", é realmente um pouco relutante em encontrar informações verdadeiras, precisas e valiosas dentro do tempo aceitável para os utilizadores (o limite oficial actual é de cerca de 15 minutos no total por tarefa), e muito menos em fornecer aos utilizadores resultados eficazes (metade dos testes da APPSO não conseguiram produzir resultados completos).
Mas isso não é um problema muito grande.
Existe um ponto de vista prático que pode ser aplicado à meditação AutoGLM:
Com o nível atual de agente, tratá-lo como um “motivador principal” pode não ser suficiente. Mas ainda é um bom copiloto.
Na Contemplação AutoGLM, vimos capacidade de raciocínio suficiente e excelente capacidade de uso do navegador (mas na verdade está sujeita a fatores objetivos). Obviamente, a Zhipu, como um dos poucos players com a capacidade de modelo mais forte entre as atuais empresas não gigantes da China, certamente continuará a melhorar nessas duas habilidades, e isso será muito rápido.
Desde que o APPSO obteve a qualificação de teste e o AutoGLM Sisi foi lançado oficialmente, várias versões foram atualizadas e melhorias foram feitas na base do modelo e nos recursos de controle do navegador.
Mas se o que queremos é um agente que possa realmente pensar e fazer coisas, provavelmente precisaremos de uma base de agentes mais poderosa do que o grande modelo de linguagem do paradigma actual.
A estrutura do Agente de “Linguagem + Raciocínio + Contemplação + Ação” lançada por Zhipu, embora ainda desajeitada no nível do produto, parece ser uma direção muito clara e viável.
É verdade que para grandes modelos produzidos internamente e produtos de agentes baseados em grandes modelos, pode ser mais prático se o objetivo atual for “alcançar os rivais do Vale do Silício”. AutoGLM é uma “nova espécie” que é obviamente diferente de todos os produtos similares e similares na China em termos de lógica operacional e propósito de implementação. Também está se aproximando da Anthropic e da OpenAI.
Para um líder de inovação de grande porte, que não é um gigante, mas nasceu nas melhores universidades da China, a maioria das deficiências pode ser tolerada, mas é mais importante ver a originalidade e a liderança do que está a fazer.
# Bem-vindo a seguir a conta pública oficial do WeChat do aifaner: aifaner (WeChat ID: ifanr). Conteúdo mais interessante será fornecido a você o mais rápido possível.