Primeira experiência de lançamento AI aprende a enviar envelopes vermelhos! Agente Doméstico controla celulares e computadores com apenas uma frase, vejo um futuro de “liberdade para pescar”

novembro 30, 2024 gurinho

Em 2024, a palavra-chave mais popular no círculo de IA não é outra senão Agente.

Dos simples GPTs da OpenAI ao uso de computadores da Anthropic que podem agir de forma autônoma, até a recente avaliação da startup /dev/agents de IA de US$ 500 milhões com seu sistema operacional Agent, os fabricantes estão tentando encontrar a próxima direção clara para a IA.

Na China, no mês passado, a Zhipu AI também trouxe sua própria resposta – AutoGLM.

Se você pegar seu telefone, abrir um aplicativo, clicar em pesquisar, inserir palavras-chave… geralmente são necessárias quatro ou cinco etapas para concluir essas operações, mas com a IA, essas operações se tornam questão de apenas uma frase.

Hoje, a Zhipu AI também lançou uma série de produtos de agentes que abrangem vários terminais em Pequim.

Os usuários só precisam inserir instruções, e o GLM pode entender as instruções, planejar tarefas e, em seguida, identificar janelas, gráficos, texto, etc. na interface e realizar operações automáticas, assim como entrar na era da navegação quando a IA assume o controle do equipamento .

No Agent OpenDay, o CEO da Zhipu AI, Zhang Peng, usou o AutoGLM para estabelecer grupos presenciais e enviou envelopes vermelhos do WeChat e envelopes vermelhos com senha on-line para centenas de participantes. Se você tem algum amigo que recebeu envelopes vermelhos, compartilhe sua alegria na área de comentários.

AutoGLM: Terminal móvel (temporariamente aberto para Android), pode realizar de forma independente operações de etapas longas de mais de 50 etapas, adequado para operações complexas, como comparação de preços, navegação e superchamadas.
GLM-PC: versão para PC (temporariamente aberta para sistemas Mac), uma ferramenta de produtividade adequada para liberar as mãos dos trabalhadores. Os telefones celulares também podem operar computadores remotamente.
AutoGLM-Web: versão web, com suporte para direção autônoma em dezenas de sites como Baidu Search, Zhihu, Github, etc.

A nota de rodapé mais vívida é provavelmente que, do Chat ao Act, a IA está em toda parte, mas o Agente também está em toda parte. Em outras palavras, de “pensar” por nós a “fazer” por nós, o Agent está redefinindo os dispositivos inteligentes.

Em anexo está o link de salto da experiência:

AutoGLM: https://agent.aminer.cn/
GLM-PC: https://cogagent.aminer.cn/home
AutoGLM-Web: https://new-front.chatglm.cn/webagent/landing/index.html?channel=ads_news_openday

As IAs de outras pessoas estão apenas conversando, mas essas IAs podem me ajudar a pescar.

A IA me ajuda a pescar? AutoGLM me permite deitar e usar superligações e comprar café

Em artigos anteriores, vimos como o AutoGLM assume o controle de nossos telefones celulares.

Enviar mensagens WeChat de forma totalmente automática, navegar no Taobao… Coisas que tínhamos que fazer no passado agora são cobertas pelo AutoGLM. Além disso, este trabalhador de IA foi atualizado hoje e é muito bom no que faz.

Também experimentamos essas ferramentas de IA mais recentes com antecedência.

Nosso conceito de consumo é que você pode comprar coisas caras, mas não pode comprá-las caro.

Por exemplo, não muito tempo atrás, Yuval Harari, autor de "Uma Breve História da Humanidade", publicou seu último livro "Beyond Homo Sapiens". Então por que não deixo a IA me ajudar a navegar no Pinduoduo e no Taobao para ver onde posso? encontrá-los? Um bom negócio.

Só preciso mover a boca e a IA me ajudará a correr e quebrar as pernas. Porém, se você olhar com atenção, ainda há uma pequena falha em confundir o título do livro.

Se for difícil falar em um ambiente barulhento, não se preocupe.

O AutoGLM também está equipado com um “modo silencioso”, que permite dar ordens digitando, e antes de executar uma tarefa, o AutoGLM também deixa um “tempo de arrependimento” de 3 segundos para o usuário, permitindo parar e ajustar a execução de a tarefa a qualquer momento.

Há boas notícias para os caçadores de estrelas: o recém-atualizado AutoGLM pode até entender check-ins e clock-ins.

Tomemos como exemplo o check-in da superchamada de Li Xingliang. Só preciso inserir minhas instruções na janela flutuante do AutoGLM e a IA fará todo o processo para mim. Só preciso "aparecer" quando encontrar informações confidenciais. , e diga adeus ao “check-in perdido” com um clique ”ansiedade.

A propósito, você também pode definir comandos de atalho para essas tarefas diárias e concluí-las com um clique.

Não subestime esta função. Como trabalhador diário, o café que você pede regularmente à tarde pode ser chamado de “ferramenta de sustentação da vida”. precisa guardar as instruções para pedir o café, o que economiza muito esforço.

Escolha o modo casual e deixe a IA tomar todas as decisões por você, abrindo a caixa de café cega. No entanto, quando se trata de operações importantes como enviar, fazer pedidos e pagar, o AutoGLM devolverá ativamente a escolha para você.

A colaboração entre aplicações é um grande destaque desta atualização.

A IA da Apple nos mostrou a importância da IA em nível de sistema para romper a barreira de aplicativos e agora, com a ajuda do AutoGLM, também podemos obter efeitos semelhantes. Por exemplo, pedi à IA que procurasse um tutorial sobre alho. repolho em Xiaohongshu, e foi bem-sucedido.

A nova função de navegação AI também é muito útil. Quer ir para a Torre de Cantão? Basta falar com o AutoGLM gentilmente e a IA providenciará isso para você com clareza.

Infelizmente, o AutoGLM oferece suporte apenas a sistemas Android.

No entanto, Zhipu também liberará a cota de testes internos do usuário do AutoGLM a partir de agora e otimizará ainda mais as funções e a experiência do usuário. Espera-se que seja lançado o mais rápido possível e se torne um produto verdadeiramente aberto à maioria dos usuários C-end. .

O plug-in AutoGLM-Web de Zhipu Qingyan também lançou a função AutoGLM a partir de agora.

É relatado que o AutoGLM-Web oferece suporte à direção autônoma em dezenas de sites como Baidu Search, Weibo, Zhihu e Github.

Na demonstração oficial, o AutoGLM-Web completa automaticamente “pesquisar Mango TV no Baidu, abrir Goodbye Lover, reproduzir o episódio mais recente e postar comentários”. Não há intervenção do usuário durante todo o processo.

▲descrição da imagem Foto de: xxx.

De telefones celulares a computadores, deixe a IA funcionar como um trabalhador para mim

Comparado com o AutoGLM, o GLM-PC oferece uma experiência mais funcional para cenários de local de trabalho no lado do computador.

O GLM-PC é atualmente projetado para computadores Mac equipados com chips da série M, sendo os dispositivos das séries M1 e M3 os mais recomendados. Insira a ação que deseja realizar na caixa de diálogo e o GLM-PC avaliará a ferramenta e decidirá sobre um plano de ação.

Obviamente, ao encontrar operações confidenciais, o GLM-PC irá pausar automaticamente e aguardar as operações ou confirmação do usuário.

Quer saber o conteúdo popular da Estação B? O GLM-PC irá ajudá-lo a encontrar a primeira "escova obrigatória ao entrar no site" usando três vezes, cinco vezes e duas vezes, além de economizar muito tempo de remo sem rumo.

Quer convidar Zhang San para uma reunião? Deixe a questão do envio de mensagens WeChat para a IA. Mesmo quando a página está bloqueada, ela pode ser posicionada com precisão na caixa de pesquisa do WeChat.

Também pode ajudá-lo a agendar reuniões da Tencent e enviar convites de reuniões aos participantes. Recomenda-se que após finalizar o trabalho, colete este conjunto de “Cheats de Operação” para melhorar a eficiência do trabalho através do fluxo de trabalho.

Como editor, minha função favorita é permitir que ele me ajude a organizar as notícias sobre IA no exterior. Após dar o comando, a IA abrirá o navegador, inserirá a URL e obterá um resumo claro das notícias.

A propósito, se você é um novato que acabou de mudar do sistema Win para o Mac, ficará um pouco confuso por causa das mudanças no sistema.

Agora o GLM-PC é o seu “canudo que salva vidas”. Seja ajustando o modo de exibição ou outras configurações, deixe todas as suas demandas por conta dele. Deixe as coisas problemáticas para a IA e guarde a felicidade para você. Esta é a maneira correta de vencer na vida.

O GLM-PC também possui uma função que pode ser chamada de “rei bomba”.

Primeiro ative o "modo de suspensão" nas configurações do GLM-PC e, em seguida, faça login em "https://cogagent.aminer.cn/m" por meio do código de verificação no seu celular. Seu celular pode até mesmo controlar remotamente o computador. .

Especificamente, você pode enviar mensagens de comando para o GLM-PC remotamente e permitir que o GLM-PC execute operações no computador. Cada vez que o GLM-PC realizar uma etapa, ele retornará uma captura de tela da operação. Caso haja uma operação sensível, ele aguardará a confirmação do usuário antes de operar.

Durante a demonstração no local, Zhang Peng também emitiu instruções ao cogagente por meio da página da web do GLM-PC em seu telefone celular e enviou arquivos com sucesso por meio do WeChat no computador.

Na verdade, quando a IA começa a realmente “trabalhar” em vez de apenas “falar”, isso também marca que as aplicações de IA entraram num estágio pragmático “pé no chão”. Pode-se dizer que quando a IA realmente começar a resolver as tarefas diárias, ela se transformará de um brinquedo em uma verdadeira ferramenta de produtividade.

Pode ser assim que a tecnologia de IA deveria ser.

Tempo de uso do telefone

Nos últimos dois meses, a indústria de telefonia móvel lançou intensamente uma série de novos produtos. Há uma tendência à qual vale a pena prestar atenção. Embora os telefones celulares com IA ainda não tenham sido amplamente reconhecidos pelos consumidores, a IA em nível de sistema tornou-se o destaque. sistemas operacionais de vários fabricantes Na verdade, isso também é uma tendência. Este é um precursor da popularização do Agente.

Quer seja o Blue Heart V da vivo e o “Phone GPT” que podem ser usados para pedidos de IA na conferência de imprensa, o Xiaoyi e Intent Framework da Huawei Hongmeng ou o agente inteligente YOYO da Honor, eles são todos iguais em essência ao Agente lançado por Zhipu hoje:

Deixe a IA imitar o ciclo humano Planejar-Fazer-Verificar-Agir (Planejar-Fazer-Verificar-Agir) para operar o equipamento como humanos.

Como Zhang Peng, CEO da Zhipu AI, mencionou na conferência de imprensa de hoje, os recursos atuais do agente são mais como adicionar uma camada de agendamento inteligente entre usuários e aplicativos para conectar todos os aplicativos e até mesmo todos os dispositivos.

Isso pode ser visto como um protótipo do sistema operacional geral de grande modelo LLM-OS. Zhipu também chama esse conjunto de interações de Agentes de construção de GLM-OS, que terá um grande impacto na forma de interação humano-computador.

O membro fundador da OpenAI e guru da tecnologia de IA, Andrej Karpathy, também falou muitas vezes sobre o sistema operacional de modelo de linguagem grande (LLM OS). Ele acredita que o modelo grande é, até certo ponto, um novo computador e sistema operacional, que pode conectar vários softwares e hardware. , assim como periféricos compostos por todas as informações modais, realizam diversas tarefas por meio de chamadas de função.

Em um sistema operacional tradicional, você precisa construir vários periféricos em torno da CPU, como mouse e teclado, armazenamento em disco e espaço de cache.
No LLM OS, o próprio modelo grande é a unidade central de processamento. Os periféricos de E/S não são mais mouse e teclado, porque o LLM pode ser compatível com mais modos de entrada e saída de dados. Ao mesmo tempo, ferramentas externas chamadas por grandes modelos também serão atualizadas de software tradicional para ferramentas de agentes inteligentes.

Entre eles, a operação entre aplicações é um elo muito crítico, o que significa que o Agente pode realizar operações mais complexas, autônomas e coerentes, e também pode avançar em direção à comercialização real.

No início do ano, julgamos que o modelo grande se tornaria o novo sistema operacional para smartphones, e a interface de usuário natural (NUI) substituiria gradativamente a interface gráfica de usuário (GUI) existente.

Quanto à possibilidade de ligação dos serviços prestados por diversas empresas de Internet, este pode ser o maior obstáculo para a concretização deste tipo de interacção no futuro. Mas quer se trate de um smartphone ou de uma aplicação, acabará por ser um produto faseado na história do desenvolvimento humano.

A atual interação do Agente ainda está em seus estágios iniciais No contexto da Lei de Escalabilidade que encontra gargalos na indústria, como o Agente pode se tornar uma verdadeira ferramenta de produtividade e assumir uma proporção maior de decisões de trabalho?

Liu Xiao, diretor técnico da AutoGLM, disse em entrevista à APPSO que o pré-treinamento certamente continuará, mas haverá um novo conjunto de lógica para treinamento de algoritmos e dados.

O CEO da Zhipu AI, Zhang Peng, também disse à APPSO que a equipe está relativamente otimista sobre o espaço das Leis de Escalabilidade e espera explorar mais possibilidades no novo paradigma e ecossistema.

Este ano, muitos fabricantes usaram invariavelmente a condução autônoma para descrever a inteligência dos terminais de IA. OpenAI também divide a IA em cinco níveis: L1-L5.

Diferente do OpenAI, Zhipu define os cinco estágios de desenvolvimento de grandes modelos como: habilidade de linguagem L1, habilidade lógica L2 (habilidade multimodal), habilidade L3 de usar ferramentas, capacidade de autoaprendizagem L4 e exploração de leis científicas L5.

Zhang Peng acredita que os grandes modelos inicialmente possuíam parte da capacidade dos humanos de interagir com o mundo físico real. "O agente melhorará muito a capacidade do L3 de usar ferramentas e, ao mesmo tempo, abrirá a exploração da capacidade de autoaprendizagem do L4."

Desde o uso do telefone, do computador, do carro até o uso de todos os dispositivos, a capacidade de raciocínio de grandes modelos e a interação do agente afetam gradualmente a maneira como usamos os dispositivos inteligentes.

Permitir que a IA envie mensagens e curtidas do WeChat parece ter um significado prático limitado agora, mas assim como o AlphaGo, não importa quão bom seja no xadrez, não terá muito impacto na sociedade. O AlphaFold do Google DeepMind pode prever a estrutura de quase todas as proteínas. ajudando no tratamento e na pesquisa de um grande número de doenças.

A mudança de paradigma por trás disso é a alavanca que alavanca a renovação do estilo de vida humano. O Agente permite que o grande modelo passe do Chat para o Act, e a forma do chamado terminal de IA emerge gradualmente, em vez de apenas uma mudança na nomenclatura.

Autor: Li Chaofan, Mo Chongyu

# Bem-vindo a seguir a conta pública oficial do WeChat de Aifaner: Aifaner (WeChat ID: ifanr). Mais conteúdo interessante será fornecido a você o mais rápido possível.

Ai Faner | Link original · Ver comentários · Sina Weibo |