Yang Zhilin, Luo Fuli, Xia Lixue, Zhang Peng e Huang Chao, cinco figuras de destaque na área de IA, discutiram detalhadamente lagostas, tokens e código aberto.

Lagosta é uma das palavras mais usadas na comunidade de IA recentemente.

Refere-se ao OpenClaw, uma estrutura de agente inteligente de código aberto que se espalhou rapidamente na comunidade de IA recentemente. Algumas pessoas o comparam ao Jarvis, outras ao Scaffolding, e outras ainda a um sistema operacional leve. Todo mundo o usa, e quanto mais o usam, mais difícil fica de parar.

Seguiram-se discussões sobre o assunto: o que as lagostas conseguem fazer, o que não conseguem, para onde se encaminha a tecnologia, se a capacidade computacional é suficiente, quem beneficia e quem está apreensivo.

Agora, um grupo de pessoas próximas à linha de frente do setor se reuniu para uma discussão séria sobre o assunto. Yang Zhilin, fundador da Moon's Dark Side, moderou um debate com cinco participantes na mesa-redonda sobre código aberto do Encontro Anual do Fórum Zhongguancun, em Pequim. Entre os participantes estavam Zhang Peng, fundador da Zhipu; Xia Lixue, fundadora da Wuwenxinqiong; Luo Fuli, chefe do modelo MIMO grande da Xiaomi; e Huang Chao, professor assistente da Universidade de Hong Kong.

A conversa começou com a experiência real do usuário do OpenClaw e se estendeu à lógica de precificação do modelo, gargalos estruturais na infraestrutura de inferência, inovação na arquitetura do modelo e julgamento coletivo sobre a tendência do setor nos próximos doze meses.

Desde o bate-papo até o trabalho em si, o que mudou no OpenClaw?

No início do fórum, Yang Zhilin levantou um tópico comum: Qual a experiência mais criativa ao usar o OpenClaw ou produtos similares no dia a dia? De uma perspectiva técnica, como devemos entender a evolução dos frameworks de agentes inteligentes atualmente?

Zhang Peng disse que começou a mexer com esse tipo de ferramenta há muito tempo, quando ainda não se chamava OpenClaw, mas sim ClawBot. Sendo programador de formação, ele tem uma aptidão natural para essas coisas. Na opinião dele, o maior avanço do OpenClaw está em tornar as capacidades de modelos de ponta, especialmente em programação e agentes inteligentes, acessíveis a pessoas comuns.

"Isso não é mais domínio exclusivo de programadores ou geeks. Criou-se uma estrutura robusta, porém flexível, sobre o modelo, permitindo que ideias antes impossíveis de concretizar devido à falta de habilidades de programação sejam hoje realizadas por meio de um diálogo simples." Ele prefere chamar ferramentas como o OpenClaw de "estrutura", pois oferecem uma possibilidade em vez de um produto fechado.

A primeira reação de Xia Lixue foi de desconforto. Ele estava acostumado a se comunicar com modelos complexos e, inicialmente, achou o OpenClaw lento e com atrasos. Mas depois percebeu que esse tipo de ferramenta era fundamentalmente diferente de um chatbot: era mais parecido com uma pessoa capaz de lidar com tarefas complexas, em vez de uma ferramenta para responder perguntas.

"Desde modelos de cobrança baseados em tokens até agentes inteligentes que podem ajudar a concluir tarefas, o potencial da IA ​​deu um salto enorme. Mas, ao mesmo tempo, as exigências sobre as capacidades de todo o sistema também aumentaram significativamente, e é por isso que inicialmente pensei que estivesse defasado."

Ele então revelou uma estatística impressionante: desde o final de janeiro deste ano, o uso do token Wuwenxinqiong praticamente dobrou a cada duas semanas e agora aumentou dez vezes. "A última vez que vi essa taxa de crescimento foi na era do 3G, quando os dados móveis estavam apenas começando a se popularizar. Naquela época, todos tinham 100 megabytes de dados por mês, e o uso atual do token dá essa mesma impressão."

Ele acredita que todos os recursos existentes estão longe de ser suficientes para suportar esta era de rápido crescimento, e que são necessárias melhor otimização e integração.

Luo Fuli ofereceu uma perspectiva diferente do ponto de vista do design de frameworks de produtos. Ela vê o OpenClaw como um evento revolucionário e disruptivo no campo dos frameworks de agentes. Ela observou que muitos na comunidade de programação avançada ainda escolhem o Claude Code como primeira opção, mas acredita que apenas aqueles que realmente usaram o OpenClaw podem apreciar seus recursos de design exclusivos. Ela também apontou que muitas atualizações recentes do Claude Code estão, na verdade, se aproximando da direção de design do OpenClaw.

Ela resumiu os dois níveis dos valores fundamentais da OpenClaw.

Em primeiro lugar, o código aberto. O código aberto permite uma participação profunda da comunidade e a melhoria contínua, o que é um pré-requisito crucial. Ela acredita que um valor fundamental das estruturas de código aberto reside em elevar significativamente o potencial dos modelos nacionais que, embora não possuam um grande número de parâmetros, ainda demonstram considerável habilidade.

"Na maioria dos cenários, a taxa de conclusão da tarefa é muito próxima do nível do modelo mais recente de Claude, mantendo também um bom limite inferior graças a um sistema completo de arnês e um sistema de habilidades."

Em segundo lugar, despertou a imaginação de todos sobre a camada acima do modelo principal, ou seja, a camada de agentes inteligentes. Ela observou que cada vez mais pessoas sem formação em pesquisa começavam a participar da transformação da Inteligência Artificial Geral (IAG) por meio de estruturas de agentes mais robustas, substituindo, em certa medida, tarefas repetitivas em seu trabalho e liberando tempo para atividades mais criativas.

Ela também mencionou uma experiência de usuário específica: em comparação com o Claude Code, que só permite a criatividade em computadores, o OpenClaw permite que os usuários participem do processo criativo a qualquer hora e em qualquer lugar, e a expansão da imaginação não é limitada por nenhum cenário.

Huang Chao analisou os motivos pelos quais o OpenClaw atraiu tanta atenção, concentrando-se em seu modo de interação.

Ele acredita que o primeiro fator-chave é a "sensação de estar vivo". Ferramentas anteriores, como Cursor e Claude Code, pareciam mais ferramentas; o OpenClaw, com sua interação integrada com software de mensagens instantâneas, se assemelha mais ao Jarvis pessoal que imaginamos ser. "Essa sensação de estar vivo é a primeira vez que muitas pessoas realmente sentem que a IA está chegando."

O segundo fator é que o OpenClaw valida mais uma vez o paradigma do framework de loop de agentes, que parece simples, mas é extremamente eficiente. A terceira questão a ser considerada é se precisamos de um agente superinteligente completo ou de um sistema operacional leve ou estrutura para aproveitar todas as ferramentas e recursos de todo o ecossistema.

Ele se inclina para a segunda opção, acreditando que o OpenClaw funciona mais como um pequeno mordomo no nível do sistema operacional. Através desse ponto de entrada, cada vez mais pessoas na comunidade começam a desenvolver aplicações para esses sistemas, capacitando diversos setores com habilidades e ferramentas. Isso, naturalmente, está intimamente integrado a todo o ecossistema de código aberto.

Para concluir uma tarefa, você precisa consumir 100 vezes a quantidade original de fichas.

Yang Zhilin então direcionou a pergunta para o modelo GLM-5-Turbo recém-lançado da Zhipu e a estratégia de aumento de preço que o acompanha, questionando quais sinais de mercado isso refletia.

Zhang Peng afirmou que esta atualização é uma conquista gradual, lançada antes do prazo previsto, dentro dos objetivos gerais de desenvolvimento. Há apenas um objetivo central: passar do "diálogo" para a "execução de tarefas". O OpenClaw fez com que todos percebessem que modelos complexos podem, de fato, auxiliar as pessoas na conclusão de tarefas, mas os requisitos de capacidade desses modelos são muito maiores do que antes.

"É necessário realizar planejamento de tarefas a longo prazo, comprimir continuamente o contexto, depurar a qualquer momento e processar informações multimodais. Isso é completamente diferente do modelo de diálogo tradicional de propósito geral."

O GLM-5-Turbo implementou melhorias específicas nessas áreas, principalmente na forma de permitir que o modelo execute tarefas em loop contínuo. Também foram feitas otimizações de eficiência, possibilitando caminhos de inferência mais eficientes para lidar com tarefas complexas, evitando que os usuários vejam apenas valores em suas contas diminuindo constantemente.

Em relação ao aumento de preço, na visão dele, concluir uma tarefa complexa agora envolve uma longa cadeia de inferência por trás do modelo, exigindo programação, interação com a infraestrutura subjacente e correção constante de erros. A quantidade de tokens consumidos pode ser dez ou até cem vezes maior do que responder a uma pergunta simples. À medida que o modelo se torna maior, o custo da inferência aumenta proporcionalmente e o preço naturalmente retornará ao seu valor comercial normal.

"A longo prazo, depender da competição por preços baixos é prejudicial ao desenvolvimento de todo o setor. Precisamos de um ciclo virtuoso de negócios para otimizar continuamente as capacidades do nosso modelo e fornecer melhores serviços a todos."

As arquiteturas de computação em nuvem existentes não foram projetadas para IA.

Com o crescimento explosivo no uso de tokens e a transição da indústria da era do treinamento para a era da inferência, a pressão sobre a infraestrutura de inferência tornou-se um tópico incontornável.

Xia Lixue afirmou que a Wuwenxinqiong é uma fornecedora de infraestrutura criada na era da IA. Atualmente, ela presta serviços para empresas como Kimi e Zhipu, além de diversas universidades e instituições de pesquisa, e também coopera com a Memo. Eles têm refletido sobre uma questão central: que tipo de infraestrutura é necessária na era da Inteligência Artificial Geral (IAG) e como implementá-la e deduzi-la passo a passo.

Em sua opinião, a questão mais urgente no momento é como construir uma fábrica de tokens mais eficiente.

A abordagem da Wuwen Chip consiste em integrar software e hardware, conectando praticamente todos os tipos de chips de computação na China e interligando dezenas de chips e dezenas de clusters de poder computacional diferentes. "Quando os recursos são insuficientes, existem duas melhores maneiras: primeiro, aproveitar ao máximo todos os recursos disponíveis; segundo, garantir que cada bit de poder computacional seja usado de forma eficaz para maximizar a eficiência de conversão." Eles também estão explorando se a estrutura de modelo e a estrutura de hardware mais recentes podem criar uma sinergia mais profunda.

No entanto, ele acredita que simplesmente construir uma fábrica de tokens padronizada não é suficiente. Ele faz uma avaliação mais fundamental: a infraestrutura atual de computação em nuvem foi projetada para atender engenheiros humanos, não IA. "Construímos uma infraestrutura com interfaces projetadas para humanos e, em seguida, é preciso envolvê-la com outra camada para conectar agentes inteligentes. Essa abordagem limita o escopo de funcionamento dos agentes inteligentes usando capacidades humanas."

Ele deu um exemplo concreto: agentes inteligentes podem pensar e iniciar tarefas em segundos ou até milissegundos, mas muitas das capacidades subjacentes existentes simplesmente não estão preparadas para essa velocidade, porque os humanos normalmente levam minutos para iniciar uma tarefa. Esse problema exige o desenvolvimento de um sistema de controle mais inteligente, que eles consideram parte das capacidades da agência.

Em uma perspectiva de longo prazo, ele acredita que, quando a verdadeira era da Inteligência Artificial Geral (IAG) chegar, até mesmo a própria infraestrutura deverá se tornar um agente inteligente, capaz de autoevolução e auto-iteração, formando uma organização autônoma. "É como se a infraestrutura tivesse um CEO, e esse CEO fosse um agente que faz demandas com base nas necessidades dos clientes de IA e itera sua própria infraestrutura. Somente assim será possível criar um verdadeiro acoplamento entre IA e infraestrutura, em vez de uma relação unilateral em que uma recebe as demandas e a outra as executa."

Eles também estão explorando maneiras de aprimorar a comunicação entre agentes e os recursos de replicação de cache para cache. Em sua visão, o desenvolvimento de infraestrutura e IA deve gerar uma rica sinergia; essa é a verdadeira colaboração entre hardware e software, e é a missão que a Wuwen Chip sempre quis alcançar.

A limitação da capacidade computacional levou, inesperadamente, a um avanço significativo.

Em vez de abordar diretamente as vantagens exclusivas da Xiaomi, Luo Fuli mudou o foco para a perspectiva mais ampla de toda a equipe chinesa de desenvolvimento de modelos em larga escala, acreditando que essa perspectiva era mais valiosa.

Ela disse que, há cerca de dois anos, viu a equipe chinesa de modelagem em larga escala iniciar uma descoberta muito importante. Essa descoberta surgiu de uma proposta que lhes foi imposta: como superar as limitações da capacidade computacional de baixo custo, especialmente a largura de banda limitada das interconexões NVLink, e inovar a estrutura do modelo, aparentemente sacrificando a eficiência.

DeepSeek V2, série V3 e, posteriormente, MiniMax M1 são todos produtos desse tipo de exploração.

"Essas inovações desencadearam uma verdadeira revolução: como maximizar o nível de inteligência com uma determinada capacidade computacional. O DeepSeek deu coragem e confiança a todas as equipes nacionais de modelagem em larga escala." Ela enfatizou que, embora as restrições aos chips nacionais não sejam tão severas hoje em dia, a exploração de estruturas de modelos com maior eficiência de treinamento e menores custos de inferência, que foi impulsionada durante esse período, gerou um acúmulo tecnológico verdadeiramente valioso.

Ela mencionou várias direções específicas: arquitetura híbrida esparsa, a arquitetura KSA de Kimi e a nova estrutura da Xiaomi para a próxima geração. Todas elas diferem da atual geração de arquitetura Transformer e buscam inovar na estrutura dos modelos para a era dos agentes inteligentes.

Ela enfatizou particularmente a importância das capacidades contextuais de longo prazo e as relacionou diretamente ao OpenClaw.

"O OpenClaw fica melhor e mais inteligente quanto mais você o usa, desde que seu contexto de inferência seja longo o suficiente. Mas muitos modelos não conseguem lidar com um ou mesmo dez megabytes de contexto, não por falta de capacidade, mas por causa do custo. É muito caro e muito lento de implementar. Somente quando o custo for baixo e a velocidade for suficientemente rápida sob contextos longos é que poderemos confiar as tarefas verdadeiramente produtivas e complexas ao modelo."

Ela descreveu ainda o objetivo final desse caminho: apoiados por contextos ultralongos, os modelos podem evoluir em ambientes complexos, incluindo a otimização da própria estrutura e a iteração sobre os parâmetros do modelo. Essa abordagem requer uma arquitetura robusta de contexto longo na fase de pré-treinamento e a construção de algoritmos de aprendizado mais eficazes na fase de pós-treinamento, coletando dados reais de texto dependente a longo prazo e trajetórias ambientais complexas em contextos de um megabyte, dez megabytes ou até mesmo cem megabytes.

Ela também compartilhou alguns dados internos da equipe: com a combinação de Claude Code e modelos de ponta, os membros da equipe que realizam pesquisas com modelos em larga escala aumentaram sua eficiência de pesquisa em quase dez vezes.

Planejamento, memória e uso de ferramentas

Huang Chao analisou sistematicamente os principais problemas e as direções futuras da estrutura atual de agentes inteligentes em seus três módulos principais, a partir de uma perspectiva técnica.

Do ponto de vista do planejamento, ele acredita que a capacidade de planejar tarefas complexas e contextos extremamente longos ainda é insuficiente. Por exemplo, muitos modelos falham em tarefas de implantação que envolvem 500 etapas ou até mais, essencialmente devido à falta de conhecimento tácito no domínio vertical. Ele sugere que uma direção a seguir é incorporar o conhecimento do domínio para tarefas complexas no modelo. Ferramentas como skills e harnesses, em certa medida, mitigam erros de planejamento ao fornecerem capacidades externas de alta qualidade.

Em termos de memória, a compressão e a precisão da recuperação de informações continuam sendo desafios persistentes. À medida que a complexidade das tarefas aumenta, o contexto cresce exponencialmente e, atualmente, a maioria das estruturas de agentes inteligentes ainda depende do método de compartilhamento mais simples: sistemas de arquivos. Ele acredita que os mecanismos de memória futuros precisam evoluir para um design hierárquico, mas a generalização é difícil de alcançar porque as modalidades de dados em codificação, pesquisa profunda e cenários multimídia diferem muito. Como recuperar e indexar essa memória de forma eficiente continua sendo um dilema.

Ele também apontou uma nova fonte de pressão: no futuro, pode não haver apenas um agente; cada pessoa pode ter simultaneamente um grupo de agentes. O mecanismo de enxame de agentes de Kimi já aponta nessa direção. O aumento de contexto provocado por um grupo de agentes excederá em muito o de um único agente, exercendo uma enorme pressão sobre o mecanismo de memória e toda a arquitetura de agentes. Atualmente, não existe um mecanismo maduro para lidar com esse problema.

Em termos de utilização de ferramentas, ele acredita que habilidades de alta qualidade ainda são escassas, uma situação que reflete a escassez de ferramentas de alta qualidade durante a era do MCP (Multi-Copyright). Habilidades de baixa qualidade reduzem diretamente as taxas de conclusão de tarefas, e os riscos de segurança decorrentes de injeções maliciosas também são uma preocupação significativa. Ele argumenta que isso exige esforços colaborativos de toda a comunidade, inclusive explorando maneiras de desenvolver novas habilidades dinamicamente durante a execução, em vez de depender de configurações manuais predefinidas.

Os próximos doze meses: Ecossistema, autoevolução, tokens sustentáveis ​​e poder computacional.

Ao final do fórum, Yang Zhilin pediu a cada convidado que descrevesse a tendência mais importante para os próximos doze meses, utilizando uma palavra-chave.

Huang Chao observou que doze meses é um período muito distante no campo da IA ​​e questionou como seria o cenário até lá. Sua palavra-chave foi "ecossistema". Ele acredita que, embora as pessoas estejam usando agentes inteligentes com um senso de novidade, o verdadeiro desafio reside em integrá-los às ferramentas do dia a dia, transformando-os de assistentes pessoais em verdadeiros colaboradores. Isso requer iteração de modelos, desenvolvimento de plataformas de habilidades e o esforço conjunto de diversas ferramentas para direcionar todo o ecossistema em direção a um modelo de agente inteligente mais nativo.

Ele também fez uma previsão interessante: no futuro, grande parte do software poderá não ser mais projetada para humanos, mas sim para agentes inteligentes. Os humanos precisam de interfaces gráficas (GUIs), mas os agentes inteligentes não; todo o ecossistema está migrando de um modelo de GUI e programação multicliente (MCP) para um modelo de interface de linha de comando (CLI). Isso significa que os sistemas de software, os dados e até mesmo diversas tecnologias precisam passar por uma transformação em direção a um design nativo para agentes.

Luo Fuli usou o termo "autoevolução". Ela disse que o conceito parecia um pouco abstrato, mas que recentemente adquiriu uma compreensão mais concreta e uma abordagem prática para ele. A chave é: com um modelo suficientemente poderoso, ao adicionar uma restrição verificável à estrutura do agente e definir um loop contínuo, permitindo que o modelo otimize iterativamente o objetivo, você descobrirá que ele pode continuamente encontrar soluções melhores e funcionar autonomamente por dois ou três dias.

Ela citou um exemplo específico: em tarefas de pesquisa com critérios de avaliação claros, como explorar estruturas de modelos melhores, o modelo já consegue operar e executar autonomamente por dois ou três dias. "A auto-iteração é o único caminho para criar coisas novas que ainda não existem neste mundo. Não se trata de substituir a produtividade humana, mas de explorar o desconhecido como os melhores cientistas. Há um ano, eu pensava que isso levaria de três a cinco anos, mas agora acho que pode ser realmente alcançado em um ou dois anos."

Ela prevê que, combinada com uma estrutura de agentes autoiteráveis ​​poderosa, a aceleração da pesquisa científica será exponencial.

Xia Lixue escolheu "tokens sustentáveis". Ele afirmou que todo o processo de desenvolvimento ainda está em andamento e precisa ser sustentável. Ele usou a expressão "IA feita na China" para descrever sua visão: aproveitar as vantagens da China em energia e poder computacional por meio de uma fábrica de tokens eficiente para transformá-las continuamente em recursos de IA de alta qualidade e exportá-los globalmente.

"A lógica é a mesma, tanto para 'Made in China' quanto para 'IA Made in China'. A China pode transformar sua capacidade de produção de baixo custo em produtos de alta qualidade para exportação global, e pode, da mesma forma, transferir essa capacidade para a produção e exportação de tokens." Ele espera ver isso se concretizar ainda este ano, tornando a China a fábrica de tokens do mundo.

A palavra-chave de Zhang Peng é "poder computacional".

Na visão dele, "A premissa de toda tecnologia é que todos possam adquiri-la. Você não pode fazer uma pergunta e levar muito tempo para pensar nela e não dar uma resposta simplesmente porque o poder computacional é insuficiente. Isso definitivamente não é aceitável."

Ele mencionou um ditado que circula na indústria: "Sem cartas, sem sentimentos; falar sobre cartas fere sentimentos". A demanda explodiu dez vezes, ou até cem vezes, e grande parte dessa demanda permanece sem ser atendida. Ele acredita que o poder computacional é a questão mais urgente que exige o esforço coletivo de todos para ser resolvida nos próximos doze meses. O Lobster expandiu os limites da imaginação, mas o poder computacional, a arquitetura e a infraestrutura ainda estão em processo de aprimoramento.

#Siga a conta oficial do iFanr no WeChat: iFanr (ID do WeChat: ifanr), onde você encontrará conteúdo ainda mais interessante o mais breve possível.